我如何快速搜索一个包含5mil 128bit (或256,取决于您如何看待它)字符串的列表,并找到重复的字符串(在python中)?我可以将字符串转换为数字,但我认为这不会有太大帮助。既然我学的信息论不多,信息论里面有没有关于这方面的东西?
因为这些已经是散列了,所以没有必要再次散列它们
发布于 2010-05-18 05:27:52
这个数组排序了吗?
我认为最快的解决方案是堆排序或快速排序,然后遍历数组,找到重复项。
发布于 2010-05-18 05:54:56
如果它适合内存,则使用set()。我认为它会比排序更快。对于500万个项目,O(n log n)将花费您。
如果它不能存储在内存中,那么就说你已经记录了500多万条记录,分而治之。在中点打破记录,比如1x2^127。应用上述任何一种方法。我猜信息论有助于说明一个好的散列函数将均匀地分配密钥。因此,除以中点的方法应该很有效。
您还可以应用分而治之,即使它可以放入内存。对2x250万条记录进行排序比对5百万条记录进行排序更快。
发布于 2010-05-18 05:29:46
将它们加载到内存中(5M x 64B = 320MB),对它们进行排序,然后扫描它们以查找重复项。
https://stackoverflow.com/questions/2852912
复制相似问题