首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >搜索大数据集

搜索大数据集
EN

Stack Overflow用户
提问于 2010-05-18 05:23:01
回答 5查看 1.3K关注 0票数 0

我如何快速搜索一个包含5mil 128bit (或256,取决于您如何看待它)字符串的列表,并找到重复的字符串(在python中)?我可以将字符串转换为数字,但我认为这不会有太大帮助。既然我学的信息论不多,信息论里面有没有关于这方面的东西?

因为这些已经是散列了,所以没有必要再次散列它们

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2010-05-18 05:27:52

这个数组排序了吗?

我认为最快的解决方案是堆排序或快速排序,然后遍历数组,找到重复项。

票数 1
EN

Stack Overflow用户

发布于 2010-05-18 05:54:56

如果它适合内存,则使用set()。我认为它会比排序更快。对于500万个项目,O(n log n)将花费您。

如果它不能存储在内存中,那么就说你已经记录了500多万条记录,分而治之。在中点打破记录,比如1x2^127。应用上述任何一种方法。我猜信息论有助于说明一个好的散列函数将均匀地分配密钥。因此,除以中点的方法应该很有效。

您还可以应用分而治之,即使它可以放入内存。对2x250万条记录进行排序比对5百万条记录进行排序更快。

票数 4
EN

Stack Overflow用户

发布于 2010-05-18 05:29:46

将它们加载到内存中(5M x 64B = 320MB),对它们进行排序,然后扫描它们以查找重复项。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2852912

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档