首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果您有n个列表,那么查找哪些字符串列表相似的最有效方法是什么?

如果您有n个列表,那么查找哪些字符串列表相似的最有效方法是什么?
EN

Stack Overflow用户
提问于 2017-01-14 22:41:24
回答 2查看 17关注 0票数 0

假设我有10个无序列表,每个列表包含100个字符串元素。找到哪些列表与另一个或多个列表高度重叠(例如50%+)的最快方法是什么,以及它们与哪些列表重叠?

如果我们将其扩展到1,000,000,000个无序列表,每个列表包含10,000个字符串,会发生什么?识别这些列表的最有效方法是什么?

EN

回答 2

Stack Overflow用户

发布于 2017-01-14 22:48:41

这是一个很慢的操作。您将从所有列表中创建一个集合。然后将一个与所有其他的进行比较,将某个分数保存在哈希表中或诸如此类的东西中,然后继续下一个并再次进行。它非常慢,并且不能很好地扩展,但根据您正在寻找的域,可能会有专门针对该操作的算法(和数据结构)。例如模糊搜索和字符串匹配。你的问题太宽泛了。你想做的具体是什么?

票数 0
EN

Stack Overflow用户

发布于 2017-01-14 23:58:50

如果你想找到两个文档之间的相似之处,你应该看看TfidVectorize。您能为我们提供一些样本清单或文件和所需的输出吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41651167

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档