假设我有10个无序列表,每个列表包含100个字符串元素。找到哪些列表与另一个或多个列表高度重叠(例如50%+)的最快方法是什么,以及它们与哪些列表重叠?
如果我们将其扩展到1,000,000,000个无序列表,每个列表包含10,000个字符串,会发生什么?识别这些列表的最有效方法是什么?
发布于 2017-01-14 22:48:41
这是一个很慢的操作。您将从所有列表中创建一个集合。然后将一个与所有其他的进行比较,将某个分数保存在哈希表中或诸如此类的东西中,然后继续下一个并再次进行。它非常慢,并且不能很好地扩展,但根据您正在寻找的域,可能会有专门针对该操作的算法(和数据结构)。例如模糊搜索和字符串匹配。你的问题太宽泛了。你想做的具体是什么?
发布于 2017-01-14 23:58:50
如果你想找到两个文档之间的相似之处,你应该看看TfidVectorize。您能为我们提供一些样本清单或文件和所需的输出吗?
https://stackoverflow.com/questions/41651167
复制相似问题