文章/答案/技术大牛

发布

社区首页 >问答首页 >使用sim散列检测接近重复的文档

问使用sim散列检测接近重复的文档
EN

Stack Overflow用户

提问于 2019-01-28 15:51:33

回答 1查看 1K关注 0票数 2

我在github中找到了这个python项目，但是当我试图使用它来检测接近重复的文档(例如json )时，我没有从README.md文件中获得足够的信息，说明如何做到这一点？它只显示了计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

和如何使用

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止我尝试过的:克隆这个回购后的，我已经安装了所有的需求，但是当我尝试运行setup.py或bench.py时，它显示了

ImportError:没有名为simhash.simhash的模块

这个项目很棒，但是我遇到了这个困难，因为README.md文件对不是很有描述性--如何创建文档的散列？，如何传递散列？和--如何检测副本附近？。所以我需要帮助，怎么才能对我的文件做散列呢？有人能帮助我如何使用这个使用python的sim散列来实现几乎重复的文档检测，或者提供任何一步一步的教程链接来实现这一点吗？顺便说一下，我看到了那，但这并不包含实现它的完整步骤。

python

duplicates

simhash

回答 1

Stack Overflow用户

发布于 2021-03-31 09:18:57

尝尝这个

pip install git+https://github.com/seomoz/simhash-py.git

此外，关于更多的描述，dlecocq已经在这个问题上发布了。下面是这方面的链接

https://github.com/seomoz/simhash-py/issues/47

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54405663

复制

相似问题

问使用sim散列检测接近重复的文档
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用sim散列检测接近重复的文档EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用sim散列检测接近重复的文档
EN