首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用sim散列检测接近重复的文档

使用sim散列检测接近重复的文档
EN

Stack Overflow用户
提问于 2019-01-28 15:51:33
回答 1查看 1K关注 0票数 2

我在github中找到了这个python项目,但是当我试图使用它来检测接近重复的文档(例如json )时,我没有从README.md文件中获得足够的信息,说明如何做到这一点?它只显示了计算

代码语言:javascript
复制
import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

如何使用

代码语言:javascript
复制
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止我尝试过的:克隆这个回购后的,我已经安装了所有的需求,但是当我尝试运行setup.pybench.py时,它显示了

ImportError:没有名为simhash.simhash的模块

这个项目很棒,但是我遇到了这个困难,因为README.md文件对不是很有描述性--如何创建文档的散列?如何传递散列?--如何检测副本附近?。所以我需要帮助,怎么才能对我的文件做散列呢?有人能帮助我如何使用这个使用python的sim散列来实现几乎重复的文档检测,或者提供任何一步一步的教程链接来实现这一点吗?顺便说一下,我看到了,但这并不包含实现它的完整步骤。

EN

回答 1

Stack Overflow用户

发布于 2021-03-31 09:18:57

尝尝这个

代码语言:javascript
复制
pip install git+https://github.com/seomoz/simhash-py.git

此外,关于更多的描述,dlecocq已经在这个问题上发布了。下面是这方面的链接

https://github.com/seomoz/simhash-py/issues/47

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54405663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档