我在github中找到了这个python项目,但是当我试图使用它来检测接近重复的文档(例如json )时,我没有从README.md文件中获得足够的信息,说明如何做到这一点?它只显示了计算
import simhash
a = simhash.compute(...)
b = simhash.compute(...)
simhash.num_differing_bits(a, b)和如何使用
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)到目前为止我尝试过的:克隆这个回购后的,我已经安装了所有的需求,但是当我尝试运行setup.py或bench.py时,它显示了
ImportError:没有名为simhash.simhash的模块
这个项目很棒,但是我遇到了这个困难,因为README.md文件对不是很有描述性--如何创建文档的散列?,如何传递散列?和--如何检测副本附近?。所以我需要帮助,怎么才能对我的文件做散列呢?有人能帮助我如何使用这个使用python的sim散列来实现几乎重复的文档检测,或者提供任何一步一步的教程链接来实现这一点吗?顺便说一下,我看到了那,但这并不包含实现它的完整步骤。
发布于 2021-03-31 09:18:57
尝尝这个
pip install git+https://github.com/seomoz/simhash-py.git此外,关于更多的描述,dlecocq已经在这个问题上发布了。下面是这方面的链接
https://stackoverflow.com/questions/54405663
复制相似问题