文章/答案/技术大牛

发布

问相似性哈希函数(Simhash)
EN

Stack Overflow用户

提问于 2012-04-23 14:58:08

回答 2查看 1.4K关注 0票数 1

我在使用散列函数时遇到了问题。我必须为文档中的每个单词分配一些数字(128位或64位)。因此，“相似度”的散列值必须与“相似度”接近。这意味着，如果值为similarity=>10022(比方说)，则为similar=>10025。它应该与相似的单词接近。另外，不同名称的哈希值应该相似。也就是说，"john“的散列值也应该与”michel“或”sita“接近……等等。如果有人知道这件事的话。

在进阶时谢谢。:)

hash-function

simhash

hash

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-05-18 20:08:56

它不是以这种方式工作的，首先您必须找到可用数据样本值的通用模型，然后将其用于流式日志消息。

票数 3

Stack Overflow用户

发布于 2012-05-18 02:36:39

有一个名为OpenNLP的库，所以通过使用这个库，您可以知道它是什么类型的单词。然后就像你说的，对于像名字这样的相似单词，可以有一个写哈希函数，在这个函数中名字或动词可以得到相似的哈希值。谢谢。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10276082

复制

相似问题

问相似性哈希函数(Simhash)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似性哈希函数(Simhash)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似性哈希函数(Simhash)
EN