首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >相似性哈希函数(Simhash)

相似性哈希函数(Simhash)
EN

Stack Overflow用户
提问于 2012-04-23 14:58:08
回答 2查看 1.4K关注 0票数 1

我在使用散列函数时遇到了问题。我必须为文档中的每个单词分配一些数字(128位或64位)。因此,“相似度”的散列值必须与“相似度”接近。这意味着,如果值为similarity=>10022(比方说),则为similar=>10025。它应该与相似的单词接近。另外,不同名称的哈希值应该相似。也就是说,"john“的散列值也应该与”michel“或”sita“接近……等等。如果有人知道这件事的话。

在进阶时谢谢。:)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-05-18 20:08:56

它不是以这种方式工作的,首先您必须找到可用数据样本值的通用模型,然后将其用于流式日志消息。

票数 3
EN

Stack Overflow用户

发布于 2012-05-18 02:36:39

有一个名为OpenNLP的库,所以通过使用这个库,您可以知道它是什么类型的单词。然后就像你说的,对于像名字这样的相似单词,可以有一个写哈希函数,在这个函数中名字或动词可以得到相似的哈希值。谢谢。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10276082

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档