我在使用散列函数时遇到了问题。我必须为文档中的每个单词分配一些数字(128位或64位)。因此,“相似度”的散列值必须与“相似度”接近。这意味着,如果值为similarity=>10022(比方说),则为similar=>10025。它应该与相似的单词接近。另外,不同名称的哈希值应该相似。也就是说,"john“的散列值也应该与”michel“或”sita“接近……等等。如果有人知道这件事的话。
在进阶时谢谢。:)
发布于 2012-05-18 20:08:56
它不是以这种方式工作的,首先您必须找到可用数据样本值的通用模型,然后将其用于流式日志消息。
发布于 2012-05-18 02:36:39
有一个名为OpenNLP的库,所以通过使用这个库,您可以知道它是什么类型的单词。然后就像你说的,对于像名字这样的相似单词,可以有一个写哈希函数,在这个函数中名字或动词可以得到相似的哈希值。谢谢。
https://stackoverflow.com/questions/10276082
复制相似问题