首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将相似字符串散列为相同的散列值

将相似字符串散列为相同的散列值
EN

Stack Overflow用户
提问于 2012-05-15 19:03:51
回答 1查看 3.4K关注 0票数 4

是否有某种散列算法可以将相似的文本文档散列为特定的散列值?

例如,

A= "This is Sample Text 1“B= "This is Sample Text 2”

A和B需要散列为相同的值。

我做了一些研究,阅读了一些关于SimHash和LSH算法的文章。Simhash会导致哈希冲突,可以使用汉明距离来定义相似度。

理想情况下,我希望“如果字符串A和字符串B相差一个可接受的相似性阈值(t < tmax),则将A和B散列为相同的散列值。”

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-05-15 20:18:19

一个显而易见的选择是使用Soundex或其变体之一(取决于这些单词的语言)。

你没有指定你需要这个做什么。

  • 如果您需要创建某种哈希表变体,将相似的字符串放在同一存储桶中,soundex变体可以工作,但您需要考虑可能发生冲突的可能性。
  • 如果您只需要说明两个字符串有多相似,您也可以查看名为Simil的算法;请参阅this link,或拼写检查相关算法。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10599401

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档