是否有某种散列算法可以将相似的文本文档散列为特定的散列值?
例如,
A= "This is Sample Text 1“B= "This is Sample Text 2”
A和B需要散列为相同的值。
我做了一些研究,阅读了一些关于SimHash和LSH算法的文章。Simhash会导致哈希冲突,可以使用汉明距离来定义相似度。
理想情况下,我希望“如果字符串A和字符串B相差一个可接受的相似性阈值(t < tmax),则将A和B散列为相同的散列值。”
发布于 2012-05-15 20:18:19
一个显而易见的选择是使用Soundex或其变体之一(取决于这些单词的语言)。
你没有指定你需要这个做什么。
https://stackoverflow.com/questions/10599401
复制相似问题