首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用哈希函数删除重复的内容/文本

使用哈希函数删除重复的内容/文本
EN

Stack Overflow用户
提问于 2013-09-19 15:38:17
回答 1查看 388关注 0票数 0

我有一个网站有很多内容,我正在努力消除重复。为此,我需要比较两个字符串,并检查它们的匹配百分比。我使用的是ruby simhash gem:https://github.com/bookmate/simhash

gem接受一个字符串并返回一个整数散列。我不确定如何比较这两个散列。

代码语言:javascript
复制
X = 'King Gillette'.simhash(:split_by => //)

y = 'King Camp Gillette'.simhash(:split_by => //) 

X >> 13716569836

y >> 13809628900

我可以先取差额,再取百分比吗?这是否表明了字符串之间的差异?

EN

回答 1

Stack Overflow用户

发布于 2013-09-19 16:01:59

如果你想删除那些重复的字符串,或者你想要字符串之间的差异,如果我做对了,那么很简单,你可以这样做……

代码语言:javascript
复制
>>a1='King Gillette'.split(" ")  
>>=> ["King", "Gillette"]  
>>a2='King Camp Gillette'.split(" ")  
>>=> ["King", "Camp", "Gillette"]  
>> a2-a1  
>>["Camp"]  
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18888805

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档