文章/答案/技术大牛

发布

社区首页 >问答首页 >用于近重复检测的板条比较

问用于近重复检测的板条比较
EN

Stack Overflow用户

提问于 2018-07-27 19:04:10

回答 1查看 313关注 0票数 1

我正在研究一些代码来比较接近重复的代码。我有点被比较代码卡住了。到目前为止，这是我的艰难尝试。

//shingles are already hashed integers and I'm working on the evaluation to true via the float similar parameter.
public static boolean compareShingles(float similar, CompareObject comp1, CompareObject comp2) {
        int intersections = 0;
        if(comp1.getShingle().size()>=comp2.getShingle().size()){
        for(int i = 0; i < comp1.getShingle().size(); i++){

              if(comp1.getShingle().get(i).equals(comp2.getShingle().get(i))){
              intersections++;
              }

        }
        }
        else{
              for(int i = 0; i < comp2.getShingle().size(); i++){
                    if(comp2.getShingle().get(i).equals(comp1.getShingle().get(i))){
                    intersections++;
                    }

              }
        }
        return true; //not functional still working on when to return true
  }

如果我应该在一个数组中比较这些瓦1-1，或者我应该把一个瓦与一个循环中的所有瓦进行比较，我就有点拘束了。

例如，如果我把每一块石板和每一块石板进行比较，那么这些文件将是相同的.

{blah blah blah, Once upon a, time blah blah}
{Once upon a, time blah blah, blah blah blah}

如果我在同一个文档上做了一个位置比较，那么位置1将是“诸如此类的废话”而不是“曾经的”，那就会返回错误。

我认为循环将是更密集的过程，但这可能是正确的选择。有什么想法？

java

duplicates

bigdata

data-mining

shingles

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-14 12:32:51

命令无关紧要..。

你基本上制作了板条集，并将它们与Jaccard的相似性进行比较。它有助于有一个散列自动丢弃重复瓦。只需计算每个文档之间的匹配，并计算出需要匹配多少个文档才能认为它们是相似的。

similarity.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51564089

复制

相似问题

问用于近重复检测的板条比较
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于近重复检测的板条比较EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于近重复检测的板条比较
EN