首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类?

如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类?
EN

Stack Overflow用户
提问于 2016-05-24 13:51:59
回答 1查看 315关注 0票数 0

对于如何使用MinHash和分带技术进行集群设置,我有很大的疑问。

我假设每个阅读的人都对MinHash有很好的了解,所以我不会定义我正在使用的大多数术语。

我的目标是使用MinHash根据用户签名的相似性对他们进行聚类。在一个本地的、非带状的设置中,这将是微不足道的:如果它们的签名散列是相同的,那么它们就在同一个集群中。

如果我们在乐队中分割签名并独立地处理它们,我可以像我前面所说的那样对待一个乐队,并为每个乐队生成一组簇。我的问题是:我应该如何聚合这些集群?如果它们至少有一个共同点的话,就把它们合并?还是我该做点不同的事?

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-24 21:10:46

MinHash不是真正意义上的独立聚类算法。它是用于近重复检测的候选滤波器.

在查找类似的文档时,计算用于检索候选人的最小散列数。然后,你仍然需要检查这些候选人--他们可能是假阳性!签名越多,他们真正匹配的可能性就越大。

所以,如果你再考虑一下近似重复的情况:如果a是b的近重复,b是c的近重复,那么a也应该是c的近重复。如果这是成立的话,你可以把所有的匹配(经过验证)放在一起。如果不考虑分层聚类,比如合并(或不合并)候选人的策略。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37415681

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档