对于如何使用MinHash和分带技术进行集群设置,我有很大的疑问。
我假设每个阅读的人都对MinHash有很好的了解,所以我不会定义我正在使用的大多数术语。
我的目标是使用MinHash根据用户签名的相似性对他们进行聚类。在一个本地的、非带状的设置中,这将是微不足道的:如果它们的签名散列是相同的,那么它们就在同一个集群中。
如果我们在乐队中分割签名并独立地处理它们,我可以像我前面所说的那样对待一个乐队,并为每个乐队生成一组簇。我的问题是:我应该如何聚合这些集群?如果它们至少有一个共同点的话,就把它们合并?还是我该做点不同的事?
谢谢
发布于 2016-05-24 21:10:46
MinHash不是真正意义上的独立聚类算法。它是用于近重复检测的候选滤波器.
在查找类似的文档时,计算用于检索候选人的最小散列数。然后,你仍然需要检查这些候选人--他们可能是假阳性!签名越多,他们真正匹配的可能性就越大。
所以,如果你再考虑一下近似重复的情况:如果a是b的近重复,b是c的近重复,那么a也应该是c的近重复。如果这是成立的话,你可以把所有的匹配(经过验证)放在一起。如果不考虑分层聚类,比如合并(或不合并)候选人的策略。
https://stackoverflow.com/questions/37415681
复制相似问题