发布于 2019-03-09 08:43:17
嗯,人们可能会说DBSCAN是基于所有成对距离的,但是它使用数据索引来避免使用几何边界来计算它们。
如果你浏览文学,还有其他的例子。
例如,经典的CLARA方法是PAM的近似值,它避免计算所有成对距离。
还有更多这样的技术。
发布于 2019-03-08 19:46:10
您可以使用局部性敏感散列技术Wiki文章。
这样,您可以估计两个文档之间的Jaccard相似性(MinHash)或余弦相似性(SimHash),然后在文档集合上应用聚类。
MinHash代码有一个很好的例子。我从这篇文章中得到的是下面的引文
在示例代码中,我们收集了10,000篇文章,平均每篇包含250条。直接为所有对计算Jaccard相似点在我的PC上需要20分钟,而生成和比较MinHash签名只需大约2分45秒。
MinHash代码的解释
https://datascience.stackexchange.com/questions/46950
复制相似问题