首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有对距离的聚类算法,而不计算所有成对距离?

是否有对距离的聚类算法,而不计算所有成对距离?
EN

Data Science用户
提问于 2019-03-08 16:34:00
回答 2查看 1.4K关注 0票数 5

我正在寻找一种聚类算法,通过使用对象的成对距离来对对象进行聚类,而不需要计算所有成对距离。

通常,成对的聚类如下所示:(请参阅这里)

  1. 计算对象的所有成对组合之间的全距离矩阵
  2. 假设距离为非欧氏距离,则可以在距离矩阵上使用谱聚类亲和力传播,并检索聚类结果。

然而,

来了:

计算所有对组合对象的全距离矩阵在计算上是非常昂贵的。所以我的想法是,是否有一些聚类算法只对成对距离的子集进行查找,所以不需要计算整个矩阵?

我知道谱聚类也适用于稀疏矩阵,但是由于理论上可以计算所有成对距离,所以哪一种距离应该被忽略?

很想听听你的想法,谢谢!

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-03-09 08:43:17

嗯,人们可能会说DBSCAN是基于所有成对距离的,但是它使用数据索引来避免使用几何边界来计算它们。

如果你浏览文学,还有其他的例子。

例如,经典的CLARA方法是PAM的近似值,它避免计算所有成对距离。

还有更多这样的技术。

票数 3
EN

Data Science用户

发布于 2019-03-08 19:46:10

您可以使用局部性敏感散列技术Wiki文章

这样,您可以估计两个文档之间的Jaccard相似性(MinHash)或余弦相似性(SimHash),然后在文档集合上应用聚类。

MinHash代码有一个很好的例子。我从这篇文章中得到的是下面的引文

在示例代码中,我们收集了10,000篇文章,平均每篇包含250条。直接为所有对计算Jaccard相似点在我的PC上需要20分钟,而生成和比较MinHash签名只需大约2分45秒。

MinHash代码的解释

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档