问大数据集的python中的共识聚类
EN

Stack Overflow用户

提问于 2021-03-07 16:50:51

回答 1查看 346关注 0票数 0

我在python here中找到了一个非常好的共识聚类实现。

然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。

对于大型数据集上的共识聚类，有没有高效的python实现？

python

cluster-analysis

consensus

回答 1

Stack Overflow用户

发布于 2021-07-22 05:31:36

我正面临着一个类似的问题，我需要在一个大型数据集上进行共识聚类，这将产生一个1,000,000 x 1,000,000共识矩阵(希望是相当稀疏的手指)。虽然我还没有解决这个问题，但我在论文中找到了一些线索：Accelerating high-dimensional clustering with lossless data reduction，他们开发了自己的R算法来进行无损数据约简，然后使用R包ConsensusClusterPlus。我知道这不是一个真正的答案，它是用R实现的，而不是Python，但希望它能让人们像我一样，朝着正确的方向前进！

更新

我最终在python here中实现了this paper中描述的共识聚类算法。在一个包含超过1,000,000个单元和大约50个特征的数据集上，我能够在几分钟内运行FastPG等单独的聚类算法，然后将这些结果作为共识聚类算法的输入，该算法也在几分钟内运行。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66514694

复制

相似问题

问大数据集的python中的共识聚类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大数据集的python中的共识聚类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大数据集的python中的共识聚类
EN