由于问题是将多个运行不同的聚类算法结合起来，得到原始数据集的公共分区，目的是对单个聚类结果组合的结果进行合并。由于没有正确的解决方法，我们从CE的角度将CDC问题正式定义为一个优化问题，并将CE方法应用于分类数据的聚类。在实际数据集上的实验结果表明，基于CE的聚类方法在聚类精度上与现有的CDC算法相比具有很强的竞争力。

票数 1

Data Science用户

发布于 2021-03-02 12:10:33

据我所知，scikit-learn没有集成聚类库。另一方面，您可以将该方法应用于数据集，如下所示：

import numpy as np
import ClusterEnsembles as CE

kmeans1 = np.array([1, 1, 1, 2, 2, 3, 3])
kmeans2 = np.array([2, 2, 2, 3, 3, 1, 1])
kmeans3 = np.array([4, 4, 2, 2, 3, 3, 3])
kmeans4 = np.array([1, 2, np.nan, 1, 2, np.nan, np.nan]) # `np.nan`: missing value

ret = CE.cluster_ensembles(np.array([kmeans1, kmeans2, kmeans3, kmeans4]))

print(ret) # output: [1 1 1 2 2 0 0]

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/27420

复制

相似问题

问如何应用集成聚类方法？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何应用集成聚类方法？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何应用集成聚类方法？
EN