假设我有两种方法对同一数据集进行聚类,并希望计算它们输出的相似度。我将不得不计算一些类似于相关性的东西,但集群标签是一个分类变量。我考虑过使用卡方,但当列联表中的多个单元格<5时,不建议使用卡方(当聚类非常相似时,这将经常发生)。另一个线索是使用Fisher的精确测试,但Python scipy实现只适用于2x2的列联式矩阵,我可能会使用更大的矩阵(例如10x10或8x6 )。
有没有以这种方式比较集群的其他既定方法?有没有它们的Python实现?
发布于 2020-03-31 16:06:55
https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation提供了优秀的Python实现。每种方法都有自己的优点和缺点。既用于将聚类结果与其地面真实标签(外部)进行比较,也用于根据诸如聚类质心之间的距离(内部)等标准来评估聚类结果。权变矩阵可以很好地洞察你的聚类,但不会给出一个数值来证明你的聚类是好的。
如果您的数据集非常大,并且具有许多维度,则内部验证度量可能会非常慢。
https://stackoverflow.com/questions/60932786
复制相似问题