我有一组集群,每个集群都包含一个简短的文档列表。我想要计算出每个星系团有多连贯和有凝聚力,并过滤掉不连贯的和不连贯的。
我知道簇内距离和簇内离散度,它们分别是计算聚类评价指标轮廓系数和Calinski-Harabaz指数的一部分。我的问题是,还有其他度量或方法来计算这样的簇内一致性或凝聚力吗?有什么我不知道的标准方法吗?谢谢。
发布于 2018-04-14 09:46:40
轮廓系数是一个很好的选择。Calinski-Harabaz指数已被证明是不稳定的,以评估噪声数据集,所以我建议剪影系数比Calinski-Harabaz指数。
基于最近邻(CVNN)指标的聚类验证指数(CVNN)在具有高噪声、任意形状的聚类和倾斜分布的数据集中具有良好的性能。
您可以尝试使用的其他一些验证措施是SD有效性指数、S_Dbw有效性指数和谢本尼指数。
下面是一个很好的手稿,用于内部聚类验证度量原稿。
https://datascience.stackexchange.com/questions/30284
复制相似问题