首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >度量文档聚类内聚度

度量文档聚类内聚度
EN

Data Science用户
提问于 2018-04-13 19:31:15
回答 1查看 208关注 0票数 0

我有一组集群,每个集群都包含一个简短的文档列表。我想要计算出每个星系团有多连贯和有凝聚力,并过滤掉不连贯的和不连贯的。

我知道簇内距离和簇内离散度,它们分别是计算聚类评价指标轮廓系数和Calinski-Harabaz指数的一部分。我的问题是,还有其他度量或方法来计算这样的簇内一致性或凝聚力吗?有什么我不知道的标准方法吗?谢谢。

EN

回答 1

Data Science用户

发布于 2018-04-14 09:46:40

轮廓系数是一个很好的选择。Calinski-Harabaz指数已被证明是不稳定的,以评估噪声数据集,所以我建议剪影系数比Calinski-Harabaz指数。

基于最近邻(CVNN)指标的聚类验证指数(CVNN)在具有高噪声、任意形状的聚类和倾斜分布的数据集中具有良好的性能。

您可以尝试使用的其他一些验证措施是SD有效性指数、S_Dbw有效性指数和谢本尼指数。

下面是一个很好的手稿,用于内部聚类验证度量原稿

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/30284

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档