首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何分析没有真实标签的聚类的完整性?

如何分析没有真实标签的聚类的完整性?
EN

Stack Overflow用户
提问于 2018-07-14 20:27:44
回答 2查看 2.1K关注 0票数 1

我正在对数据进行聚类(尝试多个算法),并试图评估每个算法产生的集群的一致性/完整性。我没有任何基本的真实标签,这排除了相当多的指标来分析性能。

到目前为止,我一直在使用剪影得分以及calinski harabaz得分(从滑雪)。然而,有了这些分数,我才能比较聚类的完整性,如果我从算法中产生的标签建议至少有两个聚类--但我的一些算法认为一个集群是最可靠的。

因此,如果您没有任何基本的真实标签,您如何评估所提议的聚类算法是否比所有的数据都分配在一个集群中更好?

EN

回答 2

Stack Overflow用户

发布于 2018-07-15 07:58:28

不要仅仅依靠一些启发,因为有人提出了一个非常不同的问题。

聚类的关键是仔细考虑您正在处理的问题。提出数据的正确方法是什么?如何缩放(或不缩放)?如何度量两个记录的相似性,使其量化对您的领域有意义的东西。

它不是关于选择正确的算法;你的任务是做的数学,把你的领域问题与算法所做的。别把它当成黑匣子。基于评估步骤选择方法是行不通的:已经太晚了;您可能已经在预处理中做了一些错误的决定,使用了错误的距离、缩放和其他参数。

票数 0
EN

Stack Overflow用户

发布于 2018-07-15 21:18:43

如果您正在寻找更多无监督的聚类指标,除了您提到的标准外(为了更好地确定您的发现),您可以尝试使用以下指标:

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51343116

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档