我正在对数据进行聚类(尝试多个算法),并试图评估每个算法产生的集群的一致性/完整性。我没有任何基本的真实标签,这排除了相当多的指标来分析性能。
到目前为止,我一直在使用剪影得分以及calinski harabaz得分(从滑雪)。然而,有了这些分数,我才能比较聚类的完整性,如果我从算法中产生的标签建议至少有两个聚类--但我的一些算法认为一个集群是最可靠的。
因此,如果您没有任何基本的真实标签,您如何评估所提议的聚类算法是否比所有的数据都分配在一个集群中更好?
发布于 2018-07-15 07:58:28
不要仅仅依靠一些启发,因为有人提出了一个非常不同的问题。
聚类的关键是仔细考虑您正在处理的问题。提出数据的正确方法是什么?如何缩放(或不缩放)?如何度量两个记录的相似性,使其量化对您的领域有意义的东西。
它不是关于选择正确的算法;你的任务是做的数学,把你的领域问题与算法所做的。别把它当成黑匣子。基于评估步骤选择方法是行不通的:已经太晚了;您可能已经在预处理中做了一些错误的决定,使用了错误的距离、缩放和其他参数。
https://stackoverflow.com/questions/51343116
复制相似问题