文章/答案/技术大牛

发布

社区首页 >问答首页 >当聚类数不等于数据集类时如何计算聚类结果

问当聚类数不等于数据集类时如何计算聚类结果
EN

Data Science用户

提问于 2015-11-26 03:45:19

回答 2查看 2K关注 0票数 1

当应用具有多类数据集和类数的聚类算法时，不等于结果聚类数(例如，当我们使用K-均值算法时，通过设置K=3，应用于包含14个类的“酵母”数据集)。

在这种情况下，评估结果的正确方法是什么？

clustering

multiclass-classification

model-evaluations

unsupervised-learning

回答 2

Data Science用户

发布于 2015-11-26 06:28:37

第一步是训练几个不同的算法/分类器，以便在不改变数据的情况下大致了解您的结果会有多好。

然后，一旦你完成了你的方法，你就可以使用这些信息来改进你的数据，然后再通过你的分类器来查看你的结果是否有所改善。

当我说“使用这些信息来改进您的数据”时，我的意思是：

假设您的数据有5个特性(列)...see，以下是完全合成的数据.

2,5,6,3,2

4,5,2,3,7

..。

5,8,2,3,5

正是这些数据在kmeans...using 3集群中运行，您的每一行数据都将“属于”一个cluster...so，将其添加到您的数据中，您的数据将变成：

2，5，6，3，2，1，0属于第1组

4,5,2,3,7,0,1,0属于第2组

..。

5，8，2，3，5，0，0，0，1属于第3组

您只需添加一列，并使其为1,2,3，但有些算法更喜欢0/1方法(一次热编码，虚拟变量)。

看，现在您的数据中包含了比开始时更多的信息。拥有前后比较模型会让你知道它是否真的是有用的信息！

票数 1

Data Science用户

发布于 2015-11-26 07:07:15

即使簇数相等，kt也很少认为有一对一的簇与类相匹配。例如，一个类可能被分成两个集群，两个类可能是不可分辨的，因此在同一个集群中。

事实上，如果集群与您的类不同，那么它是最有趣的！

为了比较集群(和类)，已经开发了许多度量标准。大多数是基于对计数，而兰德指数是最流行的。

不是对象，而是一对对象:它们在同一个集群和同一个类中吗？然后这对是“真正的积极”。

有关更多细节，请参见维基百科。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/9037

复制

相似问题

问当聚类数不等于数据集类时如何计算聚类结果
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当聚类数不等于数据集类时如何计算聚类结果EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当聚类数不等于数据集类时如何计算聚类结果
EN