首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当聚类数不等于数据集类时如何计算聚类结果

当聚类数不等于数据集类时如何计算聚类结果
EN

Data Science用户
提问于 2015-11-26 03:45:19
回答 2查看 2K关注 0票数 1

当应用具有多类数据集和类数的聚类算法时,不等于结果聚类数(例如,当我们使用K-均值算法时,通过设置K=3,应用于包含14个类的“酵母”数据集)。

在这种情况下,评估结果的正确方法是什么?

EN

回答 2

Data Science用户

发布于 2015-11-26 06:28:37

第一步是训练几个不同的算法/分类器,以便在不改变数据的情况下大致了解您的结果会有多好。

然后,一旦你完成了你的方法,你就可以使用这些信息来改进你的数据,然后再通过你的分类器来查看你的结果是否有所改善。

当我说“使用这些信息来改进您的数据”时,我的意思是:

假设您的数据有5个特性(列)...see,以下是完全合成的数据.

2,5,6,3,2

4,5,2,3,7

..。

5,8,2,3,5

正是这些数据在kmeans...using 3集群中运行,您的每一行数据都将“属于”一个cluster...so,将其添加到您的数据中,您的数据将变成:

2,5,6,3,2,1,0属于第1组

4,5,2,3,7,0,1,0属于第2组

..。

5,8,2,3,5,0,0,0,1属于第3组

您只需添加一列,并使其为1,2,3,但有些算法更喜欢0/1方法(一次热编码,虚拟变量)。

看,现在您的数据中包含了比开始时更多的信息。拥有前后比较模型会让你知道它是否真的是有用的信息!

票数 1
EN

Data Science用户

发布于 2015-11-26 07:07:15

即使簇数相等,kt也很少认为有一对一的簇与类相匹配。例如,一个类可能被分成两个集群,两个类可能是不可分辨的,因此在同一个集群中。

事实上,如果集群与您的类不同,那么它是最有趣的!

为了比较集群(和类),已经开发了许多度量标准。大多数是基于对计数,而兰德指数是最流行的。

不是对象,而是一对对象:它们在同一个集群和同一个类中吗?然后这对是“真正的积极”。

有关更多细节,请参见维基百科。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/9037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档