当应用具有多类数据集和类数的聚类算法时,不等于结果聚类数(例如,当我们使用K-均值算法时,通过设置K=3,应用于包含14个类的“酵母”数据集)。
在这种情况下,评估结果的正确方法是什么?
发布于 2015-11-26 06:28:37
第一步是训练几个不同的算法/分类器,以便在不改变数据的情况下大致了解您的结果会有多好。
然后,一旦你完成了你的方法,你就可以使用这些信息来改进你的数据,然后再通过你的分类器来查看你的结果是否有所改善。
当我说“使用这些信息来改进您的数据”时,我的意思是:
假设您的数据有5个特性(列)...see,以下是完全合成的数据.
2,5,6,3,2
4,5,2,3,7
..。
5,8,2,3,5
正是这些数据在kmeans...using 3集群中运行,您的每一行数据都将“属于”一个cluster...so,将其添加到您的数据中,您的数据将变成:
2,5,6,3,2,1,0属于第1组
4,5,2,3,7,0,1,0属于第2组
..。
5,8,2,3,5,0,0,0,1属于第3组
您只需添加一列,并使其为1,2,3,但有些算法更喜欢0/1方法(一次热编码,虚拟变量)。
看,现在您的数据中包含了比开始时更多的信息。拥有前后比较模型会让你知道它是否真的是有用的信息!
发布于 2015-11-26 07:07:15
即使簇数相等,kt也很少认为有一对一的簇与类相匹配。例如,一个类可能被分成两个集群,两个类可能是不可分辨的,因此在同一个集群中。
事实上,如果集群与您的类不同,那么它是最有趣的!
为了比较集群(和类),已经开发了许多度量标准。大多数是基于对计数,而兰德指数是最流行的。
不是对象,而是一对对象:它们在同一个集群和同一个类中吗?然后这对是“真正的积极”。
有关更多细节,请参见维基百科。
https://datascience.stackexchange.com/questions/9037
复制相似问题