首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >改进聚类分离的替代方法?

改进聚类分离的替代方法?
EN

Data Science用户
提问于 2017-03-10 22:28:54
回答 2查看 441关注 0票数 1

我有以下标记的集群,这是理想的聚类算法会产生的结果:

现在,我已经将一个基本的K-均值聚类算法应用于数据,其结果如下:

我认识到,这是一个很难正确集群的问题,因为其中一些类非常相似。

但我想知道是否有其他算法可以帮助我提高集群的可分性,并提高我的无监督聚类算法在新数据上的工作效果?

EN

回答 2

Data Science用户

回答已采纳

发布于 2017-03-11 18:56:53

你的数据似乎不容易分离。一般来说,我们可以应用某种转换来分离每个类的分布。有了标签,原则上就有可能学习这样的转换(如@Emre在注释中使用)。但是,您的特定数据集存在一些问题。1)您似乎没有很多数据点(除非您只绘制了一个小的子集)。这将限制您进行非常简单的转换(否则可能会出现严重的过度适应)。( 2)各点相互重叠。转换只能基于它的输入来工作,如果坐标无法区分,就什么也做不了。在最好的情况下,你可以把左下角的绿松石星系团和黄色点拉得离主质量更远,但其余的点基本上是混合的。任何能够在培训数据中将它们分开的转换都将是非常复杂的,而且可能只是反映样本噪声(即它可能完全适合,而不是泛化为新的数据)。

理想的做法是寻找/测量额外的(相关的)变量。在这种情况下,类在高维空间中可能成为可分离的。例如,想象添加第三个轴,其中红色点被“提升”在蓝色点之上。

票数 3
EN

Data Science用户

发布于 2017-03-22 02:18:52

聚类本身不能提取有标签的类。如果你有标签,那么你应该使用带监督算法的标签。没有理由认为任何聚类都应该与预先提供的类标签一致。想象一下,数据集的分布是完全一致的。可以为这些数据设置类标签,这些数据可以非常任意(甚至可以限制为任意凸区域)。对于完全均匀分布的数据,您应该期望得到什么聚类结果?除了偶然的情况外,是否有任何理由可以配合任何特定的类别标签呢?聚类对应于数据集的分布属性。除非类标签碰巧与这些分布属性对齐(而且它们没有理由这样做),否则集群就无法恢复标签。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/17507

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档