文章/答案/技术大牛

发布

社区首页 >问答首页 >改进聚类分离的替代方法？

问改进聚类分离的替代方法？
EN

Data Science用户

提问于 2017-03-10 22:28:54

回答 2查看 441关注 0票数 1

我有以下标记的集群，这是理想的聚类算法会产生的结果：

现在，我已经将一个基本的K-均值聚类算法应用于数据，其结果如下：

我认识到，这是一个很难正确集群的问题，因为其中一些类非常相似。

但我想知道是否有其他算法可以帮助我提高集群的可分性，并提高我的无监督聚类算法在新数据上的工作效果？

clustering

回答 2

Data Science用户

回答已采纳

发布于 2017-03-11 18:56:53

你的数据似乎不容易分离。一般来说，我们可以应用某种转换来分离每个类的分布。有了标签，原则上就有可能学习这样的转换(如@Emre在注释中使用)。但是，您的特定数据集存在一些问题。1)您似乎没有很多数据点(除非您只绘制了一个小的子集)。这将限制您进行非常简单的转换(否则可能会出现严重的过度适应)。( 2)各点相互重叠。转换只能基于它的输入来工作，如果坐标无法区分，就什么也做不了。在最好的情况下，你可以把左下角的绿松石星系团和黄色点拉得离主质量更远，但其余的点基本上是混合的。任何能够在培训数据中将它们分开的转换都将是非常复杂的，而且可能只是反映样本噪声(即它可能完全适合，而不是泛化为新的数据)。

理想的做法是寻找/测量额外的(相关的)变量。在这种情况下，类在高维空间中可能成为可分离的。例如，想象添加第三个轴，其中红色点被“提升”在蓝色点之上。

票数 3

Data Science用户

发布于 2017-03-22 02:18:52

聚类本身不能提取有标签的类。如果你有标签，那么你应该使用带监督算法的标签。没有理由认为任何聚类都应该与预先提供的类标签一致。想象一下，数据集的分布是完全一致的。可以为这些数据设置类标签，这些数据可以非常任意(甚至可以限制为任意凸区域)。对于完全均匀分布的数据，您应该期望得到什么聚类结果？除了偶然的情况外，是否有任何理由可以配合任何特定的类别标签呢？聚类对应于数据集的分布属性。除非类标签碰巧与这些分布属性对齐(而且它们没有理由这样做)，否则集群就无法恢复标签。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/17507

复制

相似问题

问改进聚类分离的替代方法？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问改进聚类分离的替代方法？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问改进聚类分离的替代方法？
EN