在聚类结果变量或响应是未知的，这就是为什么它被称为聚类。无论是标记数据还是未标注数据，聚类都可以作为数据预处理算法。本质上，您必须使用初始数据预处理任务(如缺失值处理、共线性、偏斜等)。一旦数据是“统计干净的”，那么您就可以应用任何聚类技术。但是，记住集群需要将数据“分组”，这样一个组内的数据点是相互关联的，并且与属于另一个组的其他数据点无关。只有在有“统计干净”数据的情况下，才能做到这一点。需要考虑的下一个重要问题是“如何确定集群的可能数量”。因为任何聚类算法都会将数据点划分成组，而忽略了组是否存在的事实。因此，您必须从数学上/统计上证明数据集中出现组的情况。在文献中，主要有“主成分分析(PCA)”或“肘法”等方法。一旦确定了这些组，就可以对组进行标记并执行预测分析。

票数 2

Data Science用户

发布于 2018-03-05 19:47:26

聚类对于您理解数据主要是有用的。

自动化并尝试将其用于预测可能没有多大帮助。您可以尝试，但我认为使用集群信息甚至不会提高结果。

有两件事你需要考虑：

聚类是非常困难、昂贵和难以参数化的。这意味着用一种有用的方式实现自动化并不容易--当数据发生变化时，它总是会中断。
大多数良好的聚类(不是kmeans)无法预测新数据上的群集标签。因此，使用它将意味着您首先需要训练一个分类器来预测集群，然后在另一个分类器中使用它来预测您的类。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28639

复制

相似问题

问聚类算法在建立模型之前？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类算法在建立模型之前？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类算法在建立模型之前？
EN