首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚类算法在建立模型之前?

聚类算法在建立模型之前?
EN

Data Science用户
提问于 2018-03-05 11:59:59
回答 2查看 793关注 0票数 0

我想了解的是,在建立预测模型/模型之前,如何使用聚类算法(如果可能的话)在数据集中识别自然出现的组,从而提高模型/模型的准确性。

EN

回答 2

Data Science用户

回答已采纳

发布于 2018-03-05 13:05:55

在聚类结果变量或响应是未知的,这就是为什么它被称为聚类。无论是标记数据还是未标注数据,聚类都可以作为数据预处理算法。本质上,您必须使用初始数据预处理任务(如缺失值处理、共线性、偏斜等)。一旦数据是“统计干净的”,那么您就可以应用任何聚类技术。但是,记住集群需要将数据“分组”,这样一个组内的数据点是相互关联的,并且与属于另一个组的其他数据点无关。只有在有“统计干净”数据的情况下,才能做到这一点。需要考虑的下一个重要问题是“如何确定集群的可能数量”。因为任何聚类算法都会将数据点划分成组,而忽略了组是否存在的事实。因此,您必须从数学上/统计上证明数据集中出现组的情况。在文献中,主要有“主成分分析(PCA)”或“肘法”等方法。一旦确定了这些组,就可以对组进行标记并执行预测分析。

票数 2
EN

Data Science用户

发布于 2018-03-05 19:47:26

聚类对于您理解数据主要是有用的。

自动化并尝试将其用于预测可能没有多大帮助。您可以尝试,但我认为使用集群信息甚至不会提高结果。

有两件事你需要考虑:

  1. 聚类是非常困难、昂贵和难以参数化的。这意味着用一种有用的方式实现自动化并不容易--当数据发生变化时,它总是会中断。
  2. 大多数良好的聚类(不是kmeans)无法预测新数据上的群集标签。因此,使用它将意味着您首先需要训练一个分类器来预测集群,然后在另一个分类器中使用它来预测您的类。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28639

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档