我想了解的是,在建立预测模型/模型之前,如何使用聚类算法(如果可能的话)在数据集中识别自然出现的组,从而提高模型/模型的准确性。
发布于 2018-03-05 13:05:55
在聚类结果变量或响应是未知的,这就是为什么它被称为聚类。无论是标记数据还是未标注数据,聚类都可以作为数据预处理算法。本质上,您必须使用初始数据预处理任务(如缺失值处理、共线性、偏斜等)。一旦数据是“统计干净的”,那么您就可以应用任何聚类技术。但是,记住集群需要将数据“分组”,这样一个组内的数据点是相互关联的,并且与属于另一个组的其他数据点无关。只有在有“统计干净”数据的情况下,才能做到这一点。需要考虑的下一个重要问题是“如何确定集群的可能数量”。因为任何聚类算法都会将数据点划分成组,而忽略了组是否存在的事实。因此,您必须从数学上/统计上证明数据集中出现组的情况。在文献中,主要有“主成分分析(PCA)”或“肘法”等方法。一旦确定了这些组,就可以对组进行标记并执行预测分析。
发布于 2018-03-05 19:47:26
聚类对于您理解数据主要是有用的。
自动化并尝试将其用于预测可能没有多大帮助。您可以尝试,但我认为使用集群信息甚至不会提高结果。
有两件事你需要考虑:
https://datascience.stackexchange.com/questions/28639
复制相似问题