我有无监督的数据(即,这些数据没有任何目标变量,我可以通过它来了解它的先前行为),它是连续数据和分类数据的混合体。现在,我想根据我的非监督数据将测试数据分为三类。
我采取的方法是首先对无监督的数据进行聚类,使用这些分类数据作为基础数据,准备一个新的模型,在此基础上进行预测。
我想知道这种方法是否正确,还是有更好的方法分类测试集?我需要遵循的特殊算法吗?
我在R.
方法是修改培训集数据,以便能够正确地预测测试数据。在这里,目标变量在火车和测试集中丢失。
发布于 2016-06-24 16:00:37
对于无监督数据的分类,您有许多算法可供选择。
这是一个非常广泛的话题,但是如果您需要一个特定的algo建议,请试着看看自组织映射(SOM)是否可以帮助您解决特定的问题。在R中,尝试kohonen包。
K-均值是另一种流行的聚类算法.
无论您使用哪种方法,都可以考虑将分类数据转换为数值数据进行聚类,因为这可能会减轻一些混合数据类型的问题。
发布于 2016-06-24 16:36:51
这确实是一个广泛的话题,但我认为你走的是正确的道路。
几个月前,我解决了一个类似的问题,当时我使用基于Centroid的算法对多个类别的文档进行分类。在这里,我使用球形K-均值对训练数据集进行聚类,生成的集群质心表示一个类别。稍后,在预测一个类别的新文档时,我会将文档与所有的质心进行比较,并分配一个基于SSE的类别。
https://datascience.stackexchange.com/questions/12188
复制相似问题