首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无监督数据的分类技术?

无监督数据的分类技术?
EN

Data Science用户
提问于 2016-06-14 07:46:25
回答 3查看 959关注 0票数 5

我有无监督的数据(即,这些数据没有任何目标变量,我可以通过它来了解它的先前行为),它是连续数据和分类数据的混合体。现在,我想根据我的非监督数据将测试数据分为三类。

我采取的方法是首先对无监督的数据进行聚类,使用这些分类数据作为基础数据,准备一个新的模型,在此基础上进行预测。

我想知道这种方法是否正确,还是有更好的方法分类测试集?我需要遵循的特殊算法吗?

我在R.

方法是修改培训集数据,以便能够正确地预测测试数据。在这里,目标变量在火车和测试集中丢失。

EN

回答 3

Data Science用户

发布于 2016-06-24 16:00:37

对于无监督数据的分类,您有许多算法可供选择。

这是一个非常广泛的话题,但是如果您需要一个特定的algo建议,请试着看看自组织映射(SOM)是否可以帮助您解决特定的问题。在R中,尝试kohonen包。

K-均值是另一种流行的聚类算法.

无论您使用哪种方法,都可以考虑将分类数据转换为数值数据进行聚类,因为这可能会减轻一些混合数据类型的问题。

票数 1
EN

Data Science用户

发布于 2016-06-24 16:36:51

这确实是一个广泛的话题,但我认为你走的是正确的道路。

几个月前,我解决了一个类似的问题,当时我使用基于Centroid的算法对多个类别的文档进行分类。在这里,我使用球形K-均值对训练数据集进行聚类,生成的集群质心表示一个类别。稍后,在预测一个类别的新文档时,我会将文档与所有的质心进行比较,并分配一个基于SSE的类别。

票数 1
EN

Data Science用户

发布于 2016-08-23 17:55:42

迈克尔是对的--K-均值聚类可能对你有用,但K-均值不是为处理分类变量而设计的。

如果您没有太多的类别,那么您可以选择将它们表示为虚拟变量。这里是一个链接到一个帖子,我在这里解释Python中的虚拟变量。我还找到了一个堆栈溢出应答,它解释了如何在R中创建虚拟变量。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档