文章/答案/技术大牛

发布

社区首页 >问答首页 >无监督数据的分类技术？

问无监督数据的分类技术？
EN

Data Science用户

提问于 2016-06-14 07:46:25

回答 3查看 959关注 0票数 5

我有无监督的数据(即，这些数据没有任何目标变量，我可以通过它来了解它的先前行为)，它是连续数据和分类数据的混合体。现在，我想根据我的非监督数据将测试数据分为三类。

我采取的方法是首先对无监督的数据进行聚类，使用这些分类数据作为基础数据，准备一个新的模型，在此基础上进行预测。

我想知道这种方法是否正确，还是有更好的方法分类测试集？我需要遵循的特殊算法吗？

我在R.

方法是修改培训集数据，以便能够正确地预测测试数据。在这里，目标变量在火车和测试集中丢失。

machine-learning

unsupervised-learning

回答 3

Data Science用户

发布于 2016-06-24 16:00:37

对于无监督数据的分类，您有许多算法可供选择。

这是一个非常广泛的话题，但是如果您需要一个特定的algo建议，请试着看看自组织映射(SOM)是否可以帮助您解决特定的问题。在R中，尝试kohonen包。

K-均值是另一种流行的聚类算法.

无论您使用哪种方法，都可以考虑将分类数据转换为数值数据进行聚类，因为这可能会减轻一些混合数据类型的问题。

票数 1

Data Science用户

发布于 2016-06-24 16:36:51

这确实是一个广泛的话题，但我认为你走的是正确的道路。

几个月前，我解决了一个类似的问题，当时我使用基于Centroid的算法对多个类别的文档进行分类。在这里，我使用球形K-均值对训练数据集进行聚类，生成的集群质心表示一个类别。稍后，在预测一个类别的新文档时，我会将文档与所有的质心进行比较，并分配一个基于SSE的类别。

票数 1

Data Science用户

发布于 2016-08-23 17:55:42

迈克尔是对的--K-均值聚类可能对你有用，但K-均值不是为处理分类变量而设计的。

如果您没有太多的类别，那么您可以选择将它们表示为虚拟变量。这里是一个链接到一个帖子，我在这里解释Python中的虚拟变量。我还找到了一个堆栈溢出应答，它解释了如何在R中创建虚拟变量。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/12188

复制

相似问题

问无监督数据的分类技术？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无监督数据的分类技术？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无监督数据的分类技术？
EN