文章/答案/技术大牛

发布

社区首页 >问答首页 >为机器学习准备数据集的正确方法是什么？

问为机器学习准备数据集的正确方法是什么？
EN

Stack Overflow用户

提问于 2013-10-14 12:59:09

回答 1查看 4.8K关注 0票数 7

首先，谢谢你阅读这篇文章。

在机器学习方面，我是个菜鸟，我试图使用ML对一些数据进行分类。现在，我已经对有监督和无监督的学习算法做了一些基本的阅读，如决策树、聚类、神经网络..etc等。

我很难理解的是为ML问题准备数据集的正确的总体过程。

如何为ML准备数据集，以便测量算法的准确性？

我目前的理解是，为了评估准确性，算法应该输入预先标记的结果(来自数据集的一个重要子集？)以评估预期结果与算法的决策之间的差异？

如果这是正确的，那么如何对大型数据集进行预标记？我的数据集相当大，人工标记是不可行的。

另外，任何关于用Python进行机器学习的技巧都将不胜感激！

非常感谢您的帮助，提前！

诚挚的问候,

麦克

python

machine-learning

data-analysis

statistics

回答 1

Stack Overflow用户

发布于 2013-10-14 13:53:10

这是任何机器学习算法中最重要的部分。您需要构建数据集、提取、制作、缩放和规范化功能。

如果你想要使用一些监督学习算法，你需要标签数据。要做到这一点，有几种方法：

用手拿着它。
使用非监督学习算法对数据进行标注。

您需要使用一些python机器学习工具包，例如-scikit-learning。学习包含了许多有用的工具，用于数据处理、特征提取和预处理。例如，它可以使用DictVictorizer将数据矢量化。您可以添加缺少的值，规模和标准化的功能仅使用scikit-学习。

我建议从这里的例子开始- http://scikit-learn.org/stable/

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19360793

复制

相似问题

问为机器学习准备数据集的正确方法是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为机器学习准备数据集的正确方法是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为机器学习准备数据集的正确方法是什么？
EN