首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为机器学习准备数据集的正确方法是什么?

为机器学习准备数据集的正确方法是什么?
EN

Stack Overflow用户
提问于 2013-10-14 12:59:09
回答 1查看 4.8K关注 0票数 7

首先,谢谢你阅读这篇文章。

在机器学习方面,我是个菜鸟,我试图使用ML对一些数据进行分类。现在,我已经对有监督和无监督的学习算法做了一些基本的阅读,如决策树、聚类、神经网络..etc等。

我很难理解的是为ML问题准备数据集的正确的总体过程。

如何为ML准备数据集,以便测量算法的准确性?

我目前的理解是,为了评估准确性,算法应该输入预先标记的结果(来自数据集的一个重要子集?)以评估预期结果与算法的决策之间的差异?

如果这是正确的,那么如何对大型数据集进行预标记?我的数据集相当大,人工标记是不可行的。

另外,任何关于用Python进行机器学习的技巧都将不胜感激!

非常感谢您的帮助,提前!

诚挚的问候,

麦克

EN

回答 1

Stack Overflow用户

发布于 2013-10-14 13:53:10

这是任何机器学习算法中最重要的部分。您需要构建数据集、提取、制作、缩放和规范化功能。

如果你想要使用一些监督学习算法,你需要标签数据。要做到这一点,有几种方法:

  1. 用手拿着它。
  2. 使用非监督学习算法对数据进行标注。

您需要使用一些python机器学习工具包,例如-scikit-learning。学习包含了许多有用的工具,用于数据处理、特征提取和预处理。例如,它可以使用DictVictorizer将数据矢量化。您可以添加缺少的值,规模和标准化的功能仅使用scikit-学习。

我建议从这里的例子开始- http://scikit-learn.org/stable/

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19360793

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档