首先,谢谢你阅读这篇文章。
在机器学习方面,我是个菜鸟,我试图使用ML对一些数据进行分类。现在,我已经对有监督和无监督的学习算法做了一些基本的阅读,如决策树、聚类、神经网络..etc等。
我很难理解的是为ML问题准备数据集的正确的总体过程。
如何为ML准备数据集,以便测量算法的准确性?
我目前的理解是,为了评估准确性,算法应该输入预先标记的结果(来自数据集的一个重要子集?)以评估预期结果与算法的决策之间的差异?
如果这是正确的,那么如何对大型数据集进行预标记?我的数据集相当大,人工标记是不可行的。
另外,任何关于用Python进行机器学习的技巧都将不胜感激!
非常感谢您的帮助,提前!
诚挚的问候,
麦克
发布于 2013-10-14 13:53:10
这是任何机器学习算法中最重要的部分。您需要构建数据集、提取、制作、缩放和规范化功能。
如果你想要使用一些监督学习算法,你需要标签数据。要做到这一点,有几种方法:
您需要使用一些python机器学习工具包,例如-scikit-learning。学习包含了许多有用的工具,用于数据处理、特征提取和预处理。例如,它可以使用DictVictorizer将数据矢量化。您可以添加缺少的值,规模和标准化的功能仅使用scikit-学习。
我建议从这里的例子开始- http://scikit-learn.org/stable/
https://stackoverflow.com/questions/19360793
复制相似问题