我是土木工程专业的研究生。对于道路交通数据的分析(车辆轨迹作为时间序列),我工作的大数据集,主要是大约100万个数据点或更多。
当MS无法打开大数据文件时,我开始使用R语言。使用基本统计知识和R代码,我开发了几个算法来识别数据中的某些模式,这些模式适用于许多应用程序。但我仍然缺乏R.
现在,我熟悉基本的推断统计和R包(plyr、dplyr、ggplot2等)。最近,我认识到机器学习算法也有助于通过监督/无监督学习来定义数据中的模式,它们的应用可以提高使用交通数据预测驾驶员某些“行为”的准确性。
我有统计学和R的基本知识,作为初学者,我想学习数据科学/机器学习。我知道统计学中的一些概念。与ML重叠,这可能会填补我学习ML的空白。请记住我的背景,你会建议我开始学习数据科学并将它应用于我的领域吗?
发布于 2014-11-05 21:55:43
学习数据科学的最好方法是通过解决问题。我建议你去卡格尔解决知识问题。
要想在机器学习问题上有一个好的开端,请使用R中的树包来适应自己--这将帮助您理解决策树是如何工作的,以及在此基础上,随机森林、梯度增强机器和其他复杂的基于树的算法是如何工作的。
然后是支持向量机和深度学习模型。
为了理解无监督的学习问题,学习k-均值并将其用于聚类。
其他需要理解的一般概念/想法有:
对于书籍来说,对熟悉统计数据并想进入机器学习的人来说,最常见的推荐是哈斯蒂、蒂斯拉尼和弗里德曼的“统计学习的要素”。
https://datascience.stackexchange.com/questions/2412
复制相似问题