我已经开始学习数据挖掘,并希望用C++/Java创建一个小项目,它允许我利用一个数据库,比如twitter,然后发布一组特定的结果(例如。馈送上的所有新闻项)。我想知道怎么做?我应该从哪里开始呢?
发布于 2011-09-14 13:56:01
这是一个非常宽泛的问题,所以很难回答。以下是一些需要考虑的事项:
基于这些问题的答案,编程语言和库的选择将变得更容易。
如果您真的很喜欢Java,那么我认为您可能想要从Hadoop集群开始。它支持用Java语言编写mapreduce作业,并可作为其他系统的有效平台,例如面向列的数据存储HBase。
如果您的数据是相当规则的(也就是说,从一条记录到下一条记录的结构变化不大),也许Hive会更合适。使用Hive,您可以编写类似SQL的查询,只给出数据文件作为输入。我从未使用过Mahout,但我知道它的机器学习功能非常适合数据挖掘任务。
这些只是我脑海中浮现的一些想法。有很多选择,选择它们与你试图解决的特定问题和你自己的个人品味有很大关系。
发布于 2013-06-23 01:18:25
如果你只是想开始学习数据挖掘,有两本书我特别喜欢:
模式识别和机器学习。克里斯托弗·M·毕晓普。斯普林格。
这个是免费的:
http://infolab.stanford.edu/~ullman/mmds.html
发布于 2013-12-05 04:40:16
对你来说很好的参考资料
AI course taught by people who actually know the subject、Weka website、Machine Learning datasets、Even more datasets、Framework for supporting the mining of larger datasets。
第一个链接是由Peter Norvig和Sebastian Thrun分别讲授的关于人工智能的很好的介绍,Google的研究总监和斯坦利的创造者(自动驾驶汽车)。
第二个链接会让你进入Weka网站。下载软件-这是非常直观的-并获得这本书。确保你理解了所有的概念:什么是数据挖掘,什么是机器学习,什么是最常见的任务,以及它们背后的原理是什么。反复使用示例-软件包捆绑了一些数据集-直到您了解是什么生成了结果。
接下来,转到真正的数据集并使用它们。在处理海量数据集时,你可能会面临Weka的几个性能问题--就我的经验而言,Weka更像是一种学习工具。因此,我建议您查看第五个链接,它将引导您访问Apache Mahout网站。
然而,这远不是一个简单的主题,它非常有趣。
https://stackoverflow.com/questions/7411715
复制相似问题