首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从数据挖掘开始

从数据挖掘开始
EN

Stack Overflow用户
提问于 2011-09-14 13:36:09
回答 6查看 1.1K关注 0票数 4

我已经开始学习数据挖掘,并希望用C++/Java创建一个小项目,它允许我利用一个数据库,比如twitter,然后发布一组特定的结果(例如。馈送上的所有新闻项)。我想知道怎么做?我应该从哪里开始呢?

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2011-09-14 13:56:01

这是一个非常宽泛的问题,所以很难回答。以下是一些需要考虑的事项:

  1. 你要从哪里获取数据?你提到了twitter,但你仍然需要以某种方式收集数据。可能有一些库可以用来收听推特上的流,或者如果有人在卖数据,你也可以买下它。
  2. ,你打算把数据存储在哪里?传统的关系数据库可能是最合适的,也可能不是最合适的,这取决于您将拥有多少以及您计划用它做什么。使用支持现成运行mapreduce作业的工具可能会更好。

基于这些问题的答案,编程语言和库的选择将变得更容易。

如果您真的很喜欢Java,那么我认为您可能想要从Hadoop集群开始。它支持用Java语言编写mapreduce作业,并可作为其他系统的有效平台,例如面向列的数据存储HBase

如果您的数据是相当规则的(也就是说,从一条记录到下一条记录的结构变化不大),也许Hive会更合适。使用Hive,您可以编写类似SQL的查询,只给出数据文件作为输入。我从未使用过Mahout,但我知道它的机器学习功能非常适合数据挖掘任务。

这些只是我脑海中浮现的一些想法。有很多选择,选择它们与你试图解决的特定问题和你自己的个人品味有很大关系。

票数 4
EN

Stack Overflow用户

发布于 2013-06-23 01:18:25

如果你只是想开始学习数据挖掘,有两本书我特别喜欢:

模式识别和机器学习。克里斯托弗·M·毕晓普。斯普林格。

这个是免费的:

http://infolab.stanford.edu/~ullman/mmds.html

票数 1
EN

Stack Overflow用户

发布于 2013-12-05 04:40:16

对你来说很好的参考资料

AI course taught by people who actually know the subjectWeka websiteMachine Learning datasetsEven more datasetsFramework for supporting the mining of larger datasets

第一个链接是由Peter Norvig和Sebastian Thrun分别讲授的关于人工智能的很好的介绍,Google的研究总监和斯坦利的创造者(自动驾驶汽车)。

第二个链接会让你进入Weka网站。下载软件-这是非常直观的-并获得这本书。确保你理解了所有的概念:什么是数据挖掘,什么是机器学习,什么是最常见的任务,以及它们背后的原理是什么。反复使用示例-软件包捆绑了一些数据集-直到您了解是什么生成了结果。

接下来,转到真正的数据集并使用它们。在处理海量数据集时,你可能会面临Weka的几个性能问题--就我的经验而言,Weka更像是一种学习工具。因此,我建议您查看第五个链接,它将引导您访问Apache Mahout网站。

然而,这远不是一个简单的主题,它非常有趣。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7411715

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档