文章/答案/技术大牛

发布

社区首页 >问答首页 >从数据挖掘开始

问从数据挖掘开始
EN

Stack Overflow用户

提问于 2011-09-14 13:36:09

回答 6查看 1.1K关注 0票数 4

我已经开始学习数据挖掘，并希望用C++/Java创建一个小项目，它允许我利用一个数据库，比如twitter，然后发布一组特定的结果(例如。馈送上的所有新闻项)。我想知道怎么做？我应该从哪里开始呢？

data-mining

回答 6

Stack Overflow用户

回答已采纳

发布于 2011-09-14 13:56:01

这是一个非常宽泛的问题，所以很难回答。以下是一些需要考虑的事项：

你要从哪里获取数据？你提到了twitter，但你仍然需要以某种方式收集数据。可能有一些库可以用来收听推特上的流，或者如果有人在卖数据，你也可以买下它。
，你打算把数据存储在哪里？传统的关系数据库可能是最合适的，也可能不是最合适的，这取决于您将拥有多少以及您计划用它做什么。使用支持现成运行mapreduce作业的工具可能会更好。

基于这些问题的答案，编程语言和库的选择将变得更容易。

如果您真的很喜欢Java，那么我认为您可能想要从Hadoop集群开始。它支持用Java语言编写mapreduce作业，并可作为其他系统的有效平台，例如面向列的数据存储HBase。

如果您的数据是相当规则的(也就是说，从一条记录到下一条记录的结构变化不大)，也许Hive会更合适。使用Hive，您可以编写类似SQL的查询，只给出数据文件作为输入。我从未使用过Mahout，但我知道它的机器学习功能非常适合数据挖掘任务。

这些只是我脑海中浮现的一些想法。有很多选择，选择它们与你试图解决的特定问题和你自己的个人品味有很大关系。

票数 4

Stack Overflow用户

发布于 2013-06-23 01:18:25

如果你只是想开始学习数据挖掘，有两本书我特别喜欢：

模式识别和机器学习。克里斯托弗·M·毕晓普。斯普林格。

这个是免费的：

http://infolab.stanford.edu/~ullman/mmds.html

票数 1

Stack Overflow用户

发布于 2013-12-05 04:40:16

对你来说很好的参考资料

AI course taught by people who actually know the subject、Weka website、Machine Learning datasets、Even more datasets、Framework for supporting the mining of larger datasets。

第一个链接是由Peter Norvig和Sebastian Thrun分别讲授的关于人工智能的很好的介绍，Google的研究总监和斯坦利的创造者(自动驾驶汽车)。

第二个链接会让你进入Weka网站。下载软件-这是非常直观的-并获得这本书。确保你理解了所有的概念:什么是数据挖掘，什么是机器学习，什么是最常见的任务，以及它们背后的原理是什么。反复使用示例-软件包捆绑了一些数据集-直到您了解是什么生成了结果。

接下来，转到真正的数据集并使用它们。在处理海量数据集时，你可能会面临Weka的几个性能问题--就我的经验而言，Weka更像是一种学习工具。因此，我建议您查看第五个链接，它将引导您访问Apache Mahout网站。

然而，这远不是一个简单的主题，它非常有趣。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7411715

复制

相似问题

问从数据挖掘开始
EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数据挖掘开始EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数据挖掘开始
EN