首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Twitter - Hadoop数据流

Twitter - Hadoop数据流
EN

Stack Overflow用户
提问于 2012-02-07 16:55:48
回答 3查看 1.5K关注 0票数 1

我们如何将twitter(Tweets)放入HDFS进行离线分析。我们有一个分析推文的需求。

EN

回答 3

Stack Overflow用户

发布于 2012-02-07 23:27:35

我会在将日志流式传输到hadoop的良好开发区域中寻找解决方案,因为任务看起来有点相似。

现有的两个系统都是这样做的:

水槽:https://github.com/cloudera/flume/wiki

脚本:https://github.com/facebook/scribe

所以你的任务将只是从twitter上提取数据,我认为这不是这个问题的一部分,并将这些日志提供给其中一个系统。

票数 3
EN

Stack Overflow用户

发布于 2012-11-17 13:00:02

Fluentd日志收集器刚刚发布了它的WebHDFS插件,它允许用户立即将数据流式传输到HDFS。

  • Fluentd + Hadoop: Instant Big Data Collection

此外,通过使用fluent-plugin-twitter,您可以通过调用其API来收集Twitter流。当然,您也可以创建自定义收集器,将流发布到Fluentd。这是一个Ruby示例,用来发布针对Fluentd的日志。

  • Fluentd: Data Import from Ruby Applications
票数 1
EN

Stack Overflow用户

发布于 2012-02-07 20:29:30

这可能是你的问题的一个解决方案。

用于捕获推特推文的

  • 工具

代码语言:javascript
复制
- [Create PDF, DOC, XML and other docs from Twitter tweets](http://twdocs.com/)
- [Tweets to CSV files](http://lifehacker.com/5040650/tweetake-backs-up-your-tweets-to-csv-files)

  • 可以以任何格式捕获它。(csv,txt,doc,pdf.....etc)
  • Put it into HDFS。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9173373

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档