我们如何将twitter(Tweets)放入HDFS进行离线分析。我们有一个分析推文的需求。
发布于 2012-02-07 23:27:35
我会在将日志流式传输到hadoop的良好开发区域中寻找解决方案,因为任务看起来有点相似。
现有的两个系统都是这样做的:
水槽:https://github.com/cloudera/flume/wiki
和
脚本:https://github.com/facebook/scribe
所以你的任务将只是从twitter上提取数据,我认为这不是这个问题的一部分,并将这些日志提供给其中一个系统。
发布于 2012-11-17 13:00:02
Fluentd日志收集器刚刚发布了它的WebHDFS插件,它允许用户立即将数据流式传输到HDFS。

此外,通过使用fluent-plugin-twitter,您可以通过调用其API来收集Twitter流。当然,您也可以创建自定义收集器,将流发布到Fluentd。这是一个Ruby示例,用来发布针对Fluentd的日志。
发布于 2012-02-07 20:29:30
这可能是你的问题的一个解决方案。
用于捕获推特推文的
- [Create PDF, DOC, XML and other docs from Twitter tweets](http://twdocs.com/)
- [Tweets to CSV files](http://lifehacker.com/5040650/tweetake-backs-up-your-tweets-to-csv-files)
https://stackoverflow.com/questions/9173373
复制相似问题