如何在HDFS中存储特定的网站tweet?
假设一个网站,www.abcd.com和我想收集这个网站的所有用户的推文,并存储在HDFS或Hive中。
水槽和sqoop也有助于存储数据。
所以,请给我建议一下,在HDFS中存储tweet时,水槽和sqoop是如何工作的?
发布于 2013-09-19 09:09:36
Sqoop不是为此目的而制定的。水槽就是用来满足这种需要的。您可以编写自定义的Flume源,它将提取tweet并将其转储到HDFS中。例如,请参见这。它展示了如何使用Flume从Twitter流API收集数据,并将其转发到HDFS。
您可以在正式文件中找到更多信息。
https://stackoverflow.com/questions/18890373
复制相似问题