有人能用简单的语言为我解释Apache Flume吗?我希望能用一个实际的例子来解释,而不是抽象的理论定义,这样我就能更好地理解。
它是用来干什么的?在BigData分析的哪个阶段使用?
学习它的先决条件是什么?
正如你对非技术人员所解释的
发布于 2016-01-11 18:35:57
数据摄入到分布式数据存储(例如HDFS)中。查看图像(我没有制作图像,我只包含了图像以帮助视觉)。还有其他一些工具也可以帮助您摄取数据(提到Storm和Sqoop )。
它用于将数据摄取到分布式数据存储(例如HDFS)中。例如,一个webserver正在将日志信息运行到/var/log/webserver.log中。Apache可以查看该文件,从中获取所需的内容,并将其发送到HDFS。一旦数据被放入数据存储中,您就可以使用其他工具来分析导入的数据(例如Hive、Pig、MR等)。
了解如何编写脚本、编辑配置设置以及如何绕过Linux,将是入门的最低要求。这组指令是旧的,但是一个起点是看看水槽方面的马蹄工学教程。http://hortonworks.com/hadoop-tutorial/how-to-refine-and-visualize-server-log-data/
如果你想让我再详细解释一下,我会很高兴的,但我想试着满足你简单简短的解释的要求。

发布于 2018-03-29 07:16:33
水槽
的应用
HDF5。有关更多信息,请参阅阿帕奇水槽
https://datascience.stackexchange.com/questions/9747
复制相似问题