我有一个场景,文本分隔的文件每30分钟从不同的服务器(大约10)到达hadoop系统。
每个文件有大约250万记录,可能不会同时到达,我正在寻找一种方法,这些文件可以处理每30分钟。
我的问题是:
我希望这个解决方案能在python中实现,但是希望使用hadoop中的任何工具/技术的解决方案。
发布于 2017-09-16 06:37:33
如何处理不同时间到达的文件?
不重要,除非你的数据是时间敏感的。如果是这样的话,那么原始数据应该包括写入记录的时间戳。
这样的大文件应该单独合并还是单独处理?
大的,单独的文件是最好的。注意HDFS块大小。此大小取决于您的安装。
我希望这个解决方案能在python中实现。
我们欢迎您使用Spark来查看文件目录,或者使用Oozie+Spark来安排常规批处理,但其他工具可以说更简单。
一些你可以研究的
Flume将要求您在这10台外部服务器上安装代理。
列出的每个服务都可以以近乎实时的方式读取数据,因此不需要30分钟的批处理。
https://stackoverflow.com/questions/43435955
复制相似问题