文章/答案/技术大牛

发布

社区首页 >问答首页 >在hadoop python中处理多个文件

问在hadoop python中处理多个文件
EN

Stack Overflow用户

提问于 2017-04-16 09:56:08

回答 1查看 219关注 0票数 0

我有一个场景，文本分隔的文件每30分钟从不同的服务器(大约10)到达hadoop系统。

每个文件有大约250万记录，可能不会同时到达，我正在寻找一种方法，这些文件可以处理每30分钟。

我的问题是：

如何处理不同时间到达的文件？
我希望将数据聚合到10个文件中。这样的大文件应该单独合并还是单独处理？

我希望这个解决方案能在python中实现，但是希望使用hadoop中的任何工具/技术的解决方案。

python

file

hadoop

pyspark

bigdata

回答 1

Stack Overflow用户

发布于 2017-09-16 06:37:33

如何处理不同时间到达的文件？

不重要，除非你的数据是时间敏感的。如果是这样的话，那么原始数据应该包括写入记录的时间戳。

这样的大文件应该单独合并还是单独处理？

大的，单独的文件是最好的。注意HDFS块大小。此大小取决于您的安装。

我希望这个解决方案能在python中实现。

我们欢迎您使用Spark来查看文件目录，或者使用Oozie+Spark来安排常规批处理，但其他工具可以说更简单。

一些你可以研究的

Apache NiFi
流集数据采集器
阿帕奇水槽

Flume将要求您在这10台外部服务器上安装代理。

列出的每个服务都可以以近乎实时的方式读取数据，因此不需要30分钟的批处理。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43435955

复制

相似问题

问在hadoop python中处理多个文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在hadoop python中处理多个文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在hadoop python中处理多个文件
EN