首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在hadoop python中处理多个文件

在hadoop python中处理多个文件
EN

Stack Overflow用户
提问于 2017-04-16 09:56:08
回答 1查看 219关注 0票数 0

我有一个场景,文本分隔的文件每30分钟从不同的服务器(大约10)到达hadoop系统。

每个文件有大约250万记录,可能不会同时到达,我正在寻找一种方法,这些文件可以处理每30分钟。

我的问题是:

  1. 如何处理不同时间到达的文件?
  2. 我希望将数据聚合到10个文件中。这样的大文件应该单独合并还是单独处理?

我希望这个解决方案能在python中实现,但是希望使用hadoop中的任何工具/技术的解决方案。

EN

回答 1

Stack Overflow用户

发布于 2017-09-16 06:37:33

如何处理不同时间到达的文件?

不重要,除非你的数据是时间敏感的。如果是这样的话,那么原始数据应该包括写入记录的时间戳。

这样的大文件应该单独合并还是单独处理?

大的,单独的文件是最好的。注意HDFS块大小。此大小取决于您的安装。

我希望这个解决方案能在python中实现。

我们欢迎您使用Spark来查看文件目录,或者使用Oozie+Spark来安排常规批处理,但其他工具可以说更简单。

一些你可以研究的

  • Apache NiFi
  • 流集数据采集器
  • 阿帕奇水槽

Flume将要求您在这10台外部服务器上安装代理。

列出的每个服务都可以以近乎实时的方式读取数据,因此不需要30分钟的批处理。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43435955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档