这意味着一个映射器(一个线程)负责从Amazon获取数据。由于单个线程仅限于在任何给定时间(吞吐量)从Amazon中提取多少数据，将整个文件从AmazonS3读取到映射程序的过程成为数据处理工作流中的瓶颈。另一方面，如果您的数据文件可以拆分，多个映射程序可以处理您的文件。这样的数据文件的合适大小是在2GB到4GB之间。

其主要目标是通过并行处理尽可能多的文件来保持所有节点的忙碌，而不引入太多的开销。

继续使用压缩。节省的磁盘空间和数据传输时间使它比启用分裂更有利。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40416440

复制

相似问题

问S3文件在EMR上的最佳文件大小？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问S3文件在EMR上的最佳文件大小？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问S3文件在EMR上的最佳文件大小？
EN