首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop性能调优

Hadoop性能调优
EN

Stack Overflow用户
提问于 2016-10-13 01:16:12
回答 1查看 43关注 0票数 0

我将输入拆分大小从128MB增加到256MB。作业的执行时间缩短了一分钟。

但是我不能理解他的行为。为什么会发生这种情况?在什么情况下,我们可以调整输入拆分大小?

EN

回答 1

Stack Overflow用户

发布于 2016-10-13 22:12:02

它是一致的还是只读了一遍?这是在本地hadoop安装上还是在集群上?

我建议在输入分割大小为128MB时记录映射器的数量,运行次数为256MB。这可能暗示了为什么执行时间减少了一分钟。

输入拆分的数量对应于处理输入所需的映射器的数量。如果此数量大于群集上可用的映射插槽,则作业必须等到运行一组映射程序后才能处理剩余的映射程序。但是,如果输入拆分的数量较少(例如,在您的情况下为256MB ),则要运行的map任务的数量将比以前的情况更少。如果这个数字小于或等于集群上的map插槽数,那么所有map任务可能会同时运行,这可能会缩短作业执行时间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40004594

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档