我将输入拆分大小从128MB增加到256MB。作业的执行时间缩短了一分钟。
但是我不能理解他的行为。为什么会发生这种情况?在什么情况下,我们可以调整输入拆分大小?
发布于 2016-10-13 22:12:02
它是一致的还是只读了一遍?这是在本地hadoop安装上还是在集群上?
我建议在输入分割大小为128MB时记录映射器的数量,运行次数为256MB。这可能暗示了为什么执行时间减少了一分钟。
输入拆分的数量对应于处理输入所需的映射器的数量。如果此数量大于群集上可用的映射插槽,则作业必须等到运行一组映射程序后才能处理剩余的映射程序。但是,如果输入拆分的数量较少(例如,在您的情况下为256MB ),则要运行的map任务的数量将比以前的情况更少。如果这个数字小于或等于集群上的map插槽数,那么所有map任务可能会同时运行,这可能会缩短作业执行时间。
https://stackoverflow.com/questions/40004594
复制相似问题