问是否有数学模型来描述hadoop的运行时间与输入数据大小之间的关系？
EN

Stack Overflow用户

提问于 2013-05-18 23:30:14

回答 1查看 188关注 0票数 2

在hadoop集群中，是否有数学模型来描述Mapper的传输时间和datainputSize曲线？

例如，如果M个Mappers的原始数据大小是N，从所有Mapper到Reducer的总传输时间是T。现在我想在Mappers中将数据大小加倍到2N，是否有传输时间T‘的近似估计(我认为T’必须小于2T)，所以我的想法是使用对数曲线来描述这条曲线，但我不确定它是否正确。

hadoop

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-20 13:47:53

我假设您的输入来自HDFS(?)我还假设您的输入数据已经放在HDFS上，所以我们不是在讨论将输入数据从本地文件存储传输到HDFS的时间。我假设您的输入大小N是所有输入文件的总大小。我假设M是映射任务的数量(基于您的输入文件被拆分成的输入拆分数量)。如果我们讨论的是map任务和reduce任务之间的传输，那么我们需要知道map操作的输出大小。通常，此输出的大小与输入N的大小无关。

即使我们知道map任务和reduce任务之间需要传输多少总数据，询问传输时间也不一定有意义，因为这种传输可以在map和reduce任务执行的同时发生，而且它将是各个map任务和reduce任务之间的一系列单独的传输，每个任务都发生在不同的时间点。编写良好的hadoop应用程序的目标是通过重叠计算和通信来隐藏此传输时间。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16625927

复制

相似问题

问是否有数学模型来描述hadoop的运行时间与输入数据大小之间的关系？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有数学模型来描述hadoop的运行时间与输入数据大小之间的关系？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有数学模型来描述hadoop的运行时间与输入数据大小之间的关系？
EN