关于这里解释的MapReduce示例,我有一个问题:
http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/BigData_Analysis_-_Quick_Start_for_Programmers
它确实是hadoop MapReduce最常见的例子,即WordCount。
我可以在Cosmos的全局实例上毫无问题地执行它,但即使我给它一个很小的输入(一个两三行的文件),执行它也需要花费很多时间(大约半分钟)。我假设这是它的正常行为,但我的问题是:为什么即使是很小的输入也要花费这么长的时间?
我猜这种方法提高了它对更大的数据集的有效性,其中这种最小延迟可以忽略不计。
发布于 2015-03-10 00:47:40
首先,您必须考虑到FIWARE实验室的Cosmos当前实例是Hadoop的共享实例,因此许多其他用户可能正在同时执行MapReduce作业,从而导致对计算资源的“竞争”。
也就是说,MapReduce是为大型数据集和larga数据文件而设计的。它增加了很多开销,在处理几行代码时不是必需的(因为对于几行代码分析,你不需要MapReduce!:),但是当这些代码行是大量的,甚至数百万行时,这会有很大的帮助。当然,在这些情况下,处理时间与数据大小成正比,但不是按1:1的比例。
https://stackoverflow.com/questions/28837355
复制相似问题