我在S3上运行了一个超过500个文档的示例hadoop作业,当在本地运行时,它只需要不到15分钟就能完成。然而,当我尝试在EMR上运行相同的作业时,它花费了2个多小时,仍然没有完成缩减步骤,所以我终止了它。MapReduce工作在电子病历上花费这么长时间会有什么特别的原因吗?
同样,分析EMR以了解瓶颈在哪里的最佳方式是什么?在它们完成之前,我似乎无法从reducers中获取日志文件,但它们花费了太长的时间才能完成。
发布于 2013-08-08 02:46:58
根据我使用AWS EMR的经验,我发现内存设置(分配给映射或减少任务的数量)、为任务分配的总体RAM以及堆大小配置对性能有很大影响。下面的链接包含一些信息,谷歌搜索应该会显示其余的信息。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html
https://stackoverflow.com/questions/16327375
复制相似问题