首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop永远占用EMR和分析EMR

Hadoop永远占用EMR和分析EMR
EN

Stack Overflow用户
提问于 2013-05-02 06:15:05
回答 1查看 577关注 0票数 0

我在S3上运行了一个超过500个文档的示例hadoop作业,当在本地运行时,它只需要不到15分钟就能完成。然而,当我尝试在EMR上运行相同的作业时,它花费了2个多小时,仍然没有完成缩减步骤,所以我终止了它。MapReduce工作在电子病历上花费这么长时间会有什么特别的原因吗?

同样,分析EMR以了解瓶颈在哪里的最佳方式是什么?在它们完成之前,我似乎无法从reducers中获取日志文件,但它们花费了太长的时间才能完成。

EN

回答 1

Stack Overflow用户

发布于 2013-08-08 02:46:58

根据我使用AWS EMR的经验,我发现内存设置(分配给映射或减少任务的数量)、为任务分配的总体RAM以及堆大小配置对性能有很大影响。下面的链接包含一些信息,谷歌搜索应该会显示其余的信息。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16327375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档