首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >弹性MapReduce (电子病历)?

弹性MapReduce (电子病历)?
EN

Stack Overflow用户
提问于 2013-06-03 15:26:53
回答 1查看 392关注 0票数 1

我正在评估EC2/EMR,用于运行大约20个节点的Hadoop集群。(custom JAR群集)。我已经在一个单节点3.3 GHz 2 GHz本地VMWare实例上运行了这个简单的WordCount示例,它只需要不到10秒的时间就可以完成。在具有2个c1.mediumm实例的EMR上完成WordCount示例需要3分钟(不包括3-5分钟的启动时间)。2个m1的小实例也需要同样的时间。在EMR上运行作业会有一些开销,可能这个问题太小了,所以这似乎是可以理解的。

在什么规模的问题上,您开始看到云的性能优势?或者大约有多少个节点或计算单元?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-06-03 15:48:17

如果您正在启动一个EMR作业,这实际上意味着您正在请求Amazon为您提供一个包含N台机器的按需集群,而配置和提供这些机器的简单事实可能只需要几分钟,更不用说这些机器需要设置,可以进行引导操作等等。我很少看到EMR作业(即使是大的)花费超过10分钟来准备集群,但我也很少看到集群在几分钟内启动。

如果您有一个频繁运行的作业(例如,每小时运行一次),那么设置和关闭EMR集群的成本可能太高,在这种情况下,使用EC2上的一些保留实例创建集群将是一个好主意。有了预留实例,您将始终拥有自己的集群,并由您管理,因此设置/关闭集群不会浪费时间,这与常规Hadoop集群的行为类似。

在过去的几年中,我一直在保留的实例上使用EC2集群,该集群始终处于启动状态,并且所有作业都在该集群上运行,但是对于一些非常大的作业,并且无法在我的集群上运行,我在EMR上运行它们,在EMR上我可以选择我想要的节点数量,并且由于这些都是大型作业,因此与总运行时相比,设置/关闭集群的时间较短。我不建议在小/频繁的工作中使用EMR。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16891884

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档