我正在使用amazon EMR进行一些密集的计算,但是,它大约需要7分钟才能开始计算,有什么聪明的方法可以让我的计算立即开始吗?计算是从面向用户的网站开始的python流,所以我真的负担不起长时间的启动。
我可能只是错过了海洋中的一个选择,那就是亚马逊AWS。我只想简单地启动作业(这就是我使用的EMR),可伸缩性,并且只为我使用的东西付费(启动时间是没有用的)。
发布于 2015-05-16 05:47:25
我知道这是一个古老的问题,但我有一些见解,我想补充给下一个找到这个帖子的搜索者,希望能加快Amazon EMR上的引导时间。
有一段时间我一直在想,为什么我的集群需要这么长时间才能启动,通常大约需要15分钟。对于通常在1小时内完成的作业,这需要相当大的一段时间。有时它会将作业推到一个小时以上,但我认为值得庆幸的是,AWS不会对整个启动时间收费。
在过去的几天里,我注意到我的启动时间有所改善。你看,现货市场在4月和5月的第一周变得非常不稳定。通常,我完全由spot实例启动我的集群,因为失败是一种选择,在我的情况下,成本节约证明了这种技术的合理性。然而,在等待集群启动14个小时后,我不得不切换到OnDemand,我只有这么多的耐心,通常一夜之间就超过了它。OnDemand集群大约在5分钟后开始。现在,随着疯狂的程度似乎有所减轻,我又切换到了spot,我又回到了15分钟的集群。
因此,如果您在Core或Master节点上使用Spot实例,则需要更长的启动时间。我将尝试在核心中使用一小部分OnDemand,并使用大量spot实例来增强,看看它是否有助于启动并更好地处理现货市场波动。
发布于 2012-12-05 23:51:10
这很正常,你对此无能为力。我正在启动100+节点集群,我看到它们在开始处理之前需要花费15+分钟。考虑到后台正在进行的大量工作,我很高兴给他们15分钟左右的时间来配置集群并读取所需的任何数据。恐怕是野兽的本性。
发布于 2012-07-06 06:38:46
您的数据源托管在哪里?
如果在S3上(可能),如果您有许多小文件,则每个连接(每个文件)的延迟会占用时间。
如果这是唯一的原因,那么您7分钟的启动时间将转换为从S3上的S3 time =>读取~1 1GB输入文件的~5分钟
https://stackoverflow.com/questions/10712857
复制相似问题