我正在EMR Spark集群上运行一些机器学习算法。我很好奇应该使用哪种类型的实例,以便获得最佳性价比?
对于相同的价格水平,我可以选择:
vCPU ECU Memory(GiB)
m3.xlarge 4 13 15
c4.xlarge 4 16 7.5
r3.xlarge 4 13 30.5EMR Spark集群应该使用哪种类型的实例?
发布于 2015-05-26 01:16:44
一般来说,首选实例取决于您正在运行的作业(它是内存密集型的吗?它是CPU密集型吗?等)然而,Spark是内存密集型的,我不会使用小于30 is的机器来做大多数工作。
在你的特殊情况下(4 4Gb数据集),我不确定为什么你一开始就想要使用分布式计算-它只会让你的作业运行缓慢。如果你确定你想要spark,在本地模式下用X线程运行它(取决于你有多少内核)
https://stackoverflow.com/questions/30435610
复制相似问题