在NSDI 2015上发表的“在数据分析框架中提高性能的意义”的论文得出结论,CPU(而不是IO或网络)是Spark的性能瓶颈。凯在Spark上做了一些实验,包括BDbench、TPC和处理工作负载(只使用Spark?)在这篇论文里。我不知道这个结论对于建立在Spark上的一些框架是否正确(比如流,通过网络接收连续数据流,网络IO和磁盘都会承受很大的压力)。
发布于 2015-05-15 09:19:01
由于流流通常是校验点的,所以网络和磁盘可能会受到较小的压力,这意味着所有的数据通常不会永远保存在周围。
但最终,这是一个研究问题:解决这一问题的唯一方法是基准。凯的代码是开源。
发布于 2015-05-15 09:14:02
这真的取决于你执行的任务。你需要分析你写的工作,看看压力和瓶颈在哪里。例如,我最近有一个工作,没有足够的内存,所以它也必须溢出到磁盘,这大大增加了它的整体IO。当我删除内存问题时,CPU是下一个问题。更严格的代码将问题转移到IO等。
https://stackoverflow.com/questions/30254668
相似问题