文章/答案/技术大牛

发布

问火花的性能瓶颈
EN

Stack Overflow用户

提问于 2015-05-15 08:14:01

回答 2查看 1.7K关注 0票数 1

在NSDI 2015上发表的“在数据分析框架中提高性能的意义”的论文得出结论，CPU(而不是IO或网络)是Spark的性能瓶颈。凯在Spark上做了一些实验，包括BDbench、TPC和处理工作负载(只使用Spark？)在这篇论文里。我不知道这个结论对于建立在Spark上的一些框架是否正确(比如流，通过网络接收连续数据流，网络IO和磁盘都会承受很大的压力)。

bigdata

distributed-computing

performance

apache-spark

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-05-15 09:19:01

由于流流通常是校验点的，所以网络和磁盘可能会受到较小的压力，这意味着所有的数据通常不会永远保存在周围。

但最终，这是一个研究问题:解决这一问题的唯一方法是基准。凯的代码是开源。

票数 2

Stack Overflow用户

发布于 2015-05-15 09:14:02

这真的取决于你执行的任务。你需要分析你写的工作，看看压力和瓶颈在哪里。例如，我最近有一个工作，没有足够的内存，所以它也必须溢出到磁盘，这大大增加了它的整体IO。当我删除内存问题时，CPU是下一个问题。更严格的代码将问题转移到IO等。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30254668

复制

相似问题

问火花的性能瓶颈
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花的性能瓶颈EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花的性能瓶颈
EN