问在spark streaming任务中，一个执行器比所有其他执行器运行的时间长得多
EN

Stack Overflow用户

提问于 2015-05-07 20:00:47

回答 1查看 2.4K关注 0票数 3

我将spark streaming与kafka集成在一起，在其中一个阶段，一个执行器的运行速度比另一个慢得多。

你可以在图片中发现，h10.zw运行2.6分钟，“任务时间”是52分钟，这比其他执行器要长得多。但是混洗读取大小/混洗写入大小与其他大小相同。

我想知道什么是“任务时间”？h10.zw执行器在做什么？如何平衡所有executors的运行时间以避免时间偏差？

发布于 2015-11-06 21:37:27

这可能是由于data skew造成的，这取决于您的确切处理。尝试speculative execution并将您的分区更改为smaller partitions。这应该有助于确定是否是这种情况。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30100470

复制

相似问题

问在spark streaming任务中，一个执行器比所有其他执行器运行的时间长得多EN