
我将spark streaming与kafka集成在一起,在其中一个阶段,一个执行器的运行速度比另一个慢得多。
你可以在图片中发现,h10.zw运行2.6分钟,“任务时间”是52分钟,这比其他执行器要长得多。但是混洗读取大小/混洗写入大小与其他大小相同。
我想知道什么是“任务时间”?h10.zw执行器在做什么?如何平衡所有executors的运行时间以避免时间偏差?
发布于 2015-11-06 21:37:27
这可能是由于data skew造成的,这取决于您的确切处理。尝试speculative execution并将您的分区更改为smaller partitions。这应该有助于确定是否是这种情况。
https://stackoverflow.com/questions/30100470
复制相似问题