我需要向管理/客户端显示用于运行spark作业的executor-memory、内核数量、默认并行度、shuffle分区数量和其他配置属性没有过多或超过要求。我需要一个监控(与可视化)工具,通过它我可以证明spark作业中的内存使用情况。此外,它还应该提供内存未正确使用或某些工作需要更多内存等信息。
请推荐一些应用程序或工具。
发布于 2019-12-27 05:42:03
LinkedIn已经创建了一个工具,它听起来与您正在寻找的非常相似
有关该产品https://youtu.be/7KjnjwgZN7A?t=480概述的演示文稿,请参阅
LinkedIn团队在这里开源了Dr. Elephant - https://github.com/linkedin/dr-elephant
试试看。请注意,此设置可能需要手动调整Spark History Server作为初始集成设置的一部分,以获取Dr. Elephant所需的信息。
https://stackoverflow.com/questions/59493299
复制相似问题