我在Ubuntu18.04上的12个CPU和2个GPU上运行了86个进程的mpirun (OpenMPI)。正在运行的应用程序正在训练神经网络。
经过一天左右的训练,迭代速度大大减慢。代码在单线程上运行良好,网络流量(文件读取)完全在规范范围内,CPU和GPU没有显示过多负载。
所以我认为问题出在mpirun上。
是否有非侵入式工具可用于显示MPI运行的性能?我一直在研究Performance Co-Pilot,但我在软件本身中没有看到任何MPI分析。
发布于 2019-03-26 07:06:39
Callgrind和kcachegrind可能会很有用。简单地看一下这里的1可能也会对你有所帮助。
https://stackoverflow.com/questions/55346850
复制相似问题