当在AML和自定义docker图像上运行Pytorch训练时,纪元时间不断增加。当相同的代码在本地运行时,纪元时间是恒定的(这里的不同之处在于不涉及docker镜像,并且训练数据集存在于本地,因此不是AML挂载的blob存储,机器是不同的)
对于如何弄清楚发生了什么,有什么建议吗?例如,我如何记录有用的内存消耗?GPU、Pytorch、磁盘访问等
发布于 2020-06-07 20:05:24
虽然不是完全脚本化的方式,但我通常通过在tmux会话中运行我的训练来进行这种调试,在第二个终端上有一个活动的htop,在您的例子中,第三个终端上有一个nvidia-smi -l 1。
您是挂载blob存储区还是将数据下载到计算群集?
https://stackoverflow.com/questions/61789949
复制相似问题