问在AML docker上运行Pytorch时纪元时间增加
EN

Stack Overflow用户

提问于 2020-05-14 13:29:34

回答 1查看 31关注 0票数 0

当在AML和自定义docker图像上运行Pytorch训练时，纪元时间不断增加。当相同的代码在本地运行时，纪元时间是恒定的(这里的不同之处在于不涉及docker镜像，并且训练数据集存在于本地，因此不是AML挂载的blob存储，机器是不同的)

对于如何弄清楚发生了什么，有什么建议吗？例如，我如何记录有用的内存消耗？GPU、Pytorch、磁盘访问等

发布于 2020-06-07 20:05:24

虽然不是完全脚本化的方式，但我通常通过在tmux会话中运行我的训练来进行这种调试，在第二个终端上有一个活动的htop，在您的例子中，第三个终端上有一个nvidia-smi -l 1。

您是挂载blob存储区还是将数据下载到计算群集？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61789949

复制

相似问题

问在AML docker上运行Pytorch时纪元时间增加EN