我一直在尝试一些Graphcore examples,特别是TensorFlow CNN examples。我已经用各种命令行选项成功地训练了ResNet好几次,现在无论我使用什么命令行,我都会得到以下错误:
LLVM ERROR: IO failure on output stream: No space left on device 为什么IPU内存不足?之前的程序是否退出失败,使IPU处于污染状态?重新启动会有一段时间的帮助,然后我又遇到了错误。
发布于 2020-09-11 23:21:52
在此上下文中的“设备”实际上指的是主机存储设备而不是IPU设备。此错误告诉您正在用于编译的磁盘已满。您可以使用du或df命令查看基于Ubuntu的主机上的磁盘使用情况。如果任何磁盘/文件系统达到或接近100%已满,那么您应该删除一些文件,以便为编译腾出空间。您看到重启有一段时间有帮助的原因可能是因为/tmp目录正在被清除;随着时间的推移,它将在您使用系统时填满。为了缓解这个问题,建议在用来为IPU编译程序的机器上安装一个大的临时文件系统。
https://stackoverflow.com/questions/63848217
复制相似问题