Tensorflow会话创建在GPU节点上失败,错误如下:
2018-06-19 07:01:08.400165: e tensorflow/core/common_runtime/direct_session.cc:154]内部:未能初始化StreamExecutor用于CUDA设备序号0:内部:调用失败的cuDevicePrimaryCtxRetain: CUDA_ERROR_ECC_UNCORRECTABLE
下面是GPU的信息
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30 Driver Version: 390.30 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 0000752C:00:00.0 Off | 2 |
| N/A 39C P8 25W / 149W | 0MiB / 11441MiB | 0% Default |
+-------------------------------+----------------------+----------------------+请分享一些指针来进一步调试。
PS:同一程序在CPU节点上运行良好。
发布于 2018-06-19 09:48:09
在this的其他Stackoverflow讨论中,
我认为您的GPU状态已经损坏比特和ECC或纠错代码不能纠正它。
根据讨论,重新启动计算机可能有帮助。
另一件事是,在您的GPU信息中,您看到了Uncorr. ECC,它应该是N/A,但在您的例子中,它显示的是2。因此,我的建议是重新启动计算机,并在运行程序之前确认此Uncorr. ECC为N/A。这样,您就可以确保您的程序不会产生此问题。
https://stackoverflow.com/questions/50924846
复制相似问题