首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用tensorflow时Nvidia GPU错误

使用tensorflow时Nvidia GPU错误
EN

Stack Overflow用户
提问于 2018-06-19 09:23:43
回答 1查看 1.8K关注 0票数 1

Tensorflow会话创建在GPU节点上失败,错误如下:

2018-06-19 07:01:08.400165: e tensorflow/core/common_runtime/direct_session.cc:154]内部:未能初始化StreamExecutor用于CUDA设备序号0:内部:调用失败的cuDevicePrimaryCtxRetain: CUDA_ERROR_ECC_UNCORRECTABLE

下面是GPU的信息

代码语言:javascript
复制
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30                 Driver Version: 390.30                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 0000752C:00:00.0 Off |                    2 |
| N/A   39C    P8    25W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

请分享一些指针来进一步调试。

PS:同一程序在CPU节点上运行良好。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-19 09:48:09

this的其他Stackoverflow讨论中,

我认为您的GPU状态已经损坏比特和ECC或纠错代码不能纠正它。

根据讨论,重新启动计算机可能有帮助。

另一件事是,在您的GPU信息中,您看到了Uncorr. ECC,它应该是N/A,但在您的例子中,它显示的是2。因此,我的建议是重新启动计算机,并在运行程序之前确认此Uncorr. ECCN/A。这样,您就可以确保您的程序不会产生此问题。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50924846

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档