在过去的几个月里,我一直在使用谷歌云平台,没有任何问题。然而,我遇到了一个相当令人困惑的问题。我有一个gpu附件,我们用于我们的深度学习模型。由于某些原因,此GPU不再显示在实例上。
当我跑的时候
from tensorflow.python.client import device_lib
device_lib.list_local_devices()
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 963983047914027708, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 11201145405798739252
physical_device_desc: "device: XLA_CPU device"]我得到的输出表明没有可用的GPU。当我尝试训练一个模型时,很明显,由于训练速度急剧下降,它没有使用GPU。
我最近做的唯一更改是安装miniconda并为不同的项目创建一个新的conda env;这是否会以某种方式干扰我当前代码识别GPU的能力?
在创建conda env的过程中,我遇到了当前cuda驱动程序和cuda版本的一些问题,但所有这些都发生在一个专用的conda env中,所以我看不出我怎么能搞砸一些会阻止GPU识别的东西。
提前谢谢你,诺亚
发布于 2019-12-21 12:06:41
原来问题是默认版本的tensorflow已经在我们使用的docker文件中更新了。新版本是CPU版本,默认情况下不会查找CPU
发布于 2019-12-02 17:05:06
在使用GPU时,您需要考虑到有一些restrictions,所以我建议您通读它们,并尝试确定是否有任何限制影响了您的特定情况。据我所知,安装新的库不会对无法识别GPU的代码产生任何影响。但是,如果您想恢复它们,可以参考此documentation link。
https://stackoverflow.com/questions/59110108
复制相似问题