我正在用tensorflow 2.0.1的gradienttape()训练一个GAN。培训持续到2000/2562批次,并冻结了系统。我甚至将gpu内存限制为8GB:
if gpus:
# Restrict TensorFlow to only allocate 1GB of memory on the first GPU
try:
tf.config.experimental.set_virtual_device_configuration(
gpus[0],
[tf.config.experimental.VirtualDeviceConfiguration(memory_limit=8172)])系统配置:
GPU : Nvidia 1080ti 11 GPU内存
RAM :16 RAM DDR4
Tensorflow verison : 2.0.1
Cuda版本: 10.0
操作系统: Ubuntu 18.04
如果你需要的话我可以提供密码。
注: Tensorflow是从源构建的。
发布于 2020-02-26 13:56:02
系统冻结的原因确实很难确定。在您的例子中,我首先使用pip安装一个预先编译好的tensorflow版本。
如果你观察到同样的症状,我怀疑不是电源太弱,就是你的电脑通风有问题。
为了检查电源不足是否导致冻结,您可以尝试限制GPU使用的电流:
nvidia-smi.exe" -i 0 -pl 100
这将限制您的卡使用的功率为100 W(1080 to峰值消耗应在250 W-300 W左右,但不受限制)。训练将会变慢,但是如果它不再崩溃,电源就会变慢。
您还可以使用nvidia-smi来监视GPU的温度,并检查它是否停留在可接受的范围内。
https://stackoverflow.com/questions/60408844
复制相似问题