我有一个简单的Keras模型,我提交给Google平台培训,并希望利用GPU进行处理。
作业提交并成功完成。从使用统计数据来看,GPU从未超出0%利用率。然而,CPU的使用随着培训的进展而增加。
你知道让我的模型和GPU一起工作有什么不对吗?有什么办法可以解决这种情况吗?
config.yaml
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu我使用的是运行时版本1.13,它已经安装了tensorflow。我的setup.py中所需的附加包包括:
REQUIRED_PACKAGES = ['google-api-core==1.14.2',
'google-cloud-core==1.0.3',
'google-cloud-logging==1.12.1',
'google-cloud-storage==1.18.0',
'gcsfs==0.2.3',
'h5py==2.9.0',
'joblib==0.13.2',
'numpy==1.16.4',
'pandas==0.24.2',
'protobuf==3.8.0',
'scikit-learn==0.21.2',
'scipy==1.3.0',
'Keras==2.2.4',
'Keras-Preprocessing==1.1.0',
]看看日志,看起来GPU已经找到了。
master-replica-0 Found device 0 with properties: master-replica-0
master-replica-0 name: Tesla K80 major: 3 minor: 7 memoryClockRate(GHz): 0.8235 master-replica-0 更新:
该模型使用的是GPU,但未得到充分利用.
在AI Platform中,“职务概述”页面中的utilization graphs大约比日志中显示的活动落后5分钟。
因此,您的日志可以显示正在处理的一个时代,但是利用率图仍然可以显示0% utilization。
我是怎么决定-
fit_generator函数multiprocessing=true, queue_length=10, workers=5。我目前正在调整这些参数以确定什么是最好的,但是我现在看到了GPU上30%的利用率。发布于 2019-08-14 21:39:15
该模型使用的是GPU,但未得到充分利用.
在AI Platform中,“职务概述”页面中的utilization graphs大约比日志中显示的活动落后5分钟。
因此,您的日志可以显示正在处理的一个时代,但是利用率图仍然可以显示0% utilization。
我是怎么决定-
fit_generator函数multiprocessing=true, queue_length=10, workers=5。我目前正在调整这些参数以确定什么是最好的,但是我现在看到了GPU上30%的利用率。https://stackoverflow.com/questions/57488017
复制相似问题