在Tensorflow 1.14上一切都很好。由于各种原因,我现在不得不对其进行更新,而且似乎培训(就像Google平台上的工作一样)已经严重退化:我现在为我的模型获得了ResourceExhaustedError,甚至当我将批处理的大小减少了一大串时(我还是不想这么做),培训速度就降低了大约5倍。
我的迁移可以概括为我的配置yaml已经从:
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu
runtimeVersion: "1.14"至
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu
runtimeVersion: "2.5"
pythonVersion: "3.7"并更新了所有相关代码,使之符合TF2.x标准。我还试着摆弄scaleTier和masterType,但没有结果。
我的模型基于Keras,涉及LSTM,有大约200万和550万个参数.
我在这里能做什么?为什么当我做出这种改变时,在google平台上的培训质量会有如此高的程度?
https://stackoverflow.com/questions/68858801
复制相似问题