我试图在GCP的AI平台作业服务中运行一个超参数调优作业,这个Tensorflow研究云程序得到了我的批准
我已经在Tensorflow 2上构建了一个自定义模型,我希望运行作业,指定要利用TFRC程序和AI平台作业服务的确切区域;现在,我有一个YAML配置文件,看起来如下:
trainingInput:
scaleTier: basic-tpu
region: us-central1
hyperparameters:
goal: MAXIMIZE
hyperparameterMetricTag: val_accuracy
maxTrials: 100
maxParallelTrials: 16
maxFailedTrials: 30
enableTrialEarlyStopping: True理论上,如果我运行16个并行作业,那么每个并行作业在一个单独的TPU实例中都应该工作,但是,相反,返回一个由于请愿而导致的错误,超出了TPU_V2的配额。
错误:(gCloud.ai-Platform.Jobs.submit.培训) RESOURCE_EXHAUSTED:项目###################的配额失败。请求128个TPU_V2加速器进行16次并行运行,超过了允许的最大值0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4加速器。
然后,我将maxParallelTrials减少到2并工作,这就证实了根据上面的错误消息,配额是由TPU芯片计算的,而不是由TPU实例计算的。
因此,我想,也许我完全误解了TFRC计划的批准配额,然后我开始检查这项工作是否使用的是us-central1 1-f区域,但结果却是使用了一个不需要的区域:
-tpu_node={“项目”:"p091c8a0a31894754-tp",“区域”:“us-集中式1-c”,"tpu_node_name":“cmle-训练-1597710560117985038-tpu”}
这种行为不允许我有效地使用免费批准的配额,而且如果我正确理解在美国运行的工作,中央1-c是使用我帐户的学分,但不使用免费资源。因此,我想知道是否有办法在AI平台作业中设置区域,也有可能传递一些标志来使用可抢占的TPU。
发布于 2020-11-24 09:26:37
不幸的是,两者不能结合在一起。
https://stackoverflow.com/questions/64978607
复制相似问题