首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在GCP AI平台作业中有效地使用TFRC程序

如何在GCP AI平台作业中有效地使用TFRC程序
EN

Stack Overflow用户
提问于 2020-11-24 00:33:10
回答 1查看 360关注 0票数 0

我试图在GCP的AI平台作业服务中运行一个超参数调优作业,这个Tensorflow研究云程序得到了我的批准

  • 100可抢占云TPU v2-8装置位于us-中心1-f区
  • 20个按需云TPU v2-8设备在我们区域-中心1-f
  • 5欧洲地区按需云TPU v3-8设备-West4-a

我已经在Tensorflow 2上构建了一个自定义模型,我希望运行作业,指定要利用TFRC程序和AI平台作业服务的确切区域;现在,我有一个YAML配置文件,看起来如下:

代码语言:javascript
复制
trainingInput:
  scaleTier: basic-tpu
  region: us-central1
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: val_accuracy
    maxTrials: 100
    maxParallelTrials: 16
    maxFailedTrials: 30
    enableTrialEarlyStopping: True

理论上,如果我运行16个并行作业,那么每个并行作业在一个单独的TPU实例中都应该工作,但是,相反,返回一个由于请愿而导致的错误,超出了TPU_V2的配额。

错误:(gCloud.ai-Platform.Jobs.submit.培训) RESOURCE_EXHAUSTED:项目###################的配额失败。请求128个TPU_V2加速器进行16次并行运行,超过了允许的最大值0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4加速器。

然后,我将maxParallelTrials减少到2并工作,这就证实了根据上面的错误消息,配额是由TPU芯片计算的,而不是由TPU实例计算的。

因此,我想,也许我完全误解了TFRC计划的批准配额,然后我开始检查这项工作是否使用的是us-central1 1-f区域,但结果却是使用了一个不需要的区域:

-tpu_node={“项目”:"p091c8a0a31894754-tp",“区域”:“us-集中式1-c”,"tpu_node_name":“cmle-训练-1597710560117985038-tpu”}

这种行为不允许我有效地使用免费批准的配额,而且如果我正确理解在美国运行的工作,中央1-c是使用我帐户的学分,但不使用免费资源。因此,我想知道是否有办法在AI平台作业中设置区域,也有可能传递一些标志来使用可抢占的TPU。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-24 09:26:37

不幸的是,两者不能结合在一起

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64978607

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档