文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在GCP AI平台作业中有效地使用TFRC程序

问如何在GCP AI平台作业中有效地使用TFRC程序
EN

Stack Overflow用户

提问于 2020-11-24 00:33:10

回答 1查看 360关注 0票数 0

我试图在GCP的AI平台作业服务中运行一个超参数调优作业，这个Tensorflow研究云程序得到了我的批准

100可抢占云TPU v2-8装置位于us-中心1-f区
20个按需云TPU v2-8设备在我们区域-中心1-f
5欧洲地区按需云TPU v3-8设备-West4-a

我已经在Tensorflow 2上构建了一个自定义模型，我希望运行作业，指定要利用TFRC程序和AI平台作业服务的确切区域；现在，我有一个YAML配置文件，看起来如下：

trainingInput:
  scaleTier: basic-tpu
  region: us-central1
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: val_accuracy
    maxTrials: 100
    maxParallelTrials: 16
    maxFailedTrials: 30
    enableTrialEarlyStopping: True

理论上，如果我运行16个并行作业，那么每个并行作业在一个单独的TPU实例中都应该工作，但是，相反，返回一个由于请愿而导致的错误，超出了TPU_V2的配额。

错误：(gCloud.ai-Platform.Jobs.submit.培训) RESOURCE_EXHAUSTED:项目###################的配额失败。请求128个TPU_V2加速器进行16次并行运行，超过了允许的最大值0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4加速器。

然后，我将maxParallelTrials减少到2并工作，这就证实了根据上面的错误消息，配额是由TPU芯片计算的，而不是由TPU实例计算的。

因此，我想，也许我完全误解了TFRC计划的批准配额，然后我开始检查这项工作是否使用的是us-central1 1-f区域，但结果却是使用了一个不需要的区域：

-tpu_node={“项目”："p091c8a0a31894754-tp"，“区域”：“us-集中式1-c”，"tpu_node_name"：“cmle-训练-1597710560117985038-tpu”}

这种行为不允许我有效地使用免费批准的配额，而且如果我正确理解在美国运行的工作，中央1-c是使用我帐户的学分，但不使用免费资源。因此，我想知道是否有办法在AI平台作业中设置区域，也有可能传递一些标志来使用可抢占的TPU。

gcp-ai-platform-training

google-ai-platform

tensorflow2.0

tpu

google-cloud-tpu

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-24 09:26:37

不幸的是，两者不能结合在一起。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64978607

复制

相似问题

问如何在GCP AI平台作业中有效地使用TFRC程序
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在GCP AI平台作业中有效地使用TFRC程序EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在GCP AI平台作业中有效地使用TFRC程序
EN