文章/答案/技术大牛

发布

社区首页 >问答首页 >如何利用多个来训练单个模型

问如何利用多个来训练单个模型
EN

Stack Overflow用户

提问于 2019-06-16 06:20:34

回答 2查看 716关注 0票数 8

我在us-central1-f区域被分配了多个Google。这些机器类型都是v2-8。

我如何利用我所有的TPU来训练一个单一的模型？

us-central1-f区域不支持豆荚，所以使用豆荚似乎并不是解决方案。即使豆荚是可用的，我有v2-8单位的数量不匹配任何一个荚TPU切片大小(16，64,128,256)，所以我不能使用它们在一个单独的吊舱。

google-cloud-platform

google-compute-engine

google-cloud-tpu

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-06-17 00:32:17

我相信你不能轻易这么做。如果您希望使用多个TPU来训练单个模型，则需要使用TPU Pods访问某个区域。否则，你可以做一件显而易见的事情:在不同的TPU上训练相同的模型，但使用不同的超参数作为网格搜索的方法，或者可以训练多个弱学习者，然后手工组合它们。

票数 1

Stack Overflow用户

发布于 2020-06-14 14:56:24

虽然我找不到明确回答这个问题的文档，但我已经阅读了多篇文章和问题，并得出结论，如果您正在使用v2-8或v3-8 TPU，则不可能一次使用其中的多个。您将不得不使用更大的机器，如v2-32或v3-32，以确保您可以访问更多的核心，而TFRC程序不提供免费的。

参考文献：

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56616604

复制

相似问题

问如何利用多个来训练单个模型
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何利用多个来训练单个模型EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何利用多个来训练单个模型
EN