我在us-central1-f区域被分配了多个Google。这些机器类型都是v2-8。
我如何利用我所有的TPU来训练一个单一的模型?
us-central1-f区域不支持豆荚,所以使用豆荚似乎并不是解决方案。即使豆荚是可用的,我有v2-8单位的数量不匹配任何一个荚TPU切片大小(16,64,128,256),所以我不能使用它们在一个单独的吊舱。
发布于 2019-06-17 00:32:17
我相信你不能轻易这么做。如果您希望使用多个TPU来训练单个模型,则需要使用TPU Pods访问某个区域。否则,你可以做一件显而易见的事情:在不同的TPU上训练相同的模型,但使用不同的超参数作为网格搜索的方法,或者可以训练多个弱学习者,然后手工组合它们。
发布于 2020-06-14 14:56:24
虽然我找不到明确回答这个问题的文档,但我已经阅读了多篇文章和问题,并得出结论,如果您正在使用v2-8或v3-8 TPU,则不可能一次使用其中的多个。您将不得不使用更大的机器,如v2-32或v3-32,以确保您可以访问更多的核心,而TFRC程序不提供免费的。
参考文献:
https://stackoverflow.com/questions/56616604
复制相似问题