文章/答案/技术大牛

发布

社区首页 >问答首页 >基于低水平Tensorflow API的分布式训练

问基于低水平Tensorflow API的分布式训练
EN

Data Science用户

提问于 2021-06-06 12:13:26

回答 1查看 130关注 0票数 2

我正在使用低水平的Tensorflow API作为我的模型培训。当我说低级别时，这意味着我定义了图的tf.Session()对象，并在这个会话中对图进行了计算。

我想使用tf.distribute.MirroredStrategy()发布模型培训。

我可以使用tensorflow在文档中共享的示例在tensorflow顺序API上使用mirroredstrategy()。

但是我在使用镜像策略执行tf低级别代码时遇到了困难。

我尝试使用distribute.MirrorStrategy()，下面是资源利用的结果：

0 GeForce RTX 2080 Ti区48'C，40 %区10771 / 11019 MB区(10763 M) gdm(4M) 1 GeForce 2080 Ti区37'C，0%区10376 / 11014 MB区(10327M) gdm(36M) gdm(8M)

即使模型同时使用了GPU的内存，但GPU1的利用率仍然是0。

我对这个问题不太确定。甚至不确定tensorflow是否支持这一点。

请澄清我的疑虑，如果可能的话，分享示例代码。

tensorflow

distributed

回答 1

Data Science用户

发布于 2021-06-22 16:46:09

1-在代码开始时(在库声明之后)使用distribute.MirrorStrategy()来正确激活所有相关函数。

2-集env变量CUDA_VISIBLE_DEVICES=1 (https://stackoverflow.com/questions/37893755/tensorflow-set-cuda-visible-devices-within-jupyter)

3.确保镜像变量的设置是正确的，因为：

with strategy.scope():
     x = tf.Variable(..)

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/96330

复制

相似问题

问基于低水平Tensorflow API的分布式训练
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于低水平Tensorflow API的分布式训练EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于低水平Tensorflow API的分布式训练
EN