首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于Tensorflow的分布式DL模型

基于Tensorflow的分布式DL模型
EN

Data Science用户
提问于 2020-02-14 12:18:15
回答 1查看 42关注 0票数 1

假设我想用Tensorflow开发和训练一个大的端到端深度学习模型(1.15,因为遗留的原因)。对象复杂,可以提取的特征类型很多:固定长度的数值特征向量、序列、无序集等。因此,该模型将包含许多子模块来处理各种类型的特征。

我可以访问一个带有多个GPU的服务器,所以我想在它们之间分发模型。这样做最好的方法是什么?到目前为止,我正在考虑将子系统放在单独的GPU上,但这提出了一些问题:

  1. 在GPU之间传输计算结果的成本会有多高?是自动的,对吧?
  2. 考虑到变量被放置在不同的GPU上,梯度计算和下降的代价会有多大?梯度是否也会与其对应的变量在相同的GPU上计算?
EN

回答 1

Data Science用户

发布于 2020-02-16 06:38:20

我邀请你们看看关于github的Horovod项目。它是目前使用tensorflow执行分布式培训最有效的方法。他们有可用的教程和基准测试资源。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68083

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档