问基于Tensorflow的分布式DL模型
EN

Data Science用户

提问于 2020-02-14 12:18:15

回答 1查看 42关注 0票数 1

假设我想用Tensorflow开发和训练一个大的端到端深度学习模型(1.15，因为遗留的原因)。对象复杂，可以提取的特征类型很多:固定长度的数值特征向量、序列、无序集等。因此，该模型将包含许多子模块来处理各种类型的特征。

我可以访问一个带有多个GPU的服务器，所以我想在它们之间分发模型。这样做最好的方法是什么？到目前为止，我正在考虑将子系统放在单独的GPU上，但这提出了一些问题：

发布于 2020-02-16 06:38:20

我邀请你们看看关于github的Horovod项目。它是目前使用tensorflow执行分布式培训最有效的方法。他们有可用的教程和基准测试资源。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68083

复制

相似问题

问基于Tensorflow的分布式DL模型EN