假设我想用Tensorflow开发和训练一个大的端到端深度学习模型(1.15,因为遗留的原因)。对象复杂,可以提取的特征类型很多:固定长度的数值特征向量、序列、无序集等。因此,该模型将包含许多子模块来处理各种类型的特征。
我可以访问一个带有多个GPU的服务器,所以我想在它们之间分发模型。这样做最好的方法是什么?到目前为止,我正在考虑将子系统放在单独的GPU上,但这提出了一些问题:
发布于 2020-02-16 06:38:20
我邀请你们看看关于github的Horovod项目。它是目前使用tensorflow执行分布式培训最有效的方法。他们有可用的教程和基准测试资源。
https://datascience.stackexchange.com/questions/68083
复制相似问题