腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(45)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
在MacOS上安装
horovod
通过pip3 install
horovod
安装
horovod
之后 我得到一个错误: ImportError: Extension
horovod
.tensorflow has not been built: /usr/local/lib/python3.7/site-packages/
horovod
/tensorflow/mpi_lib.cpython-37m-darwin.so not found Ifthis is not expecte
浏览 59
提问于2020-11-11
得票数 0
1
回答
安装时出现导入错误:安装
Horovod
和Tensorflow时出错
我正在尝试安装Tensorflow和
Horovod
然后我运行了一个示例代码import tensorflow as tf当我运行这段代码时,我得到以下错误 ImportError: Extension
horovod
.tensorflowIf this is not expected, reinst
浏览 4
提问于2018-10-10
得票数 0
2
回答
Tensorflow镜像策略和
Horovod
分布策略
我正在尝试理解Tensorflow镜像策略和
Horovod
分发策略之间的基本区别。从文档和源代码调查中,我发现
Horovod
(https://github.com/
horovod
/
horovod
)使用消息传递协议在多个节点之间进行通信。与
horovod
相比,镜像策略的性能如何?
浏览 16
修改于2019-03-06
得票数 6
1
回答
ImportError:尚未生成扩展
horovod
.tensorflow
一直收到这个错误,我已经多次重新安装了
horovod
和tensorflow。请帮帮我!Traceback (most recent call last): import
horovod
.tensorflow40, in <module> check_extension('
horovod
.tensorflow', '
HOROVOD
_WITH_TENSORFLO
浏览 64
修改于2019-05-25
得票数 3
2
回答
TensorFlow
Horovod
: NCCL和MPI
正在将和MPI组合成一个用于分布式深度学习的包装器,例如TensorFlow。我以前没有听说过NCCL,我正在研究它的功能。以下是NVIDIA网站上关于NCCL的说明: 所以我想问为什么在霍洛沃德需要MPI?据我所知,MPI还被用来通过also范式有效地交换分布式节点之间的梯度。但据我所知,NCCL
浏览 2
修改于2020-09-15
得票数 11
1
回答
Horovod
和Tensorflow估计器
这也为训练集和验证集提供了单独的Tensorboard日志目录-我希望
Horovod
解决方案也是如此。
浏览 18
修改于2017-12-12
得票数 2
回答已采纳
1
回答
使用SLURM和
Horovod
运行hydra配置的项目
现在,我正在使用
Horovod
来运行我的pytorch模型的分布式训练。我想开始为--multirun特性使用hydra配置,并使用SLURM将所有作业排入队列。我知道有Submitid插件。但我不确定,整个管道如何与
Horovod
合作。假设我想使用hydra -multirun来运行几个多gpu实验,我想使用slurm来排队运行,因为我的资源是有限的,并且大部分时间都是按顺序运行的,我想使用
Horovod
来同步我的网络的梯度。
浏览 50
修改于2020-09-28
得票数 0
回答已采纳
1
回答
pip安装
horovod
在conda + OSX 10.14上失败
在安装了电筒的conda环境中运行pip install
horovod
会导致 error: None of TensorFlow, PyTorch, or MXNet plugins were built
浏览 2
提问于2019-03-22
得票数 1
回答已采纳
2
回答
如何使用
horovod
对正常值进行所有的allreduce操作?
Horovod
可以很容易地计算tensorflow的梯度。我们可以使用
horovod
来计算普通值吗?例如:import numpy as nphvd_r=int(hvd.rank()) #each process
浏览 167
修改于2017-11-30
得票数 2
回答已采纳
1
回答
使用
horovod
和slurm进行角化训练
我想在运行Slurm的集群上扩展培训,将其作为工作负载管理器和用于分布式培训的
horovod
()。callbacks=[tbCallback, checkpoint])} 我想知道应该在Slurm和
Horovod
浏览 0
提问于2018-11-08
得票数 0
回答已采纳
1
回答
基于GPU集群的
Horovod
深度学习模型分布式训练python程序
. HorovodRunner has the ability to record the timeline of its activity with
Horovod
Timeline.Toof the
浏览 2
修改于2020-07-11
得票数 2
1
回答
如何修复:
horovod
.run.common.util.network.NoValidAddressesFound
localhost:1,192.168.0.20:2 -p 12345 python keras_mnist_advanced.py 启动horovodrun任务功能失败:
horovod
.run.common.util.network.NoValidAddressesFound
浏览 1
修改于2019-03-30
得票数 1
1
回答
基于Tensorflow 1.X的
Horovod
局部梯度聚集
我试图使用
Horovod
在不同的服务器上分发训练GPU。遵循建议。 我想要实现局部梯度聚合。
浏览 9
修改于2021-07-02
得票数 0
回答已采纳
2
回答
将数据从`tf.data.Dataset`分发给多个工人(例如对
Horovod
)
使用
Horovod
,您基本上可以运行N个独立的实例(因此它是图之间复制的一种形式),它们通过特殊的
Horovod
操作(基本上是广播+减少)进行通信。使用
Horovod
广播将效率低下,因为您会将所有数据复制到所有实例。我想TF MultiDeviceIterator提供了一些类似的功能(或者基本上就是这样),但我不确定它是否与
Horovod
一起工作,以及您将如何设置它? 或者也许您可以通过TF员工( )来进行分发?(这个问题实际上比
Horovod
更通用,尽管
Horovod
可能是一个很好的例
浏览 13
修改于2020-05-31
得票数 8
1
回答
我使用以下命令pip安装nvidia-tensorflow[
horovod
]时出现错误。
tensorholo) C:\Users\alaba\Desktop\MIT PROJECT\tensor_holography-main>pip install nvidia-tensorflow[
horovod
] Downloading nvidia-tensorflow-0.0.1.dev5.tar.gz`` (7.9 kB)
浏览 17
修改于2022-06-26
得票数 1
1
回答
使用TensorFlow的
Horovod
能处理亚马逊SageMaker中的非GPU实例吗?
代码是用TensorFlow编写的,类似于我认为CPU实例应该足够的以下代码:
Horovod
与TensorFlow能在亚马逊SageMaker中使用非GPU实例吗?
浏览 5
提问于2022-09-11
得票数 0
回答已采纳
1
回答
在tf.keras中使用
Horovod
时,如何从检查点恢复?
我在0.18和0.19.2之间的所有
Horovod
版本中都遇到过以下问题。但同时,由于的原因,我们无法仅将其加载到秩0,从而导致批处理规范挂起在
horovod
中。在使用BatchNorm tf.keras层时,有没有人能够成功地仅在等级0上调用hvd.load_model?
浏览 10
提问于2020-05-20
得票数 2
1
回答
如何在Azure Databricks群集上使用具有
Horovod
的驱动程序节点GPU?
(a)有没有办法让
Horovod
在分布式学习中包含驱动节点上的GPU? (b)或者:是否有一种方法可以在Databricks中使用GPU工作者但非GPU驱动程序创建集群?
浏览 2
提问于2020-01-10
得票数 1
1
回答
从dockerfile生成Azure机器学习环境(tensorflow)失败
-3.7/
horovod
/runner copying
horovod
/runner/gloo_run.py -> build/lib.linux-x86_64-3.7
浏览 32
修改于2021-10-12
得票数 1
2
回答
Azure ML服务转储日志
使用AzureML服务,我如何使用
Horovod
在多个节点上为keras深度学习的不同时期转储正确的损失曲线或精度曲线?使用
Horovod
和AzureML的Keras深度学习的Loss vs epochs plt似乎有问题。使用Keras/
Horovod
(2个GPU)和AMLS SDK训练CNN会生成奇怪的图形
浏览 21
修改于2019-08-10
得票数 1
第 2 页
第 3 页
点击加载更多
领券