在DGX-1系统(8xV100)中,有两种类型的NVlinks: NVlink-V1和NVlink-V2。
我们有没有办法明确指定用于p2p和集体通信的NVlink类型?
发布于 2021-09-30 13:46:11
在一台机器中不存在两种类型的NVLINK。这里的不同之处在于连接在一起的链路数量。
NV1标识表示这些GPU(在该连接路径上)具有单链路连接。
NV2标识表示这些GPUS具有双链路(即带宽的两倍)连接。两个链接被“捆绑”在一起。
你不能二选一,这是不可控的,这是硬件设计的一个功能。
如果NCCL选择在具有NV2连接的两个GPU之间传输数据,它将以两倍的速度进行传输。
这里没有您要设置或控制的内容。
使用NCCL时的一般原则是,您指定要执行的集合,NCCL将使用现有fabric尽快完成该集合。
https://stackoverflow.com/questions/69386566
复制相似问题