首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >图灵体系结构中异步发动机计数的澄清

图灵体系结构中异步发动机计数的澄清
EN

Stack Overflow用户
提问于 2020-02-11 10:44:20
回答 1查看 664关注 0票数 2

方案是,我知道在费米中引入并在以后的架构中进一步增强的并发复制和执行机制,即所述在CUDA C++最佳实践指南中:

当前的GPU可以同时处理异步数据传输和执行内核。具有单个副本引擎的GPU可以执行一个异步数据传输和执行内核,而具有两个副本引擎的GPU可以同时执行从主机到设备的一个异步数据传输、从设备到主机的一个异步数据传输以及执行内核。GPU上的复制引擎的数量由asyncEngineCount结构的cudaDeviceProp字段提供,该字段也列出在deviceQuery CUDA示例的输出中。

当我在图灵GPU (RTX 2080 to和RTX 2080 SUPER)上执行CUDA 10.0的deviceQuery示例时,它显示asyncEngineCount等于3

我只能想象,使用两个复制引擎,内核可以与H2D和D2H副本同时执行(总共有3个并发操作)。那么,第三引擎在图灵GPU中的作用是什么呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-02-12 11:04:54

如果StackOverflow允许的话,这个问题可以用一个词回答:NVLink

例如,通过NVLink连接的两张卡,每个卡额外的复制引擎允许您在全带宽的NVLink上执行双向对等副本,以及全带宽主机<->设备传输。

有了两张以上的卡,并不是所有的链接都可以同时饱和,每张卡只有三个拷贝引擎。然而,随着链路数量的增加,所有链路同时使用的可能性也越来越小,因为该方案将很快耗尽主机内存带宽。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60167094

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档