文章/答案/技术大牛

发布

社区首页 >问答首页 >streams如何在CUDA中提供并发执行？

问streams如何在CUDA中提供并发执行？
EN

Stack Overflow用户

提问于 2013-09-27 18:22:21

回答 2查看 331关注 0票数 0

在CUDA文档中提到，如果我们像这样使用两个流( stream0和stream1 )：我们在stream0中复制数据，然后在stream0中启动第一个内核，然后我们在stream0中恢复设备中的数据，然后在stream1中进行相同的操作，这种方式，就像"CUDA by example 2010“一书中提到的那样，不提供并发执行，但在”并发内核示例“中使用了这种方法，并提供了并发执行。那么你能帮我理解一下这两个例子之间的区别吗？

concurrency

cuda

nvidia

cuda-streams

回答 2

Stack Overflow用户

发布于 2013-09-27 19:04:50

重叠数据传输取决于许多因素，包括计算能力、版本和编码风格。这个博客可能会提供更多信息。

https://developer.nvidia.com/content/how-overlap-data-transfers-cuda-cc

票数 2

Stack Overflow用户

发布于 2013-09-28 04:29:55

我只是在扩展Eric的答案。

在《CUDA编程指南》中，报告了使用2 streams (例如stream0和stream1 )执行以下操作的示例

案例A

memcpyHostToDevice --- stream0
kernel execution   --- stream0
memcpyDeviceToHost --- stream0

memcpyHostToDevice --- stream1
kernel execution   --- stream1
memcpyDeviceToHost --- stream1

换句话说，stream0的所有操作都是先发出的，然后是关于stream1的操作。在"CUDA By Example“一书的第10.5节中也报告了同样的例子，但”显然“得出的结论(与指南”明显的“矛盾)是这样不能实现并发性。

在"CUDA By Example“的第10.6节中，提出了streams的以下替代用法

案例B

memcpyHostToDevice --- stream0
memcpyHostToDevice --- stream1
kernel execution   --- stream0
kernel execution   --- stream1
memcpyDeviceToHost --- stream0
memcpyDeviceToHost --- stream1

换句话说，stream0和stream1的内存复制操作和内核执行现在是交错的。这本书指出了如何使用此解决方案实现并发。

实际上，在"CUDA By Example“这本书和CUDA编程指南之间没有冲突，因为书中的讨论是在特别参考GTX285卡的情况下进行的，而正如Eric和引用的博客文章How to Overlap Data Transfers in CUDA C/C++中所指出的那样，由于可用的依赖项和复制引擎，不同的体系结构可以不同地实现并发性。

例如，博客考虑了两种卡片: C1060和C2050。前者有一个内核引擎和一个复制引擎，一次只能发出一个内存事务(H2D或D2H)。后者有一个内核引擎和两个复制引擎，可以同时发出两个内存事务(H2D和D2H)。对于只有一个复制引擎的C1060，会发生什么，如下所示

案例A- C1060 -未实现并发

Stream       Kernel engine         Copy engine             Comment

stream0 ----                       memcpyHostToDevice ----
stream0 ---- kernel execution ----                         Depends on previous memcpy
stream0 ----                       memcpyDeviceToHost ---- Depends on previous kernel
stream1 ----                       memcpyHostToDevice ---- 
stream1 ---- kernel execution ----                         Depends on previous memcpy
stream1 ----                       memcpyDeviceToHost ---- Depends on previous kernel

案例B- C1060 -实现并发的

Stream         Kernel engine           Copy engine               Comment

stream0   ----                         memcpyHostToDevice 0 ----
stream0/1 ---- Kernel execution 0 ---- memcpyHostToDevice 1 ----  
stream0/1 ---- Kernel execution 1 ---- memcpyDeviceToHost 0 ---- 
stream1   ----                         memcpyDeviceToHost 1 ----

关于C2050和考虑3流的情况，如果现在实现了A并发，则与C1060相反。

案例A- C2050 -实现并发的

Stream           Kernel engine           Copy engine H2D           Copy engine D2H

stream0     ----                         memcpyHostToDevice 0 ----
stream0/1   ---- kernel execution 0 ---- memcpyHostToDevice 1 ----                              
stream0/1/2 ---- kernel execution 1 ---- memcpyHostToDevice 2 ---- memcpyDeviceToHost 0
stream0/1/2 ---- kernel execution 2 ----                           memcpyDeviceToHost 1
stream2     ----                                                   memcpyDeviceToHost 2

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19048405

复制

相似问题

问streams如何在CUDA中提供并发执行？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问streams如何在CUDA中提供并发执行？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问streams如何在CUDA中提供并发执行？
EN