可以通过cudaDeviceScheduleBlockingSync调用cudaSetDeviceFlags()或者cudaEventBlockingSync调用cudaEventCreate()来请求封堵。阻塞等待使驱动程序将一个命令插入DMA命令缓冲区，该命令在缓冲区中的所有先前命令均已执行时发出中断信号。然后，驱动程序可以将中断映射到Windows事件或Linux文件句柄，从而使同步命令能够等待，而不会像默认轮询方法那样不断消耗CPU。

查询基本上是对用于轮询等待的32位内存位置的手动检查；因此在大多数情况下，它们非常便宜。但是如果启用了ECC，则查询将进入内核模式以检查是否存在任何ECC错误；在Windows上，任何挂起的命令都将刷新到驱动程序(这需要一个内核thunk)。

票数 11

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11953722

复制

相似问题

问如何减少CUDA同步延迟/延迟
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何减少CUDA同步延迟/延迟EN