标题说明了这一切,但这是我更详细的问题:我正在用python + pycuda实现一个在分布式系统上运行的有限元素求解器。
为了隐藏通信延迟,我试图重叠计算和通信(用两个单独的流)。我的问题是用于通信的内核(在一个流上)在主计算内核的末尾执行(参见下面的图)。

我的问题是:我如何告诉我的GPU首先执行通信内核?我使用的是RTX2060M,因此支持流优先级,并且在pycuda中存在属性STREAM_PRIORITIES_SUPPORTED使我认为可以从pycuda设置流优先级。
发布于 2022-02-28 05:54:06
它出现,在编写之日(2022年2月),PyCUDA还没有实现优先级的流创建。因此,虽然您想要做的事情可以使用CUDA驱动程序API ( PyCUDA使用)来完成,但该特性目前还没有在PyCUDA中公开。
https://stackoverflow.com/questions/71251698
复制相似问题