是否有任何内置的CUDA内核函数相当于OpenCL 2.0 work_group_*函数?我专门找work_group_scan_exclusive_add和work_group_reduce_add。我对这些操作的天真实现不如OpenCL的内置函数执行得好,我希望使用__shfl的实现可以用CUDA来加快速度。
发布于 2018-04-04 22:15:05
CUDA本身并不提供此功能。
幼崽库正是基于这一目的而建立的。
这里对块级原语进行了总结.
此页面具有用于实现块缩减的参考代码。
https://stackoverflow.com/questions/49660964
相似问题