我正在使用Halide实现一个算法,同时比较相同算法的手工调整(使用CUDA)版本。Halide实现的加速基本上进行得很好,但仍然比手工调优的版本慢一点。因此,我尝试使用nvvp(nvidia visual profiler)查看每个Func的确切执行时间。通过这样做,我发现手工调优的实现重叠了多个函数的执行(它们是相似的),这是在Halide实现中作为Func实现的。Cuda的Stream技术就是用来做这件事的。
我想知道我是否可以在Halide中做类似的GPU开发。
感谢您的阅读。
https://stackoverflow.com/questions/44399355
复制相似问题