REDUCE-3:加载时预归约 为了充分利用空闲线程并提升计算效率,在从全局内存向共享内存加载元素的同时执行第一次计算操作。 结果 REDUCE-3 结果 指令开销瓶颈识别 当前方法表现良好,但仍有进一步优化的空间。通过分析性能指标发现,在Tesla T4上约41 GB/s的带宽使用率表明我们并未达到或耗尽带宽上限。 REDUCE-4:Warp级循环展开 首先分析REDUCE-3中的执行模式以理解优化的必要性。在1024元素的示例中,经过初始的元素对加载和相加后,256个线程处理512个元素。 因此,需要借鉴REDUCE-3中加载时预归约的思想,尝试执行更多的加法操作而非仅限于第一次加法。
基于这个进一步设计了一些缩小的搜索空间,Reduce-1代表删除了1x1卷积、Reduce-2代表删除了3x3 average pooling, Reduce-3代表删除了以上两者。