在CUDA visual profiler版本5中,我知道"gld/st_ requested _ throughput“是应用程序请求的内存吞吐量。然而,当我试图找到硬件的实际吞吐量时,我感到困惑,因为有两对指标似乎是合格的,它们是"gld/st_ throughput“和"dram_read/write_throughput”。哪一对实际上是硬件吞吐量?另一个是什么呢?
发布于 2012-12-12 22:45:38
gld/st_throughput包括由L1和L2缓存提供服务的事务。而dram_read/write_throughput是L2和设备内存之间的吞吐量。因此,每次全局内存访问都会计入gld/st_throughput,但只有未命中L1和L2缓存的请求才计入dram_read/write_throughput。
我在任何地方都没有找到一个很好的计数器概述。希望NVIDIA能提供...
https://stackoverflow.com/questions/13840328
复制相似问题