表面存储器是CUDA中纹理缓存的唯一模拟.
我在学术文献中找到了NVIDIA 峰值带宽数,用于从全球内存和共享内存中读取。然而,我发现有关CUDA存储设备的写吞吐量的信息较少。
特别是,我对费米和开普勒GPU上CUDA表面存储器的带宽(如果已知的话也是延迟)感兴趣。
发布于 2013-01-17 01:54:25
据设备内存访问称,
由于纹理/表面/全局mem的延迟几乎相同,并且它们都位于片外DRAM上,所以我认为表面mem的峰值带宽与GPU规范中的全局mem相同。
为了对延迟时间进行计时,您引用的文件可能只使用一个线程。因此,很容易通过
全局mem读取延迟=总读取时间/读取次数
您可以以类似的方式在表面写入上实现您的计时。但是,我认为将此方法应用于共享mem延迟度量是不合理的,因为与共享mem延迟相比,for循环的开销是不可忽略的。
发布于 2014-02-15 21:54:51
在计算能力方面,2.x和3.x设备表面写操作通过L1缓存,具有与全局写入相同的吞吐量和延迟。
https://stackoverflow.com/questions/14370822
复制相似问题