文章/答案/技术大牛

发布

社区首页 >问答首页 >CUDA表面存储器的峰值带宽？

问CUDA表面存储器的峰值带宽？
EN

Stack Overflow用户

提问于 2013-01-17 01:28:23

回答 2查看 884关注 0票数 1

表面存储器是CUDA中纹理缓存的唯一模拟.

我在学术文献中找到了NVIDIA 峰值带宽数，用于从全球内存和共享内存中读取。然而，我发现有关CUDA存储设备的写吞吐量的信息较少。

特别是，我对费米和开普勒GPU上CUDA表面存储器的带宽(如果已知的话也是延迟)感兴趣。

这上面有标杆号码吗？
如果不是，那么我如何实现一个基准来测量写入表面内存的带宽呢？

cuda

gpu

benchmarking

nvidia

回答 2

Stack Overflow用户

发布于 2013-01-17 01:54:25

据设备内存访问称，

在缓存丢失时:纹理提取或表面读取需要从设备内存读取一个全局内存；
在缓存命中:它减少了全局mem带宽需求，但没有获取延迟。

由于纹理/表面/全局mem的延迟几乎相同，并且它们都位于片外DRAM上，所以我认为表面mem的峰值带宽与GPU规范中的全局mem相同。

为了对延迟时间进行计时，您引用的文件可能只使用一个线程。因此，很容易通过

全局mem读取延迟=总读取时间/读取次数

您可以以类似的方式在表面写入上实现您的计时。但是，我认为将此方法应用于共享mem延迟度量是不合理的，因为与共享mem延迟相比，for循环的开销是不可忽略的。

票数 2

Stack Overflow用户

发布于 2014-02-15 21:54:51

在计算能力方面，2.x和3.x设备表面写操作通过L1缓存，具有与全局写入相同的吞吐量和延迟。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14370822

复制

相似问题

问CUDA表面存储器的峰值带宽？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CUDA表面存储器的峰值带宽？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CUDA表面存储器的峰值带宽？
EN