首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CUDA表面存储器的峰值带宽?

CUDA表面存储器的峰值带宽?
EN

Stack Overflow用户
提问于 2013-01-17 01:28:23
回答 2查看 884关注 0票数 1

表面存储器是CUDA中纹理缓存的唯一模拟.

我在学术文献中找到了NVIDIA 峰值带宽数,用于从全球内存和共享内存中读取。然而,我发现有关CUDA存储设备的吞吐量的信息较少。

特别是,我对费米和开普勒GPU上CUDA表面存储器的带宽(如果已知的话也是延迟)感兴趣。

  • 这上面有标杆号码吗?
  • 如果不是,那么我如何实现一个基准来测量写入表面内存的带宽呢?
EN

回答 2

Stack Overflow用户

发布于 2013-01-17 01:54:25

设备内存访问称,

  • 在缓存丢失时:纹理提取或表面读取需要从设备内存读取一个全局内存;
  • 在缓存命中:它减少了全局mem带宽需求,但没有获取延迟。

由于纹理/表面/全局mem的延迟几乎相同,并且它们都位于片外DRAM上,所以我认为表面mem的峰值带宽与GPU规范中的全局mem相同。

为了对延迟时间进行计时,您引用的文件可能只使用一个线程。因此,很容易通过

全局mem读取延迟=总读取时间/读取次数

您可以以类似的方式在表面写入上实现您的计时。但是,我认为将此方法应用于共享mem延迟度量是不合理的,因为与共享mem延迟相比,for循环的开销是不可忽略的。

票数 2
EN

Stack Overflow用户

发布于 2014-02-15 21:54:51

在计算能力方面,2.x和3.x设备表面写操作通过L1缓存,具有与全局写入相同的吞吐量和延迟。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14370822

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档