我在windows下使用Cuda 5.5,使用VS2010、nsight 3.1和捆绑的可视化分析器。
我有一个玩具内核,它只做商店,我看到不同的数据从nsight和可视化剖析器。我该相信哪一个?为什么我会有不同的看法?
Nsight表示4.21MB存储,可视化分析器表示71402个事务,代表8.9 of (假设它们都是128 B)。因此,Nsight称BW为277 is /s,可视化分析器为126.69GB/s
我认为Nsight数据更接近现实,因为我的数据集是1024x1024。
编辑
我从原来的问题中删除了许多错误的假设。我想的是CPU和缓存的一致性。
访问模式:每个线程执行4个连续1字节的存储,如下所示(dst为char*):
for (int i = 0; i < 4; i++) {
dst[offset+i] = 0;
}


发布于 2013-12-12 20:55:29
设备内存和全局内存之间有区别。在编程指南中,它说设备内存包括“全局、局部、共享、常量或纹理内存”(参见5.3.2)。
在第一张图片中,全局加载和存储应该位于名为L1/Shared内存的第一个表中(在捕获中是不可见的)。
https://stackoverflow.com/questions/17191081
复制相似问题