假设我在CUDA下的C++中有一个二维数组,存储在共享内存中,如下所示:
__shared__ float arr[4][4]; // C++ has a default row-major ordering默认情况下,C++将以行为主的格式对arr中的元素进行排序。
也就是说,它将分配一个连续的内存块,并存储这样的元素:(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),...以此类推。
有没有一种方法可以告诉C++/CUDA编译器以列为主的顺序排列?
发布于 2012-09-27 23:08:13
为什么不直接交换正在使用的索引呢?
使用arr[y][x]而不是arr[x][y]。
有趣的是你为什么想这样做。也许使用缓存可能会有帮助,但如果没有详细信息,我就不能确定。
希望能有所帮助。
发布于 2012-09-27 23:07:43
转置矩阵。arr[4][4]意味着arr是一个由4个大小为4的数组组成的数组。以“行为主”的顺序存储值的原因是,例如,arr[0]必须提供指向这四个数组中第一个数组的指针,并且单个数组的元素应该放在连续的内存位置中,以便可以通过向唯一标识符添加索引来单独引用它们。
https://stackoverflow.com/questions/12624282
复制相似问题