随着NVIDIA GPU的发展,每个SM的核心数量发生了变化:在费米中,我们有32颗,但在Maxwell,根据白皮书的数字是128。因此,我的问题如下:
发布于 2015-05-26 16:21:31
创建包含128个线程的块的网格更好吗?这样的代码会运行得更快吗?
最优块的大小取决于问题。这是一个想法,你的块大小是经纱大小的倍数。其他因素包括占用考虑和共享内存使用。
“翘曲”这个词是否保持不变,32个线程?
到目前为止,NVIDIA指定的每个体系结构都有32个线程的翘曲大小,尽管编程模型并不能保证这一点。
在Cliff的一个名为"CUDA概述“的演示中,我读到每个Fermi SM都有两个翘曲调度程序,它们能够同时维护”多达1536个线程“。既然我们有32个核心,那怎么可能呢?他的意思是,每48个块32个线程可以在队列中等待,以便占据内核,那么32*48 = 1536?
GPU通过超额订阅来工作.它们要求每个核心有多个线程才能有效地运行。GPU可以在开销为零的线程之间切换,因此,通过超额订阅内核,您可以通过在下一个时钟周期中从不同的线程发出指令到相同的核心来保持内核的忙碌。
https://stackoverflow.com/questions/30463596
复制相似问题