我在测试CUDA占用设备,我故意尝试了一个有一个线程的块。电子表格给了我
Active Threads per Multiprocessor:32
Active Warps per Multiprocessor:1我理解为什么warps的数量是1,但预期每个SM的活动threads数量是1。这是否意味着,将生成一个偏差,其中31个结果将不会被取消提交。我怀疑这一点,但我想确认这一点。
干杯
发布于 2014-02-25 02:48:15
在今天的GPU中,调度的基本单位是warp,而不是线程。因此,无论您是只指定一个线程,还是指定所有32个线程,都会以同样的方式使用warp进行调度。
在这种情况下,我会说“活动线程”指的是与活动扭曲相关联的所有线程。这些线程中的一些可能什么都不做,这取决于你的块配置和/或实际的线程代码,但这些线程仍然涉及到调度的warps中。
是的,如果你只想运行一个线程,它需要一个完整的warp。
这就是为什么网格配置在任一位置都有1的原因之一:
my_kernel<<<N, 1>>>();或
my_kernel<<<1,N>>>(); 在使用GPU资源方面将是低效的。
发布于 2014-02-26 04:27:49
我创建了一个简单的测试程序,其中我声明了32字长的数组。内核代码很简单,d_atid=2*d_tid;I只在线程上启动内核。在显示结果时,我得到了d_a only scaled correctly...the access to my array的其他元素显示了一个错误。这告诉我确实调度了一个warp,但它只有一个活动线程,而不是32个线程,这就是我的问题和困惑
https://stackoverflow.com/questions/21995907
复制相似问题