我和CUDA nvprof分析器有一些问题。站点上的一些度量标准的命名方式与分析器中的不同,并且这些变量似乎没有在站点上的任何地方进行解释,也没有在web上的任何地方进行解释(我无法找到任何有效的引用)。
我解码了其中的大部分(在这里:使用nvprof的吞吐量),但我仍然不确定:
elapsed_cycles
max_warps_per_sm有人知道怎么算吗?
我试图通过cmdline使用nvprof来评估大约6000个不同的内核,所以使用可视化分析器对我来说是不可行的。
任何帮助都很感激。非常感谢!
编辑:我正在使用的内容:
GTX480,即cc。2.0版本。
我已经做过的事
我已经做了一个脚本,它从分析器文档站点中获取每个度量的公式,解决任何给定度量的依赖关系,通过nvprof提取这些依赖项,然后对结果进行计数。这涉及使用一个(相当大的) sed脚本,该脚本将站点上出现的所有变量更改为实际被分析器接受的变量。基本上,我已经通过nvprof模拟了grepping指标。我只是对那些有问题:
为什么这些具体的变量有问题:
max_warps_per_sm --如果它是cc或另一个度量/事件的界限,而我可能在某种程度上丢失了它,并且对我的程序是特定的(因为分析器文档中的一些变量有3 (!),这并不令人惊讶。(同一事物的不同名称)。
elapsed_cycles -我在nvprof的输出中没有elapsed_cycles --查询--事件。甚至没有包含"active_cycles“这个词的任何东西,唯一一个包含”循环“的词就是”“。会是这样吗?还有其他方法来计算吗?用"gputime“代替这个变量有什么害处吗?我不需要绝对数字,我用它来寻找相关性和分析代码,所以如果"gputime"= "elapsed_cycles“*常量,我完全可以接受。
发布于 2013-05-02 01:49:12
可以使用以下命令列出每个设备上可用的所有事件:
nvprof查询-事件
这并不是很完整,但了解这些事件/指标是什么是一个很好的开始。例如,在CUDA 5.0和CC 3.0 GPU中,我们得到:
elapsed_cycles_sm:经过的时钟
elapsed_cycles_sm是每个多处理器经过的时钟周期数。如果您想为您的程序度量此指标:
nvprof --events elapsed_cycles_sm ./your_program
max_warps_per_sm非常简单:这是每个多处理器驻留翘曲的最大数量。此值取决于计算能力(见图表这里)。这是一个硬件限制,无论您的内核是什么,在任何给定的时间,每个多处理器的驻留偏差都不会超过这个值。
另外,在分析器在线文档中还提供了更多的信息,以及描述和公式。
更新
根据这个答案
active_cycles:多处理器至少有一个活动翘曲的周期数。
https://stackoverflow.com/questions/16323013
复制相似问题