首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nvprof,度量,elapsed_cycles变量

Nvprof,度量,elapsed_cycles变量
EN

Stack Overflow用户
提问于 2013-05-01 17:17:46
回答 1查看 2.6K关注 0票数 2

我和CUDA nvprof分析器有一些问题。站点上的一些度量标准的命名方式与分析器中的不同,并且这些变量似乎没有在站点上的任何地方进行解释,也没有在web上的任何地方进行解释(我无法找到任何有效的引用)。

我解码了其中的大部分(在这里:使用nvprof的吞吐量),但我仍然不确定:

代码语言:javascript
复制
elapsed_cycles
max_warps_per_sm

有人知道怎么算吗?

我试图通过cmdline使用nvprof来评估大约6000个不同的内核,所以使用可视化分析器对我来说是不可行的。

任何帮助都很感激。非常感谢!

编辑:我正在使用的内容:

GTX480,即cc。2.0版本。

我已经做过的事

我已经做了一个脚本,它从分析器文档站点中获取每个度量的公式,解决任何给定度量的依赖关系,通过nvprof提取这些依赖项,然后对结果进行计数。这涉及使用一个(相当大的) sed脚本,该脚本将站点上出现的所有变量更改为实际被分析器接受的变量。基本上,我已经通过nvprof模拟了grepping指标。我只是对那些有问题:

为什么这些具体的变量有问题:

max_warps_per_sm --如果它是cc或另一个度量/事件的界限,而我可能在某种程度上丢失了它,并且对我的程序是特定的(因为分析器文档中的一些变量有3 (!),这并不令人惊讶。(同一事物的不同名称)。

elapsed_cycles -我在nvprof的输出中没有elapsed_cycles --查询--事件。甚至没有包含"active_cycles“这个词的任何东西,唯一一个包含”循环“的词就是”“。会是这样吗?还有其他方法来计算吗?用"gputime“代替这个变量有什么害处吗?我不需要绝对数字,我用它来寻找相关性和分析代码,所以如果"gputime"= "elapsed_cycles“*常量,我完全可以接受。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-02 01:49:12

可以使用以下命令列出每个设备上可用的所有事件:

nvprof查询-事件

这并不是很完整,但了解这些事件/指标是什么是一个很好的开始。例如,在CUDA 5.0和CC 3.0 GPU中,我们得到:

elapsed_cycles_sm:经过的时钟

elapsed_cycles_sm是每个多处理器经过的时钟周期数。如果您想为您的程序度量此指标:

nvprof --events elapsed_cycles_sm ./your_program

max_warps_per_sm非常简单:这是每个多处理器驻留翘曲的最大数量。此值取决于计算能力(见图表这里)。这是一个硬件限制,无论您的内核是什么,在任何给定的时间,每个多处理器的驻留偏差都不会超过这个值。

另外,在分析器在线文档中还提供了更多的信息,以及描述和公式。

更新

根据这个答案

active_cycles:多处理器至少有一个活动翘曲的周期数。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16323013

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档