文章/答案/技术大牛

发布

社区首页 >问答首页 >Nvprof，度量，elapsed_cycles变量

问Nvprof，度量，elapsed_cycles变量
EN

Stack Overflow用户

提问于 2013-05-01 17:17:46

回答 1查看 2.6K关注 0票数 2

我和CUDA nvprof分析器有一些问题。站点上的一些度量标准的命名方式与分析器中的不同，并且这些变量似乎没有在站点上的任何地方进行解释，也没有在web上的任何地方进行解释(我无法找到任何有效的引用)。

我解码了其中的大部分(在这里：使用nvprof的吞吐量)，但我仍然不确定：

elapsed_cycles
max_warps_per_sm

有人知道怎么算吗？

我试图通过cmdline使用nvprof来评估大约6000个不同的内核，所以使用可视化分析器对我来说是不可行的。

任何帮助都很感激。非常感谢！

编辑:我正在使用的内容：

GTX480，即cc。2.0版本。

我已经做过的事

我已经做了一个脚本，它从分析器文档站点中获取每个度量的公式，解决任何给定度量的依赖关系，通过nvprof提取这些依赖项，然后对结果进行计数。这涉及使用一个(相当大的) sed脚本，该脚本将站点上出现的所有变量更改为实际被分析器接受的变量。基本上，我已经通过nvprof模拟了grepping指标。我只是对那些有问题：

为什么这些具体的变量有问题：

max_warps_per_sm --如果它是cc或另一个度量/事件的界限，而我可能在某种程度上丢失了它，并且对我的程序是特定的(因为分析器文档中的一些变量有3 (!)，这并不令人惊讶。(同一事物的不同名称)。

elapsed_cycles -我在nvprof的输出中没有elapsed_cycles --查询--事件。甚至没有包含"active_cycles“这个词的任何东西，唯一一个包含”循环“的词就是”“。会是这样吗？还有其他方法来计算吗？用"gputime“代替这个变量有什么害处吗？我不需要绝对数字，我用它来寻找相关性和分析代码，所以如果"gputime"= "elapsed_cycles“*常量，我完全可以接受。

profiler

cuda

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-02 01:49:12

可以使用以下命令列出每个设备上可用的所有事件：

nvprof查询-事件

这并不是很完整，但了解这些事件/指标是什么是一个很好的开始。例如，在CUDA 5.0和CC 3.0 GPU中，我们得到：

elapsed_cycles_sm:经过的时钟

elapsed_cycles_sm是每个多处理器经过的时钟周期数。如果您想为您的程序度量此指标：

nvprof --events elapsed_cycles_sm ./your_program

max_warps_per_sm非常简单:这是每个多处理器驻留翘曲的最大数量。此值取决于计算能力(见图表这里)。这是一个硬件限制，无论您的内核是什么，在任何给定的时间，每个多处理器的驻留偏差都不会超过这个值。

另外，在分析器在线文档中还提供了更多的信息，以及描述和公式。

更新

根据这个答案

active_cycles:多处理器至少有一个活动翘曲的周期数。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16323013

复制

相似问题

问Nvprof，度量，elapsed_cycles变量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nvprof，度量，elapsed_cycles变量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nvprof，度量，elapsed_cycles变量
EN