我正在努力理解nvprof的度量标准。我是CUDA的新手,因此我试图了解哪些指标对性能很重要。
我编写了一个计算矩阵之间绝对差之和的内核。
它运行在Tegra X1上,平均为47 at,每块有1584个块和1024个线程。
运行nvprof我得到以下指标:
achieved_occupancy Achieved Occupancy 0.982284 0.982284 0.982284
warp_execution_efficiency Warp Execution Efficiency 0.00% 0.00% 0.00%
sm_efficiency Multiprocessor Activity 0.11% 0.11% 0.11%
branch_efficiency Branch Efficiency 100.00% 100.00% 100.00%
ipc Executed IPC 3.600738 3.600738 3.600738为什么Warp Execution Efficiency和Multiprocessor Activity如此之低,而其他指标却如此之好?当分析内核的一般性能时,这些是正确的度量标准,对吗?
发布于 2016-10-19 01:29:00
这里的一个好答案可能包括一个关于CUDA执行效率、优化方法和目标以及nvprof机制的冗长教程。因为您根本没有提供任何代码,所以它必须是完全抽象和推测的。
如果您正在挣扎于nvprof或CUDA优化概念,您可能会更好地使用nvvp,这是一种可视化分析器,它包含了许多有指导的分析、解释、帮助和专家系统。
要开始探索您的一个问题,sm_efficiency指的是SM有一个或多个活动偏差的时间百分比。由于您的sm_efficiency相当低,所以看起来大部分时间SM(s)作为一个整体处于空闲状态-它没有发出指令。例如,如果我们将这与占用率进行比较,这些几乎是正交的概念。占用率大致指的是SM上存在多少翘曲。如果SM有一个“完全补充”的翘曲,那么占用率将很高。
关于这些是否是“适当的度量”的问题,“适当的度量”应该遵循以下两个轨迹之一:
将其标记为CW -其他人可能希望补充他们的想法或最佳做法。
https://stackoverflow.com/questions/40119862
复制相似问题