我有一个算法,我只使用CPU并行执行,我已经实现了30倍的加速比。也就是说,效率等于0.93 (效率=加速/核心,即0.93 = 30/32)。后来,我将2个CPU (每个448核的特斯拉C2075 )加到了32个核心上。要计算包括CPU和GPU在内的效率,我应该将GPU核心的数量加到CPU核心上吗?也就是说,我将使用928个内核来计算效率(32 + 448 + 448 = 928)。或者应该以不同的方式计算?
根据这里所说的,计算了加速比和效率:https://software.intel.com/en-us/articles/predicting-and-measuring-parallel-performance
发布于 2020-02-20 00:28:30
GPU有更大的“核心复杂”架构,称为"SM“或"CU”,每个架构都有数十条管道。与CPU的"SIMD“不是”非常“相似的,它们可以在”单线程“内核代码中并行地向这些管道发出命令。
特斯拉C2075有14个SM单元,因此您可以为每个GPU (32+14+14)添加14个SM单元。
至少这是我计算“核心效率”和“管道效率”的方式。如果与GPU之间的数据传输不是瓶颈,那么在添加GPU之后,效率应该不会下降太多。
https://stackoverflow.com/questions/60301926
复制相似问题