在特斯拉K20模型中,峰值单精度浮点性能约为3.52 TFlops,双精度为1.17 TFlops,比值为3。特斯拉K20X为3.95和1.31,特斯拉K40为4.29和1.43 TFlops,这一比例似乎在重复。我的问题是,如果这个比率是3而不是2的话,这对我来说是合乎逻辑的,因为单精度和双精度之间的区别是合理的。我正在学习GPUS和GPUS,所以我对它不太了解。
在这个pdf的第二页中有一个规范表。NVIDIA-Tesla-Kepler-Family-Datasheet.pdf
发布于 2014-11-22 02:49:53
你列出的模型都是基于开普勒结构的,它的峰值双精度率等于峰值单精度率的1/3。这就是NVIDIA制造这款硬件的方式。相比较而言,费米( Fermi )是前一代硬件,峰值双精度率与单精度比为1/2。
按指令类型和硬件生成,您可以参考NVIDIA的指令吞吐量文档:
http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput
您会注意到,消费者级产品(GeForce GTX)通常有更低的双到单精度率- 1/8,1/12,1/24,甚至1/32,取决于硬件版本。
https://stackoverflow.com/questions/25653264
复制相似问题