我在看这个Dobb博士关于数据自动化系统的文章
在我的系统中,全局内存带宽略高于60 GB/s,这是很好的,直到您考虑到这个带宽必须服务128个硬件线程--每个硬件线程都可以提供大量浮点操作。由于32位浮点值占用4 (4)字节,这个硬件上的全球内存带宽有限的应用程序只能提供大约15 GF/s -或仅占可用性能能力的一小部分。
问: GF/s是指每秒的Giga触发器??
发布于 2011-10-11 20:29:26
千兆每秒都会失足!
发布于 2011-10-11 20:35:31
GF/s或GFLOPS为每秒GigaFlops或10^9 FLoating操作。(GF/s是GigaFLOP/S = GigaFLOPS的不寻常缩写,参见这里 "Gigaflops (GF/s) = 10^9 flops“或这里 "gigaflops /秒(GF/s)")。
显然,GF/s不是GFLOPS/s (不是加速)。
您应该记住,CPU和GPU上的浮动操作通常以不同的方式计算。对于大多数CPU来说,通常计算64位浮点格式操作.而对于GPU-32位,因为GPU在32位浮点上有更多的性能。
计算哪些类型的操作?加法、减法和乘法是。不计算加载和存储数据。但是,加载和存储数据对于从内存获取数据是必要的,有时还会限制在实际应用中实现的触发器(您所引用的关于这种情况的文章“内存带宽受限的应用程序”,即CPU/GPU可以提供大量的触发器,但内存不能如此快地读取所需的数据)。
一些芯片或计算机是如何计算失败的?有两种不同的度量标准,一种是该芯片的理论失败上限。它是通过乘以核数,芯片频率和浮点运算每CPU滴答( Core2为4,桑迪桥CPU为8)。
其他度量方法类似于现实世界的失败,它通过运行LINPACK基准(求解一个庞大的线性方程组)来计算。这个基准测试经常使用矩阵乘法,是对现实世界失败的一种近似.超级编解码器的Top500是通过平行版LINPACK banchmark ( HPL )测量的。对于单个CPU,linpack可以有高达90%-95%的理论失败,而对于巨大的集群来说,它在50-85%的范围内。
发布于 2011-10-11 20:43:13
在这种情况下,GF是GigaFLOPS,但是FLOPS是“每秒浮点操作”。我相当肯定作者并不意味着F/s是“每秒浮点运算”,所以GF/s实际上是一个错误。(除非你说的是一台在运行时提高性能的计算机,我想)作者的意思可能是GFLOPS。
https://stackoverflow.com/questions/7732078
复制相似问题