首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解FMA指令性能

理解FMA指令性能
EN

Stack Overflow用户
提问于 2017-01-07 23:53:26
回答 1查看 1.9K关注 0票数 5

我想了解怎样才能最大限度地利用CPU上的操作。我正在做一个简单的矩阵乘法程序,我有一个Skylake处理器。我在维基百科的页面上寻找关于这个架构的失败信息,我对它有着不同的理解。

据我理解,FMA指令允许3路FP输入对吗?并允许在加与乘之间混和。但是,当我只添加两个浮动时会发生什么呢?它是简单地乘以它吗?我可以增加3个浮动在一个周期,或将分裂?我看到了skylake,每周有32次单精度输入失败,但是“2 8宽FMA指令”的含义是什么?

谢谢你的解释

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-08 00:16:40

FMA在一次运算中计算±a*b±c,有一个舍入误差。它就是这么做的,别无他法。计算a+b+c不能使用FMA指令;为此需要两个依赖的添加操作。

根据编译器的不同,您可能需要转一个编译器选项来允许使用FMA指令,因为它们不会给出与乘后加相同的结果。在某些情况下,您可能需要重新排列代码,例如,a_b + c_d +e将计算为x= a_b;y= FMA (c,d,x),z=y+e,但e+ a_b + c*d将计算为x= FMA (a,b,e);z= FMA (c,d,x)。FFT的基本运算可以用八个浮点运算来完成,可以用四个浮点运算和两个其它运算重写为10个运算。

“两个8宽的FMA指令”意味着它可以使用两个256位矢量寄存器执行FMA指令,每个寄存器包含8个浮点数,其中两个在同一个周期内。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41527900

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档