根据编译器的不同，您可能需要转一个编译器选项来允许使用FMA指令，因为它们不会给出与乘后加相同的结果。在某些情况下，您可能需要重新排列代码，例如，a_b + c_d +e将计算为x= a_b；y= FMA (c，d，x)，z=y+e，但e+ a_b + c*d将计算为x= FMA (a，b，e)；z= FMA (c，d，x)。FFT的基本运算可以用八个浮点运算来完成，可以用四个浮点运算和两个其它运算重写为10个运算。

“两个8宽的FMA指令”意味着它可以使用两个256位矢量寄存器执行FMA指令，每个寄存器包含8个浮点数，其中两个在同一个周期内。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41527900

复制

相似问题

问理解FMA指令性能
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问理解FMA指令性能EN