搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

了解FMA性能

我想了解如何计算FMA的性能。

浏览 5修改于2019-03-03得票数 2

回答已采纳

1回答

FMA:证明性能

唉，即使是与FMA相关的最简单的查询，似乎也给z3带来了相当大的麻烦。下面就是一个这样的例子，我试图证明x*y+0等于fma(x,y,0)。

浏览 1提问于2014-08-02得票数 3

回答已采纳

1回答

Haswell FMA指令生成Denormals

我正在使用Intel Haswell CPU的FMA指令来优化一些计算。我使用的是单精度浮点数据。

浏览 5提问于2015-09-18得票数 3

回答已采纳

3回答

fma()是如何实现的

根据，math.h中有一个fma()函数。这很好，我知道FMA是如何工作的，也知道它的用途。然而，我不太清楚这是如何在实践中实施的？我主要对x86和x86_64体系结构感兴趣。FMA是否有浮点(非矢量)指令，也许是由IEEE-754 2008定义的？是否有一个内在的，以确保一个真正的FMA使用，当精度是依赖的？

浏览 6修改于2015-02-20得票数 7

回答已采纳

1回答

理解FMA指令性能

据我理解，FMA指令允许3路FP输入对吗？并允许在加与乘之间混和。但是，当我只添加两个浮动时会发生什么呢？它是简单地乘以它吗？我可以增加3个浮动在一个周期，或将分裂？我看到了skylake，每周有32次单精度输入失败，但是“2 8宽FMA指令”的含义是什么？谢谢你的解释

浏览 23提问于2017-01-07得票数 5

回答已采纳

2回答

然而，AVX2+FMA并不比AVX版本好。我不明白这个。我得到超过80%的峰值失败的CPU假设没有FMA，但我认为我应该能够做得更好的FMA。矩阵乘法应直接受益于FMA。* 2 * 2 = 73.2 GFLOPS peak flops (with FMA) = 2 * peak flops (no FMA) = 146.2 GFLOPS我认为这是因为FMA只有一种舍入模式，而不是通常是两种(讽刺的是，FMA打破了IE

浏览 8修改于2017-05-23得票数 23

回答已采纳

1回答

FMA性能与朴素计算的比较

我正在尝试比较FMA性能(fma()在math.h中)与朴素乘法和加法在浮点计算中。测试很简单。对于较大的迭代次数，我将迭代相同的计算。为了进行精确的检查，我必须做到两件事。不应将朴素乘法和加法优化为FMA。 fma</e

浏览 4修改于2015-03-23得票数 2

回答已采纳

1回答

Z3:浮点FMA语义

对于这个基准，Z3返回了一个令人满意的模型：然而，查询实质上是断言使用FMA指令的a*b+0等同于a*b，我相信对于IEEE浮点数也是如此。请注意，基准测试明确确保a和b都不是NaN。我的FMA编码有问题吗？

浏览 1修改于2013-04-08得票数 4

回答已采纳

2回答

在MSVC中自动生成FMA指令

然而，以下两种功能都不符合FMA指令：{} {} 更糟糕的是，FMA不是作为一个FMA指令实现的，它的执行速度比普通的x * y + z慢得多(如果实现不依赖FMA指令，那么std::fma的性能会很差)。因此，问题是MSVC如

浏览 0修改于2017-05-29得票数 10

回答已采纳

2回答

FMA和朴素a*b+c的区别？

在FMA的BSD库函数手册(3)中，它说：“这些函数计算x*y+z。” 那么，FMA和做x*y+ z的简单代码有什么区别呢？为什么FMA在大多数情况下有更好的表现？

浏览 3修改于2020-02-20得票数 1

回答已采纳

1回答

将FMA指令用于FFT算法

我最新的渴望是让蝶形计算与FMA指令一起工作。基本的基2蝶形运算由4个乘法和6个加法或减法组成。一种简单的方法是用2个FMA指令替换2个加法和减法以及2个乘法，从而得到一个数学上相同的蝶形，但显然有更好的方法来做到这一点： u0 = zinr(0)zouti(0) = v0 + v1 * cr1zouti(1) = v0 - v1 * cr1 假设旋转因子的虚部除以实部，作者用6个FMA我的直觉告诉我应该是这样的，

浏览 1修改于2020-03-27得票数 5

2回答

Intel FMA指令提供零性能优势

考虑使用Haswell的FMA指令的下列指令序列： r1 = _mm256_fmadd_ps (rp1, m6, r1);fmadd_ps (rp1, m0, r3); r3 = _mm256_fmadd_ps (rp3, m2, r3);因此，我对生成的机器代码进行了分析，确定了MSFT VS2013 C++编译器正在生成机

浏览 5修改于2016-03-25得票数 4

回答已采纳

1回答

clang/gcc只用数学生成fma，为什么？

在icc 19上，点积编译成fma指令的循环。在clang和gcc上，fma只与-ffast-math一起生成。然而，-ffast-math破坏了IEEE-754的遵从性，但是fma完全符合IEEE-754 2008，所以如果我必须使用-ffast-math编译，那么我会引发其他问题。为什么gcc和clang不生成没有-ffast-math的fma指令；编译器标志是-O3 -march=skylake-avx512，+- -ffast-math。

浏览 3提问于2019-05-03得票数 4

1回答

用SSE (fma)编译Delphi单元

我知道Delphi 64位编译器在Win RTL中使用SSE，但我的问题是：在Delphi中是否有已知的方法在编译时检查，如果一个单元是用SSE指令编译的，特别是如果a*b + c是用硬件fma指令计算的

浏览 3修改于2017-10-30得票数 0

3回答

FMA操作的更密集优化

对于更多的元素，编译器不再使用FMA (例如vfmadd213pd)操作。相反，它们分别处理乘法(例如vmulpd)和加法(例如vaddpd)。这种行为有什么好的理由吗？

浏览 4修改于2020-11-04得票数 3

1回答

Solaris/OpenSolaris FMA和内存误报

我们有+500台服务器，使用的是超级主板和金斯敦内存，我们通常会看到以下警告：TIME UUID SUNW-MSG-ID 100% fault.memory.intel.dimm_ce Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:serv

浏览 0提问于2011-02-17得票数 0

1回答

fma中每个循环的指令号是多少？

如果在cuda中使用fma(a，b，c)，就意味着公式a_b+c是在一次三元运算中计算出来的。但是，如果我想计算-a_b+c，调用fma(-a，b，c)是否再进行一次乘法操作？

浏览 5修改于2017-09-02得票数 1

回答已采纳

1回答

精确计算双FMA和共享内存延迟的方法

我正在尝试提出一种准确的方法来测量两个操作的延迟: 1)双精度FMA操作的延迟。2)来自共享内存的双精度加载的延迟。我正在使用一个K20x，我想知道这个代码是否会给出准确的测量结果。banks#define NEARONE 1.0000000000000004 cudaEventCreate(&am

浏览 5修改于2015-01-12得票数 3

1回答

如何禁用《gcc》中的fma3指令

我需要禁用64位系统的FMA3指令(为了向后兼容问题)。我在我的windows环境中使用了_set_FMA3_enable(0)。我需要使用什么选项(或宏)来禁用gcc中的FMA3？{ long long unsigned integer;{ _set_FMA3setprecision(17) << y.real << std::endl; std:

浏览 5修改于2020-10-05得票数 0

3回答

快速增殖但加法慢的优化: FMA和双倍

当我第一次得到Haswell处理器时，我尝试实现FMA来确定Mandelbrot集。该方法采用4次FMA SIMD运算和2次SIMD乘法运算，比不使用FMA的算法运算少2次。另外，FMA和乘法可以使用两个端口，而加法只能使用一个端口。在这种情况下，使用FMA的方法大约快了27%，当然是一个改进，但是从SSE到AVX，我的性能翻了一番，所以我希望使用FMA的另一个因素是两个。下图显示了我的df64_mult函数的程序集，用于 (左)和硬件FMA (右)。这清楚地表明，硬件

浏览 4修改于2021-07-22得票数 10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

了解FMA性能

FMA:证明性能

Haswell FMA指令生成Denormals

fma()是如何实现的

理解FMA指令性能

GCC中的FMA3 :如何启用

FMA性能与朴素计算的比较

Z3:浮点FMA语义

在MSVC中自动生成FMA指令

FMA和朴素a*b+c的区别？

将FMA指令用于FFT算法

Intel FMA指令提供零性能优势

clang/gcc只用数学生成fma，为什么？

用SSE (fma)编译Delphi单元

FMA操作的更密集优化

Solaris/OpenSolaris FMA和内存误报

fma中每个循环的指令号是多少？

精确计算双FMA和共享内存延迟的方法

如何禁用《gcc》中的fma3指令

快速增殖但加法慢的优化: FMA和双倍

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐