腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(1336)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
了解
FMA
性能
我想了解如何计算
FMA
的性能。
浏览 5
修改于2019-03-03
得票数 2
回答已采纳
1
回答
FMA
:证明性能
唉,即使是与
FMA
相关的最简单的查询,似乎也给z3带来了相当大的麻烦。 下面就是一个这样的例子,我试图证明x*y+0等于
fma
(x,y,0)。
浏览 1
提问于2014-08-02
得票数 3
回答已采纳
1
回答
Haswell
FMA
指令生成Denormals
我正在使用Intel Haswell CPU的
FMA
指令来优化一些计算。我使用的是单精度浮点数据。
浏览 5
提问于2015-09-18
得票数 3
回答已采纳
3
回答
fma
()是如何实现的
根据,math.h中有一个
fma
()函数。这很好,我知道
FMA
是如何工作的,也知道它的用途。然而,我不太清楚这是如何在实践中实施的?我主要对x86和x86_64体系结构感兴趣。
FMA
是否有浮点(非矢量)指令,也许是由IEEE-754 2008定义的?是否有一个内在的,以确保一个真正的
FMA
使用,当精度是依赖的?
浏览 6
修改于2015-02-20
得票数 7
回答已采纳
1
回答
理解
FMA
指令性能
据我理解,
FMA
指令允许3路FP输入对吗?并允许在加与乘之间混和。但是,当我只添加两个浮动时会发生什么呢?它是简单地乘以它吗?我可以增加3个浮动在一个周期,或将分裂?我看到了skylake,每周有32次单精度输入失败,但是“2 8宽
FMA
指令”的含义是什么? 谢谢你的解释
浏览 23
提问于2017-01-07
得票数 5
回答已采纳
2
回答
GCC中的
FMA
3 :如何启用
然而,AVX2+
FMA
并不比AVX版本好。我不明白这个。我得到超过80%的峰值失败的CPU假设没有
FMA
,但我认为我应该能够做得更好的
FMA
。矩阵乘法应直接受益于
FMA
。* 2 * 2 = 73.2 GFLOPS peak flops (with
FMA
) = 2 * peak flops (no
FMA
) = 146.2 GFLOPS我认为这是因为
FMA
只有一种舍入模式,而不是通常是两种(讽刺的是,
FMA
打破了IE
浏览 8
修改于2017-05-23
得票数 23
回答已采纳
1
回答
FMA
性能与朴素计算的比较
我正在尝试比较
FMA
性能(
fma
()在math.h中)与朴素乘法和加法在浮点计算中。测试很简单。对于较大的迭代次数,我将迭代相同的计算。为了进行精确的检查,我必须做到两件事。不应将朴素乘法和加法优化为
FMA
。
fma</e
浏览 4
修改于2015-03-23
得票数 2
回答已采纳
1
回答
Z3:浮点
FMA
语义
对于这个基准,Z3返回了一个令人满意的模型: 然而,查询实质上是断言使用
FMA
指令的a*b+0等同于a*b,我相信对于IEEE浮点数也是如此。请注意,基准测试明确确保a和b都不是NaN。我的
FMA
编码有问题吗?
浏览 1
修改于2013-04-08
得票数 4
回答已采纳
2
回答
在MSVC中自动生成
FMA
指令
然而,以下两种功能都不符合
FMA
指令:{} {} 更糟糕的是,
FMA
不是作为一个
FMA
指令实现的,它的执行速度比普通的x * y + z慢得多(如果实现不依赖
FMA
指令,那么std::
fma
的性能会很差)。因此,问题是MSVC如
浏览 0
修改于2017-05-29
得票数 10
回答已采纳
2
回答
FMA
和朴素a*b+c的区别?
在
FMA
的BSD库函数手册(3)中,它说:“这些函数计算x*y+z。” 那么,
FMA
和做x*y+ z的简单代码有什么区别呢?为什么
FMA
在大多数情况下有更好的表现?
浏览 3
修改于2020-02-20
得票数 1
回答已采纳
1
回答
将
FMA
指令用于FFT算法
我最新的渴望是让蝶形计算与
FMA
指令一起工作。基本的基2蝶形运算由4个乘法和6个加法或减法组成。一种简单的方法是用2个
FMA
指令替换2个加法和减法以及2个乘法,从而得到一个数学上相同的蝶形,但显然有更好的方法来做到这一点: u0 = zinr(0)zouti(0) = v0 + v1 * cr1zouti(1) = v0 - v1 * cr1 假设旋转因子的虚部除以实部,作者用6个
FMA
我的直觉告诉我应该是这样的,
浏览 1
修改于2020-03-27
得票数 5
2
回答
Intel
FMA
指令提供零性能优势
考虑使用Haswell的
FMA
指令的下列指令序列: r1 = _mm256_fmadd_ps (rp1, m6, r1);fmadd_ps (rp1, m0, r3); r3 = _mm256_fmadd_ps (rp3, m2, r3);因此,我对生成的机器代码进行了分析,确定了MSFT VS2013 C++编译器正在生成机
浏览 5
修改于2016-03-25
得票数 4
回答已采纳
1
回答
clang/gcc只用数学生成
fma
,为什么?
在icc 19上,点积编译成
fma
指令的循环。在clang和gcc上,
fma
只与-ffast-math一起生成。然而,-ffast-math破坏了IEEE-754的遵从性,但是
fma
完全符合IEEE-754 2008,所以如果我必须使用-ffast-math编译,那么我会引发其他问题。为什么gcc和clang不生成没有-ffast-math的
fma
指令 ;编译器标志是-O3 -march=skylake-avx512,+- -ffast-math。
浏览 3
提问于2019-05-03
得票数 4
1
回答
用SSE (
fma
)编译Delphi单元
我知道Delphi 64位编译器在Win RTL中使用SSE,但我的问题是: 在Delphi中是否有已知的方法在编译时检查,如果一个单元是用SSE指令编译的,特别是如果a*b + c是用硬件
fma
指令计算的
浏览 3
修改于2017-10-30
得票数 0
3
回答
FMA
操作的更密集优化
对于更多的元素,编译器不再使用
FMA
(例如vfmadd213pd)操作。相反,它们分别处理乘法(例如vmulpd)和加法(例如vaddpd)。 这种行为有什么好的理由吗?
浏览 4
修改于2020-11-04
得票数 3
1
回答
Solaris/OpenSolaris
FMA
和内存误报
我们有+500台服务器,使用的是超级主板和金斯敦内存,我们通常会看到以下警告:TIME UUID SUNW-MSG-ID 100% fault.memory.intel.dimm_ce Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:serv
浏览 0
提问于2011-02-17
得票数 0
1
回答
fma
中每个循环的指令号是多少?
如果在cuda中使用
fma
(a,b,c),就意味着公式a_b+c是在一次三元运算中计算出来的。但是,如果我想计算-a_b+c,调用
fma
(-a,b,c)是否再进行一次乘法操作?
浏览 5
修改于2017-09-02
得票数 1
回答已采纳
1
回答
精确计算双
FMA
和共享内存延迟的方法
我正在尝试提出一种准确的方法来测量两个操作的延迟: 1)双精度
FMA
操作的延迟。2)来自共享内存的双精度加载的延迟。我正在使用一个K20x,我想知道这个代码是否会给出准确的测量结果。banks#define NEARONE 1.0000000000000004 cudaEventCreate(&am
浏览 5
修改于2015-01-12
得票数 3
1
回答
如何禁用《gcc》中的
fma
3指令
我需要禁用64位系统的
FMA
3指令(为了向后兼容问题)。我在我的windows环境中使用了_set_
FMA
3_enable(0)。我需要使用什么选项(或宏)来禁用gcc中的
FMA
3?{ long long unsigned integer;{ _set_
FMA
3setprecision(17) << y.real << std::endl; std:
浏览 5
修改于2020-10-05
得票数 0
3
回答
快速增殖但加法慢的优化:
FMA
和双倍
当我第一次得到Haswell处理器时,我尝试实现
FMA
来确定Mandelbrot集。该方法采用4次
FMA
SIMD运算和2次SIMD乘法运算,比不使用
FMA
的算法运算少2次。另外,
FMA
和乘法可以使用两个端口,而加法只能使用一个端口。在这种情况下,使用
FMA
的方法大约快了27%,当然是一个改进,但是从SSE到AVX,我的性能翻了一番,所以我希望使用
FMA
的另一个因素是两个。下图显示了我的df64_mult函数的程序集,用于 (左)和硬件
FMA
(右)。这清楚地表明,硬件
浏览 4
修改于2021-07-22
得票数 10
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券