腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
3
回答
用于处理速度的
向量
类库
我想知道如何选择不同的
向量
类,例如Vec16c (SSE2
指令集
)和Vec32c (AVX
指令集
)。 我使用的是Intel Atom™x5-Z8350处理器,根据规范,它支持the 4.2
指令集
。在硬件支持方面,如何有效地选择
向量
类?对于我的处理器,我可以使用Vec32c推荐的AVX
指令集
吗?
浏览 13
修改于2020-06-12
得票数 1
回答已采纳
1
回答
何时使用英特尔的
指令集
扩展技术
何时使用英特尔的
指令集
扩展技术是有意义的,它到底是做什么的?矩阵大小: 4x4维
向量
大小: 1x4
浏览 2
修改于2020-10-25
得票数 1
2
回答
对C语言SIMD的澄清
单指令-多数据是一种处理数据的方法,它对多个值的
向量
执行相同的指令。SIMD是根据机器的处理器(SSE、SSE2、NEON.)在不同级别上实现的,每个级别都提供了不同的
指令集
。我们可以通过包含immintrin.h来使用这些
指令集
。我还没有真正理解的是:当实际使用SIMD开发某些东西时,我们应该关心检查支持哪些
指令集
吗?开发这类程序时的最佳做法是什么?例如,如果一个
指令集
不受支持,我们应该做什么?我们应该提供一个非SIMD替代方案,还是编译器为我们解压缩整个事情?
浏览 26
修改于2021-12-19
得票数 3
回答已采纳
1
回答
带SSE指令的点乘积性能
用SSE4.1
指令集
中的dpps指令或使用SSE 1中的一系列addps、shufps和mulps来计算两个
向量
的点积是否更快?
浏览 2
修改于2016-06-17
得票数 2
回答已采纳
1
回答
用于矩阵
向量
计算的clang优化标志
我研究了由clang从glm (一个用于3d计算的矩阵
向量
库)操作生成的反汇编代码。 我注意到clang正在做一些双精度操作的“
向量
化”,例如。在一条SIMD指令中强制执行两次乘法。所使用的指令来自SSE
指令集
和寄存器MMX
指令集
,但每次乘法都是针对单个浮点数完成的,甚至是赋值组(例如,矩阵赋值)是由一大堆movss语句执行的。这些糟糕的赋值甚至适用于双精度代码。
浏览 2
提问于2015-01-20
得票数 0
2
回答
获得x86-64指令的大小
100%完整的x86-64
指令集
并不是绝对必要的(非常模糊的
指令集
,例如
向量
寄存器集指令可以省略)。 一个与我正在寻找的(但错误的架构)相似的答案:
浏览 9
提问于2017-05-28
得票数 8
回答已采纳
1
回答
如何在SSE中翻转一个范围,同时保持一个值不变?
在0范围内,我有一个8个无符号8位数的
向量
.12在xmm0。我想对
向量
中的每个元素e执行以下转换: if (e !如何使用SSE4
指令集
有效地实现此操作?
浏览 1
提问于2016-07-31
得票数 2
回答已采纳
1
回答
基于AVX2和SSE2的位
向量
运算
我是AVX2和SSE2
指令集
的新手,我想了解更多关于如何使用这些
指令集
来加速位
向量
操作的知识。int process_bit_vetcor(unsigned int *bitVector,位
向量
可能包含数千位,所以我希望使用SSE2和AVX2来加快速度是很有趣的。 提前感谢!
浏览 4
修改于2019-11-04
得票数 3
1
回答
在
向量
和变量的原始对齐之间打乱变量
在下面的段落中:“
指令集
要求本地内存的加载和存储是128位对齐的。寄存器是128位宽的,指令将这128位视为16个8位、8个16位、4个32位或2个64位值的
向量
,这取决于操作。因此,堆栈推送和弹出操作必须在寄存器的第一个
向量
槽和变量的原始对齐之间打乱变量”,有人能告诉我打乱变量是什么意思吗?
浏览 0
提问于2010-12-14
得票数 0
回答已采纳
2
回答
在SIMD上有更快的方法乘2(不用乘法)吗?
对于SSE/SSE 2/SSSE3 3/NEON/…今天的
指令集
之类的?我的操作数将是一个
向量
(例如,4浮点数,我想乘2)。乘以3,4怎么样.?
浏览 4
修改于2014-08-28
得票数 4
回答已采纳
1
回答
iOS音频加速
我已经在我的iOS应用程序中使用了vDSP来加速音频,它从C代码提供了一个简单的
向量
指令集
。vDSP的主要问题是,你必须编写相当于面向
向量
的汇编语言,因为每个样本的主循环被下推到每个基元操作中(
向量
相加,
向量
相乘)。将表达式编译到这些序列中是着色器语言为您自动执行的本质。
浏览 0
提问于2012-06-22
得票数 2
回答已采纳
1
回答
使用混合(浮点,双)输入
向量
执行AVX内部产品操作的最快方法
我需要为混合的单/双精度浮点矢量建立一个单精度浮点内积例程,利用AVX
指令集
实现256位的SIMD寄存器。 void vector_operation(const size_t i)//inner
浏览 0
修改于2018-03-21
得票数 8
1
回答
紧致AVX2寄存器,因此根据掩码选择的整数是连续的
在问题中,最上面的答案是: SSE/AVX寄存器与最新的
指令集
允许一个更好的方法。我们可以直接使用PMOVMSKB的结果,将其转换为类似PSHUFB的控件寄存器。我得到了一个包含AVX2
向量
的int32s,以及一个对应的比较结果
向量
。我想以某种方式对其进行洗牌,以便在掩码中设置相应msb的元素(比较为真)在
向量
的低端是连续的。然后在一个256个AVX2
向量
查找表中使用它来获得交叉车道_ to 256 _permutevar8x32_pi32/vpermd的混洗掩码。
浏览 1
修改于2017-05-23
得票数 4
回答已采纳
2
回答
基于AVX本质的压缩掩码
我想结合两个256位
向量
(__m256d),其中包含比较操作(如_mm256_cmp_pd)的掩码和256位
向量
,方法是省略64位双倍的上半部分。因此,如果在下面的代码中,a_i, b_i, ...是32位字,我有两个256位(4x倍)
向量
,它们的结构如下:a_0, b_0, c_0, d_0, a_1, b_1, c_1, d_1。 我如何有效地利用英特尔的本质来完成这个任务?可用的
指令集
浏览 2
修改于2014-05-24
得票数 5
回答已采纳
1
回答
AES中子字节的性能
我正在为SSE2
指令集
实现AES加密算法。 对于Subbyte函数,我使用movzx,在CPU的缓存中加载了S盒以获得更高的性能。这花费了大约56个老年退休金计划的翼CPU。我在想,你能不能计算出字节的值,而不必如此认真地改变
向量
?特别是,我想问一下,你是否能大大改进一轮AES-128-加密需要大约108 OPS?
浏览 0
修改于2014-04-30
得票数 3
3
回答
指令集
和
指令集
体系结构(ISA)有什么区别?
我无法理解
指令集
和
指令集
架构之间的区别。现在
指令集
体系结构是什么?我查过维基百科,它在
指令集
上有一个页面,在第一行有一个指向
指令集
架构的链接,它重定向到计算机体系结构。 那么
指令集
架构和计算机体系结构是一样的吗?请有人解释一下IS和ISA之间的具体区别,这样我就可以理解ISA是什么,以及ISA为
指令集
添加了什么。。
浏览 6
提问于2017-04-08
得票数 4
回答已采纳
1
回答
如何确认艾根正在视觉工作室中支持矢量化?如何检查是否定义了EIGEN_VECTORIZE预处理符号?
根据的说法,特征“如果检测到支持的SIMD
指令集
和支持的编译器,将自动启用其矢量化”。我在项目->属性->配置属性->C/C++->优化中打开了“最大化速度”标志(/O2) 此外,根据本征常见问题,为了检查是否使用
向量
化,“首先可以检查本征
向量
化是否启用:然后定义EIGEN_VECTORIZE
浏览 2
提问于2019-11-12
得票数 0
2
回答
AVX512-CD的使用
除了扩展寄存器端,AVX512还提供了新的
指令集
。冲突探测似乎很有希望。内在可以看到,值的第一次出现在结果
向量
中相应位置的0。如果该值多次出现,则结果寄存器保存一个零扩展值.到目前一切尚好!
浏览 5
提问于2017-08-21
得票数 1
回答已采纳
1
回答
Xeon Phi中的散射/聚集
我指的是英特尔关于至强Phi
指令集
的手册,我不能理解分散/聚集指令是如何工作的。假设我有下面的双精度
向量
:是否可以创建4个
向量
,如下所示:V2->|b2|a2
浏览 2
修改于2014-04-13
得票数 1
回答已采纳
1
回答
SIMD和SSE有什么区别?
根据我的知识和研究,SIMD是允许一条指令在多个数据上运行的体系结构,SSE、AVX是实现SIMD体系结构的
指令集
。我不知道这是不是真的,有人能给我详细解释一下到底发生了什么吗?
浏览 3
修改于2015-05-17
得票数 5
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券