搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

3回答

用于处理速度的向量类库

我想知道如何选择不同的向量类，例如Vec16c (SSE2指令集)和Vec32c (AVX指令集)。我使用的是Intel Atom™x5-Z8350处理器，根据规范，它支持the 4.2指令集。在硬件支持方面，如何有效地选择向量类？对于我的处理器，我可以使用Vec32c推荐的AVX指令集吗？

浏览 13修改于2020-06-12得票数 1

回答已采纳

1回答

何时使用英特尔的指令集扩展技术

何时使用英特尔的指令集扩展技术是有意义的，它到底是做什么的？矩阵大小: 4x4维向量大小: 1x4

浏览 2修改于2020-10-25得票数 1

2回答

单指令-多数据是一种处理数据的方法，它对多个值的向量执行相同的指令。SIMD是根据机器的处理器(SSE、SSE2、NEON.)在不同级别上实现的，每个级别都提供了不同的指令集。我们可以通过包含immintrin.h来使用这些指令集。我还没有真正理解的是:当实际使用SIMD开发某些东西时，我们应该关心检查支持哪些指令集吗？开发这类程序时的最佳做法是什么？例如，如果一个指令集不受支持，我们应该做什么?我们应该提供一个非SIMD替代方案，还是编译器为我们解压缩整个事情？

浏览 26修改于2021-12-19得票数 3

回答已采纳

1回答

带SSE指令的点乘积性能

用SSE4.1指令集中的dpps指令或使用SSE 1中的一系列addps、shufps和mulps来计算两个向量的点积是否更快？

浏览 2修改于2016-06-17得票数 2

回答已采纳

1回答

用于矩阵向量计算的clang优化标志

我研究了由clang从glm (一个用于3d计算的矩阵向量库)操作生成的反汇编代码。我注意到clang正在做一些双精度操作的“向量化”，例如。在一条SIMD指令中强制执行两次乘法。所使用的指令来自SSE指令集和寄存器MMX指令集，但每次乘法都是针对单个浮点数完成的，甚至是赋值组(例如，矩阵赋值)是由一大堆movss语句执行的。这些糟糕的赋值甚至适用于双精度代码。

浏览 2提问于2015-01-20得票数 0

2回答

获得x86-64指令的大小

100%完整的x86-64指令集并不是绝对必要的(非常模糊的指令集，例如向量寄存器集指令可以省略)。一个与我正在寻找的(但错误的架构)相似的答案：

浏览 9提问于2017-05-28得票数 8

回答已采纳

1回答

如何在SSE中翻转一个范围，同时保持一个值不变？

在0范围内，我有一个8个无符号8位数的向量.12在xmm0。我想对向量中的每个元素e执行以下转换： if (e !如何使用SSE4指令集有效地实现此操作？

浏览 1提问于2016-07-31得票数 2

回答已采纳

1回答

基于AVX2和SSE2的位向量运算

我是AVX2和SSE2指令集的新手，我想了解更多关于如何使用这些指令集来加速位向量操作的知识。int process_bit_vetcor(unsigned int *bitVector,位向量可能包含数千位，所以我希望使用SSE2和AVX2来加快速度是很有趣的。提前感谢！

浏览 4修改于2019-11-04得票数 3

1回答

在向量和变量的原始对齐之间打乱变量

在下面的段落中：“指令集要求本地内存的加载和存储是128位对齐的。寄存器是128位宽的，指令将这128位视为16个8位、8个16位、4个32位或2个64位值的向量，这取决于操作。因此，堆栈推送和弹出操作必须在寄存器的第一个向量槽和变量的原始对齐之间打乱变量”，有人能告诉我打乱变量是什么意思吗？

浏览 0提问于2010-12-14得票数 0

回答已采纳

2回答

在SIMD上有更快的方法乘2(不用乘法)吗？

对于SSE/SSE 2/SSSE3 3/NEON/…今天的指令集之类的？我的操作数将是一个向量(例如，4浮点数，我想乘2)。乘以3，4怎么样.？

浏览 4修改于2014-08-28得票数 4

回答已采纳

1回答

iOS音频加速

我已经在我的iOS应用程序中使用了vDSP来加速音频，它从C代码提供了一个简单的向量指令集。vDSP的主要问题是，你必须编写相当于面向向量的汇编语言，因为每个样本的主循环被下推到每个基元操作中(向量相加，向量相乘)。将表达式编译到这些序列中是着色器语言为您自动执行的本质。

浏览 0提问于2012-06-22得票数 2

回答已采纳

1回答

使用混合(浮点，双)输入向量执行AVX内部产品操作的最快方法

我需要为混合的单/双精度浮点矢量建立一个单精度浮点内积例程，利用AVX指令集实现256位的SIMD寄存器。 void vector_operation(const size_t i)//inner

浏览 0修改于2018-03-21得票数 8

1回答

紧致AVX2寄存器，因此根据掩码选择的整数是连续的

在问题中，最上面的答案是： SSE/AVX寄存器与最新的指令集允许一个更好的方法。我们可以直接使用PMOVMSKB的结果，将其转换为类似PSHUFB的控件寄存器。我得到了一个包含AVX2向量的int32s，以及一个对应的比较结果向量。我想以某种方式对其进行洗牌，以便在掩码中设置相应msb的元素(比较为真)在向量的低端是连续的。然后在一个256个AVX2向量查找表中使用它来获得交叉车道_ to 256 _permutevar8x32_pi32/vpermd的混洗掩码。

浏览 1修改于2017-05-23得票数 4

回答已采纳

2回答

基于AVX本质的压缩掩码

我想结合两个256位向量(__m256d)，其中包含比较操作(如_mm256_cmp_pd)的掩码和256位向量，方法是省略64位双倍的上半部分。因此，如果在下面的代码中，a_i, b_i, ...是32位字，我有两个256位(4x倍)向量，它们的结构如下：a_0, b_0, c_0, d_0, a_1, b_1, c_1, d_1。我如何有效地利用英特尔的本质来完成这个任务？可用的指令集

浏览 2修改于2014-05-24得票数 5

回答已采纳

1回答

AES中子字节的性能

我正在为SSE2指令集实现AES加密算法。对于Subbyte函数，我使用movzx，在CPU的缓存中加载了S盒以获得更高的性能。这花费了大约56个老年退休金计划的翼CPU。我在想，你能不能计算出字节的值，而不必如此认真地改变向量？特别是，我想问一下，你是否能大大改进一轮AES-128-加密需要大约108 OPS？

浏览 0修改于2014-04-30得票数 3

3回答

指令集和指令集体系结构(ISA)有什么区别？

我无法理解指令集和指令集架构之间的区别。现在指令集体系结构是什么？我查过维基百科，它在指令集上有一个页面，在第一行有一个指向指令集架构的链接，它重定向到计算机体系结构。那么指令集架构和计算机体系结构是一样的吗？请有人解释一下IS和ISA之间的具体区别，这样我就可以理解ISA是什么，以及ISA为指令集添加了什么。。

浏览 6提问于2017-04-08得票数 4

回答已采纳

1回答

如何确认艾根正在视觉工作室中支持矢量化？如何检查是否定义了EIGEN_VECTORIZE预处理符号？

根据的说法，特征“如果检测到支持的SIMD指令集和支持的编译器，将自动启用其矢量化”。我在项目->属性->配置属性->C/C++->优化中打开了“最大化速度”标志(/O2) 此外，根据本征常见问题，为了检查是否使用向量化，“首先可以检查本征向量化是否启用:然后定义EIGEN_VECTORIZE

浏览 2提问于2019-11-12得票数 0

2回答

AVX512-CD的使用

除了扩展寄存器端，AVX512还提供了新的指令集。冲突探测似乎很有希望。内在可以看到，值的第一次出现在结果向量中相应位置的0。如果该值多次出现，则结果寄存器保存一个零扩展值.到目前一切尚好!

浏览 5提问于2017-08-21得票数 1

回答已采纳

1回答

Xeon Phi中的散射/聚集

我指的是英特尔关于至强Phi指令集的手册，我不能理解分散/聚集指令是如何工作的。假设我有下面的双精度向量：是否可以创建4个向量，如下所示：V2->|b2|a2

浏览 2修改于2014-04-13得票数 1

回答已采纳

1回答

SIMD和SSE有什么区别？

根据我的知识和研究，SIMD是允许一条指令在多个数据上运行的体系结构，SSE、AVX是实现SIMD体系结构的指令集。我不知道这是不是真的，有人能给我详细解释一下到底发生了什么吗？

浏览 3修改于2015-05-17得票数 5

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

用于处理速度的向量类库

何时使用英特尔的指令集扩展技术

对C语言SIMD的澄清

带SSE指令的点乘积性能

用于矩阵向量计算的clang优化标志

获得x86-64指令的大小

如何在SSE中翻转一个范围，同时保持一个值不变？

基于AVX2和SSE2的位向量运算

在向量和变量的原始对齐之间打乱变量

在SIMD上有更快的方法乘2(不用乘法)吗？

iOS音频加速

使用混合(浮点，双)输入向量执行AVX内部产品操作的最快方法

紧致AVX2寄存器，因此根据掩码选择的整数是连续的

基于AVX本质的压缩掩码

AES中子字节的性能

指令集和指令集体系结构(ISA)有什么区别？

如何确认艾根正在视觉工作室中支持矢量化？如何检查是否定义了EIGEN_VECTORIZE预处理符号？

AVX512-CD的使用

Xeon Phi中的散射/聚集

SIMD和SSE有什么区别？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐