首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >检查所有__m128i组件是否为0的最有效方法[使用<= SSE4.1本质]

检查所有__m128i组件是否为0的最有效方法[使用<= SSE4.1本质]
EN

Stack Overflow用户
提问于 2015-01-12 15:44:34
回答 2查看 3.8K关注 0票数 10

我使用SSE来确定一个矩形(由四个int32值定义)是否发生了更改:

代码语言:javascript
复制
__m128i oldRect; // contains old left, top, right, bottom packed to 128 bits
__m128i newRect; // contains new left, top, right, bottom packed to 128 bits

__m128i xor = _mm_xor_si128(oldRect, newRect);

此时,如果矩形没有更改,则生成的xor值将全部为零。那么,确定这一点的最有效方法是什么?

目前,我正在这样做:

代码语言:javascript
复制
if (xor.m128i_u64[0] | xor.m128i_u64[1])
{
    // rectangle changed
}

但我认为有一种更聪明的方法(可能使用一些我还没有找到的SSE指令)。

我的目标是x64上的SSE4.1,在Visual 2013中编写C++代码。

编辑:这个问题与https://stackoverflow.com/questions/7989897/is-an-m128i-variable-zero不太一样,因为它指定了“在SSE-2和更早的处理器上”(尽管Antonio在发布并回答了这个问题一段时间后,确实添加了一个“完整性”答案,以解决4.1个问题)。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-01-12 15:59:49

您可以通过si128内部(SSE4.1)使用PTEST安装,如下所示:

代码语言:javascript
复制
#include "smmintrin.h" // SSE4.1 header

if (!_mm_testz_si128(xor, xor))
{
    // rectangle has changed
}

注意,如果两个参数的按位AND为0,则AND返回1。

票数 14
EN

Stack Overflow用户

发布于 2015-09-17 18:05:21

具有讽刺意味的是,在某些情况下,SSE4.1中的ptest指令可能比来自SSE2的pmovmskb指令慢。我建议简单地使用:

代码语言:javascript
复制
__m128i cmp = _mm_cmpeq_epi32(oldRect, newRect);
if (_mm_movemask_epi8(cmp) != 0xFFFF)
  //registers are different

请注意,如果您确实需要该xor值,则必须分别计算它。

对于Ivy Bridge这样的英特尔处理器,PaulR与xor_mm_testz_si128的版本转换为4 uop,而建议的不计算xor的版本则转换为3 uop(请参见这条线)。这可能会提高我的版本的吞吐量。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27905677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档