在AVX2中,我们有_mm256_srlv_epi32(a, b)和_mm256_sllv_epi32(a, b),用于将'a‘中的8个值转换为'b’中的8个值。有没有一个有效的选择使用AVX,以便我可以留在AVX,而不必吐出来的标量代码?
发布于 2016-04-16 17:41:02
为了在混合中抛出另一个想法,如果移位很小(本例中是<=4),那么一系列比较/掩码/添加操作就不会太低效,只使用SSE2指令:
__m128i mm_sllv_4_epi32(__m128i v, __m128i vcount)
{
const __m128i vone = _mm_set1_epi32(1);
__m128i vtest, vmask;
vtest = _mm_set1_epi32(0);
vmask = _mm_cmpgt_epi32(vcount, vtest);
v = _mm_add_epi32(v, _mm_and_si128(v, vmask));
vtest = _mm_add_epi32(vtest, vone);
vmask = _mm_cmpgt_epi32(vcount, vtest);
v = _mm_add_epi32(v, _mm_and_si128(v, vmask));
vtest = _mm_add_epi32(vtest, vone);
vmask = _mm_cmpgt_epi32(vcount, vtest);
v = _mm_add_epi32(v, _mm_and_si128(v, vmask));
vtest = _mm_add_epi32(vtest, vone);
vmask = _mm_cmpgt_epi32(vcount, vtest);
v = _mm_add_epi32(v, _mm_and_si128(v, vmask));
return v;
}显然,您仍然需要将此应用于AVX向量的每一半。
https://stackoverflow.com/questions/36637315
复制相似问题