首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenMP向量的SSE2约简

OpenMP向量的SSE2约简
EN

Stack Overflow用户
提问于 2019-01-16 21:36:41
回答 1查看 506关注 0票数 2

我想用SSE2本质计算每个通道的平均图像(我们在这里忽略的3个感兴趣的通道+1个alpha通道)。我试过了:

代码语言:javascript
复制
  __m128 average = _mm_setzero_ps();

  #pragma omp parallel for reduction(+:average)
  for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
  {
    float *in = ((float *)temp) + k;
    average += _mm_load_ps(in);
  }

但我发现GCC的错误是:user-defined reduction not found for average

这与SSE2是可能的吗?怎么了?

编辑

这样做是可行的:

代码语言:javascript
复制
float sum[4] = { 0.0f };

#pragma omp parallel for simd reduction(+:sum[:4])
for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
{
  float *in = ((float *)temp) + k;
  for (int i = 0; i < ch; ++i) sum[i] += in[i];
}

const __m128 average = _mm_load_ps(sum) / ((float)roi_out->height * roi_out->width);
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-01-18 15:44:34

您可以像这样定义一个自定义缩减:

代码语言:javascript
复制
#pragma omp declare reduction \
    (addps:__m128:omp_out+=omp_in) \
    initializer(omp_priv=_mm_setzero_ps())

然后用它就像:

代码语言:javascript
复制
#pragma omp parallel for reduction(addps:average)
for(size_t k = 0; k < size * ch; k += ch)
{
  average += _mm_loadu_ps(data+k);
}

我认为,最重要的是,openmp需要知道如何获得一个中性元素(此处为_mm_setzero_ps())。

完整工作示例:https://godbolt.org/z/Fpqttc

有趣的链接:http://pages.tacc.utexas.edu/~eijkhout/pcse/html/omp-reduction.html#User-definedreductions

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54225768

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档