首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenMP嵌套循环中的奇怪行为

OpenMP嵌套循环中的奇怪行为
EN

Stack Overflow用户
提问于 2011-01-26 00:53:29
回答 2查看 422关注 0票数 0

在下面的程序中,我得到了不同的结果(串行和OpenMP),原因是什么?目前我只能认为,也许循环对于线程来说太“大”了,也许我应该用其他方式来编写它,但我不确定,有什么提示吗?

编译:g++-4.2 -fopenmp main.c functions.c -o main_elec_gcc.exe

代码语言:javascript
复制
    #include <stdio.h>
    #include <string.h>
    #include <stdlib.h>
    #include <omp.h>
    #include <math.h>

    #define NRACK 64
    #define NSTARS 1024

    double mysumallatomic_serial(float rocks[NRACK][3],float moon[NSTARS][3],float qr[NRACK],float ql[NSTARS]) {
        int j,i;
        float temp_div=0.,temp_sqrt=0.;
        float difx,dify,difz;
        float mod2x, mod2y, mod2z;
        double S2 = 0.;
    for(j=0; j<NRACK; j++){
        for(i=0; i<NSTARS;i++){     
            difx=rocks[j][0]-moon[i][0];
            dify=rocks[j][1]-moon[i][1];
            difz=rocks[j][2]-moon[i][2];
            mod2x=difx*difx;
            mod2y=dify*dify;
            mod2z=difz*difz;
            temp_sqrt=sqrt(mod2x+mod2y+mod2z);
            temp_div=1/temp_sqrt;
            S2 += ql[i]*temp_div*qr[j];     
        }
    }
    return S2;
}

double mysumallatomic(float rocks[NRACK][3],float moon[NSTARS][3],float qr[NRACK],float ql[NSTARS]) {
    float temp_div=0.,temp_sqrt=0.;
    float difx,dify,difz;
    float mod2x, mod2y, mod2z;
    double S2 = 0.;

#pragma omp parallel for shared(S2)
    for(int j=0; j<NRACK; j++){
        for(int i=0; i<NSTARS;i++){
            difx=rocks[j][0]-moon[i][0];
            dify=rocks[j][1]-moon[i][1];
            difz=rocks[j][2]-moon[i][2];
            mod2x=difx*difx;
            mod2y=dify*dify;
            mod2z=difz*difz;
            temp_sqrt=sqrt(mod2x+mod2y+mod2z);
            temp_div=1/temp_sqrt;
            float myterm=ql[i]*temp_div*qr[j];  
            #pragma omp atomic
            S2 += myterm;
        }
    }
    return S2;

int main(int argc, char *argv[]) {
float rocks[NRACK][3], moon[NSTARS][3];
float qr[NRACK], ql[NSTARS];
int i,j;

for(j=0;j<NRACK;j++){
    rocks[j][0]=j;
    rocks[j][1]=j+1;
    rocks[j][2]=j+2;
    qr[j] = j*1e-4+1e-3;
    //qr[j] = 1;
}

for(i=0;i<NSTARS;i++){
    moon[i][0]=12000+i;
    moon[i][1]=12000+i+1;
    moon[i][2]=12000+i+2;
    ql[i] = i*1e-3 +1e-2 ;
    //ql[i] = 1 ;
}
printf(" serial: %f\n", mysumallatomic_serial(rocks,moon,qr,ql));
printf(" openmp: %f\n", mysumallatomic(rocks,moon,qr,ql));
return(0);

    }
    }
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-01-26 00:56:40

我认为您应该使用reduction而不是共享变量并删除#pragma omp atomic,如下所示:

代码语言:javascript
复制
#pragma omp parallel for reduction(+:S2)

而且它应该工作得更快,因为不需要原子操作,因为原子操作在性能和线程同步方面非常痛苦。

更新

由于操作顺序的不同,结果也可能有所不同:

\sum_1^100(x[i]) != \sum_1^50(x[i]) + \sum_51^100(x[i])

票数 0
EN

Stack Overflow用户

发布于 2011-01-26 01:30:14

在并行区域中使用的大多数临时变量上都存在数据竞争- difx、dify、difz、mod2x、mod2y、mod2z、temp_sqrt和temp_div都应该是私有的。您应该通过在parallel for指令上使用private子句来使这些变量成为私有变量。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4796434

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档