我一直在研究OpenMP,并试图找出为什么在将数组保持为共享而不是私有时会出现性能下降。任何输入都会有帮助。
当数组被共享时,运行大约需要65 is,而如果它是私有的,那么它在Intel Xeon E5540 CPU上大约需要38 is。下面的代码是用GCC 4.4.3在Ubuntu上编译的
我不认为这是因为错误共享,因为只对数组元素执行读取操作。
#define PI 3.14159265
#define large 1000000
double e[large];
int main() {
int i,j,k,m;
timeval t1,t2;
double elapsedtime;
omp_set_num_threads(16);
for(i=0;i<large;i++) {
e[i]=rand();
}
gettimeofday(&t1, NULL);
#pragma omp parallel for private(i) shared(e)
// #pragma omp parallel for private(i,e)
for(i=0;i<large;i++) {
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}发布于 2013-11-11 17:23:41
我决定去掉全局变量。这是您的代码,在几个地方进行了修改。
//timings.cpp
#include <sys/time.h>
#include <cstdlib>
#include <stdio.h>
#include <math.h>
#include <omp.h>
#include <unistd.h>
#define PI 3.14159265
#define large 100000
int main() {
int i;
timeval t1,t2;
double elapsedtime;
bool b=false;
double e[large];
double p[large];
omp_set_num_threads(1);
for(i=0;i<large;i++) {
e[i]=9.0;
}
/* for(i=0;i<large;i++) {
p[i]=9.0;
}*/
gettimeofday(&t1, NULL);
#pragma omp parallel for firstprivate(b) private(i) shared(e)
//#pragma omp parallel for firstprivate(b) private(e,i)
for(i=0;i<large;i++) {
if (!b)
{
printf("e[i]=%f, e address: %p, n=%d\n",e[i],&e,omp_get_thread_num());
b=true;
}
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}我们将通过脚本"1.sh“来自动测量时间,
#/bin/bash
sed -i '/parallel/ s,#,//#,g' timings.cpp
sed -i '/parallel/ s,////#,#,g' timings.cpp
g++ -O0 -fopenmp timings.cpp -o timings
> time1.txt
for loopvar in {1..10}
do
if [ "$loopvar" -eq 1 ]
then
./timings >> time1.txt;
cat time1.txt;
echo;
else
./timings | tail -1 >> time1.txt;
fi
done
echo "---------"
echo "Total time:"
echo `tail -1 time1.txt | sed s/' '/'+'/g | sed s/$/0/ | bc -li | tail -1`/`tail -1 time1.txt| wc -w | sed s/$/.0/` | bc -li | tail -1下面是测试结果(Intel@ Core 2 Duo E8300):
1) #语用omp并行用于第一个私有(B)私有(I)共享(E)
user@comp:~ ./1.sh
Total time:
152.96380000000000000000我们有奇怪的延迟。例如产出:
e[i]=9.000000, e address: 0x7fffb67c6960, n=0
e[i]=9.000000, e address: 0x7fffb67c6960, n=7
e[i]=9.000000, e address: 0x7fffb67c6960, n=8
//etc..注意地址-对所有数组都是相同的(因此它被称为shared) )
2) #语用omp并行用于第一个私有(e,b)私有(I)
user@comp:~ ./1.sh
Total time:
157.48220000000000000000我们将数据e(第一个私有)复制到每个线程,例如输出:
e[i]=9.000000, e address: 0x7ff93c4238e0, n=1
e[i]=9.000000, e address: 0x7ff939c1e8e0, n=6
e[i]=9.000000, e address: 0x7ff93ac208e0, n=43) #语用omp并行用于第一个私有(B)私有(e,i)
Total time:
123.97110000000000000000不复制数据,只有分配(未初始化时使用私有),例如输出:
e[i]=0.000000, e address: 0x7fca98bdb8e0, n=1
e[i]=0.000000, e address: 0x7fffa2d10090, n=0
e[i]=0.000000, e address: 0x7fca983da8e0, n=2这里我们有不同的地址,但是所有的e值都包含内存垃圾(nills很可能是由于mmap内存页预分配造成的)。
为了看到第一个私有(E)由于数组的复制而变慢,让我们注释掉所有计算(带有“fmodf”的行) // #语用omp并行于firstprivate(b)私有(I)共享(E)
Total time:
9.69700000000000000000// #语用omp并行用于第一个私有(e,b)私有(I)
Total time:
12.83000000000000000000// #语用omp并行用于第一个私有(B)私有(i,e)
Total time:
9.34880000000000000000Firstprivate(e)由于复制数组而速度慢。共享(E)是缓慢的,因为计算线。
使用-O3 -ftree-vectorize编译可以稍微减少共享时间:
// #语用omp并行用于第一个私有(B)私有(I)共享(E)
user@comp:~ ./1.sh
Total time:
141.38330000000000000000// #语用omp并行用于第一个私有(B)私有(e,i)
Total time:
121.80390000000000000000使用调度(静态,256)并不能达到这个目的。
让我们继续打开-O0选项。注释掉数组填充: // ei=9.0;
// #语用omp并行用于第一个私有(B)私有(I)共享(E)
Total time:
121.40780000000000000000// #语用omp并行用于第一个私有(B)私有(e,i)
Total time:
122.33990000000000000000因此,“共享”的速度更慢,因为“私有”数据是未经初始化的(如评论者建议的)。
让我们看看对线程号的依赖:
4threads
shared
Total time:
156.95030000000000000000
private
Total time:
121.11390000000000000000
2threads
shared
Total time:
155.96970000000000000000
private
Total time:
126.62130000000000000000
1thread (perfomance goes down ca. twice, I have 2-core machine)
shared
Total time:
283.06280000000000000000
private
Total time:
229.37680000000000000000为了用1.sh编译这一点,我手动地反对这两行“并行”行,以便将它们都注释掉。
**1thread without parallel, initialized e[i]**
Total time:
281.22040000000000000000
**1thread without parallel, uninitialized e[i]**
Total time:
231.66060000000000000000因此,这不是OpenMP问题,而是使用问题的内存/缓存问题。asm代码的生成
g++ -O0 -S timings.cpp在这两种情况下,给出了两个不同之处:一个是可以忽略的,在标签LC计数中,另一个标签(L3)在初始化e数组时包含的不是1行而是5行:
L3:
movl -800060(%rbp), %eax
movslq %eax, %rdx
movabsq $4621256167635550208, %rax
movq %rax, -800016(%rbp,%rdx,8)(发生初始化的地方)和公共行:addl $1, -800060(%rbp)
所以,这似乎是缓存问题。
这不是一个答案,你可以用上面的代码进一步研究这个问题,
https://stackoverflow.com/questions/18958515
复制相似问题