我正在开发一个英特尔E5 (6个核心,12个线程)和英特尔编译器OpenMP 4.0。
为什么这段代码SIMD比并行SIMD快?
for (int suppv = 0; suppv < sSize; suppv++) {
Value *gptr = &grid[gind];
const Value * cptr = &C[cind];
#pragma omp simd // vs. #pragma omp parallel for simd
for (int suppu = 0; suppu < sSize; suppu++)
gptr[suppu] += d * cptr[suppu];
gind += gSize;
cind += sSize;
}有了更多的线程,它就变慢了。
编辑1:* grid是一个4096*4096矩阵,数据结构:vector<complex<double>> * C是一个2112*129*129矩阵,数据结构:vector<complex<double>> * gSize = 4096 * sSize = 129。
发布于 2015-03-15 17:41:48
如果sSize = 129,正如您在编辑中所做的那样,那么并行化循环的开销就不会得到回报。如果您要向我们显示顺序实现(无SIMD)和纯并行实现(即使用#pragma omp parallel for,但不使用SIMD)的数量,这将更容易确认。
可能发生的情况是,即使是纯并行版本也比顺序版本慢。不仅循环的大小减少了,因为您为最外层循环的每一次迭代启动/创建一个并行区域。
至于SIMD版本,这个问题基本上是针对这一点而量身定做的:您有一个高度可矢量化的内核,该内核太小,无法在线程之间分发。
https://stackoverflow.com/questions/29058941
复制相似问题