根据这篇文章的说法,用CUB库减少和应该是进行并行缩减的最快方法之一。正如您在下面的代码片段中所看到的,执行时间是不包括第一个cub::DeviceReduce::Reduce(temp_storage, temp_storage_bytes, in, out, N, cub::Sum());的,我假设它与内存准备有关,当我们减少几倍相同的数据时,每次调用它并不是必要的,但是当我有许多不同的数组具有相同的元素数和数据类型时,是否每次都必须这样做呢?如果答案是肯定的,那就意味着使用CUB库变得毫无意义。
size_t temp_storage_bytes;
int* temp_storage=NULL;
cub::DeviceReduce::Reduce(temp_storage, temp_storage_bytes, in, out, N, cub::Sum());
cudaMalloc(&temp_storage,temp_storage_bytes);
cudaDeviceSynchronize();
cudaCheckError();
cudaEventRecord(start);
for(int i=0;i<REPEAT;i++) {
cub::DeviceReduce::Reduce(temp_storage, temp_storage_bytes, in, out, N, cub::Sum());
}
cudaEventRecord(stop);
cudaDeviceSynchronize();发布于 2015-09-03 16:37:04
我假设这是与内存准备相关的东西,当我们减少几倍相同的数据时,每次调用它都不是必要的
是这样的。
但是,当我有许多不同的数组具有相同数量的元素和相同类型的数据时,每次都必须这样做吗?
不,你不用每次都这么做。对cub::DeviceReduce::Reduce的“第一次”调用(即当temp_storage=NULL)的唯一目的是提供CUB所需的临时存储所需的字节数。如果数据的类型和大小没有改变,则无需重新运行此步骤或随后的cudaMalloc操作。只要数据的大小和类型相同,您就可以对“新”数据再次调用cub::DeviceReduce::Reduce ( temp_storage指向cudaMalloc提供的先前分配)。
https://stackoverflow.com/questions/32380992
复制相似问题