我有一个奇怪的问题,我无法确定它的来源:
我有一个特殊的矩阵向量乘法的工作内核,我想要加速它。基本上,大矩阵(10^6乘以10^6)是由几个小矩阵构成的。所以我想把这些数据放在共享内存中。然而,当我尝试添加共享内存时,我只得到了错误:
pycuda._driver.LogicError: cuLaunchKernel失败:无效值
所以我的工作内核是:
#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}
__global__ void MatrixMulKernel(double *gpu_matrix, double *gpu_b, double *gpu_y)
{
int tx = ... + threadIdx.x;
if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE)
{ ... multiplication ... }
}如果我尝试添加共享内存部分,则如下所示
#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}
__global__ void MatrixMulKernel(double *gpu_matrix_ptr, double *gpu_b, double *gpu_y)
{
__shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];
int tx = ... + threadIdx.x;
if(tx < BLOCK_SIZE*BLOCK_SIZE*13) { gpu_matrix[tx] = gpu_matrix_ptr[tx]; }
__syncthreads();
if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE)
{ ... multiplication ... }
}这是我更改的唯一部分,所以基本上它必须是gpu_matrixtx = gpu_matrix_ptrtx语句,不是吗?但我看不出这应该是什么样子。基本上,我尝试从pycuda示例中复制平铺矩阵乘法示例。http://wiki.tiker.net/PyCuda/Examples/MatrixmulTiled
调用是:
self.kernel.prepare([np.intp, np.intp, np.intp])
self.kernel.prepared_call(grid_shape,
block_shape,
self.matrix_gpu.gpudata,
b_gpu.gpudata,
y_gpu.gpudata)其中matrix_gpu、b_gpu和y_gpu是pycuda.gpuarray实例。
希望你能澄清我的一些困惑...
发布于 2013-08-25 16:07:45
根据您的描述,您分配的共享内存太大。
__shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];共享内存是cuda gpu的硬件资源之一。总大小约为48KBytes,不能增加。
CUDA实际上在下面的目录中提供了一个工具来帮助您计算可以使用的硬件资源。
$CUDA_ROOT/tools/CUDA_Occupancy_Calculator.xls另一方面,类mat-vec-mul内核所需的共享内存大小应该能够从O(BLOCK_SIZE^2)减少到O(BLOCK_SIZE)。在实现自己的内核之前,您可能希望阅读一些成功的mat-vec-mul内核的代码,比如MAGMA。
https://stackoverflow.com/questions/18420799
复制相似问题