文章/答案/技术大牛

发布

社区首页 >问答首页 >cuLaunchKernel共享内存错误“pycuda :pycuda失败:值无效”

问cuLaunchKernel共享内存错误“pycuda :pycuda失败:值无效”
EN

Stack Overflow用户

提问于 2013-08-25 00:42:53

回答 1查看 1.2K关注 0票数 0

我有一个奇怪的问题，我无法确定它的来源：

我有一个特殊的矩阵向量乘法的工作内核，我想要加速它。基本上，大矩阵(10^6乘以10^6)是由几个小矩阵构成的。所以我想把这些数据放在共享内存中。然而，当我尝试添加共享内存时，我只得到了错误：

pycuda._driver.LogicError: cuLaunchKernel失败:无效值

所以我的工作内核是：

#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}

__global__ void MatrixMulKernel(double *gpu_matrix, double *gpu_b, double *gpu_y)
{
    int tx = ... + threadIdx.x;

    if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE) 
    { ... multiplication ... }
}

如果我尝试添加共享内存部分，则如下所示

#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}

__global__ void MatrixMulKernel(double *gpu_matrix_ptr, double *gpu_b, double *gpu_y)
{
    __shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];

    int tx = ... + threadIdx.x;
    if(tx < BLOCK_SIZE*BLOCK_SIZE*13) {  gpu_matrix[tx] = gpu_matrix_ptr[tx];  }
    __syncthreads();

    if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE) 
    { ... multiplication ... }
}

这是我更改的唯一部分，所以基本上它必须是gpu_matrixtx = gpu_matrix_ptrtx语句，不是吗？但我看不出这应该是什么样子。基本上，我尝试从pycuda示例中复制平铺矩阵乘法示例。http://wiki.tiker.net/PyCuda/Examples/MatrixmulTiled

调用是：

self.kernel.prepare([np.intp, np.intp, np.intp])
self.kernel.prepared_call(grid_shape,
              block_shape,
              self.matrix_gpu.gpudata,
              b_gpu.gpudata,
              y_gpu.gpudata)

其中matrix_gpu、b_gpu和y_gpu是pycuda.gpuarray实例。

希望你能澄清我的一些困惑...

pycuda

cuda

shared-memory

回答 1

Stack Overflow用户

发布于 2013-08-25 16:07:45

根据您的描述，您分配的共享内存太大。

__shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];

共享内存是cuda gpu的硬件资源之一。总大小约为48KBytes，不能增加。

CUDA实际上在下面的目录中提供了一个工具来帮助您计算可以使用的硬件资源。

$CUDA_ROOT/tools/CUDA_Occupancy_Calculator.xls

另一方面，类mat-vec-mul内核所需的共享内存大小应该能够从O(BLOCK_SIZE^2)减少到O(BLOCK_SIZE)。在实现自己的内核之前，您可能希望阅读一些成功的mat-vec-mul内核的代码，比如MAGMA。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18420799

复制

相似问题

问cuLaunchKernel共享内存错误“pycuda :pycuda失败:值无效”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cuLaunchKernel共享内存错误“pycuda :pycuda失败:值无效”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cuLaunchKernel共享内存错误“pycuda :pycuda失败:值无效”
EN