我正在编写一个代码来添加两个矩阵,每个矩阵的维数为1024*1024。所以,我的工作维必须是2,而全球的工作尺寸应该是1024*1024。我想把每个工作组的规模设为64*64。我怎样才能做到这一点?
所以我的代码应该是:-
clEnqueueNDRangeKernel(cl_command_queue command_queue,cl_kernel kernel,cl_uint work_dim,const size_t *global_work_offset,
const size_t *global_work_size,const size_t *local_work_size,
cl_uint num_events_in_wait_list,const cl_event *event_wait_list,cl_event *event)local_work_size=64*64,global_work_size=1024*1024,work_dim=2。如何在内核代码中获取各个元素?
这是我的核心代码:-
__kernel void hello(__global int ** A,__global int ** B,__global int ** C)
{
int x = get_global_id(0);
int y = get_global_id(1);
C[x][y]=A[x][y]+B[x][y];
}发布于 2015-07-13 08:52:49
您的内核启动看起来如下所示:
size_t global[2] = {1024, 1024};
size_t local[2] = {64, 64};
clEnqueueNDRangeKernel(queue, kernel, 2, NULL, global, local, 0, NULL, NULL);您的内核将检索它的索引如下:
kernel void foo(...)
{
int x = get_global_id(0);
int y = get_global_id(1);
...
}顺便说一下,我遇到的大多数OpenCL设备的最大工作组大小为1024,这意味着它们不支持64x64的工作组大小。
由于您只能在OpenCL中使用一维缓冲区,所以需要手动计算线性数组索引。下面是简单的矩阵添加内核的外观:
__kernel void hello(__global int *A,__global int *B,__global int *C, int width)
{
int x = get_global_id(0);
int y = get_global_id(1);
int index = x + y*width;
C[index] = A[index] + B[index];
}https://stackoverflow.com/questions/31378841
复制相似问题