首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >clEnqueueNDRangeKernel与work dimension=2

clEnqueueNDRangeKernel与work dimension=2
EN

Stack Overflow用户
提问于 2015-07-13 08:39:43
回答 1查看 2.8K关注 0票数 0

我正在编写一个代码来添加两个矩阵,每个矩阵的维数为1024*1024。所以,我的工作维必须是2,而全球的工作尺寸应该是1024*1024。我想把每个工作组的规模设为64*64。我怎样才能做到这一点?

所以我的代码应该是:-

代码语言:javascript
复制
clEnqueueNDRangeKernel(cl_command_queue command_queue,cl_kernel kernel,cl_uint work_dim,const size_t *global_work_offset,
                       const size_t *global_work_size,const size_t *local_work_size,
                       cl_uint num_events_in_wait_list,const cl_event *event_wait_list,cl_event *event)

local_work_size=64*64global_work_size=1024*1024work_dim=2。如何在内核代码中获取各个元素?

这是我的核心代码:-

代码语言:javascript
复制
__kernel void hello(__global int ** A,__global int ** B,__global int ** C)
{
      int x = get_global_id(0);
     int y = get_global_id(1);
    C[x][y]=A[x][y]+B[x][y];
}
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-13 08:52:49

您的内核启动看起来如下所示:

代码语言:javascript
复制
size_t global[2] = {1024, 1024};
size_t local[2]  = {64, 64};
clEnqueueNDRangeKernel(queue, kernel, 2, NULL, global, local, 0, NULL, NULL);

您的内核将检索它的索引如下:

代码语言:javascript
复制
kernel void foo(...)
{
  int x = get_global_id(0);
  int y = get_global_id(1);
  ...
}

顺便说一下,我遇到的大多数OpenCL设备的最大工作组大小为1024,这意味着它们不支持64x64的工作组大小。

由于您只能在OpenCL中使用一维缓冲区,所以需要手动计算线性数组索引。下面是简单的矩阵添加内核的外观:

代码语言:javascript
复制
__kernel void hello(__global int *A,__global int *B,__global int *C, int width)
{
  int x = get_global_id(0);
  int y = get_global_id(1);
  int index = x + y*width;
  C[index] = A[index] + B[index];
}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31378841

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档