文章/答案/技术大牛

发布

社区首页 >问答首页 >从全局内存到共享内存加载带有光环的数组的有效且正确的方法

问从全局内存到共享内存加载带有光环的数组的有效且正确的方法
EN

Stack Overflow用户

提问于 2013-10-01 00:07:12

回答 1查看 731关注 0票数 1

我正面临着一个问题，如何将数组从全局内存加载到共享内存

问题是:在我的全局内存中有一个很大的数组(256,64)，我想在我的计算中加载到大小为16的共享内存中，我将需要相邻值(光环)。

我发现我自己在一个非常分散的代码中，因此非常慢，最后它不能工作。这是我的方法，我会感谢你的建议

 real, shared :: s_data(-1:16,-1:16)

 d_j = (blockIdx%x-1) * blockDim%x + threadIdx%x-1
 d_l = (blockIdx%y-1) * blockDim%y + threadIdx%y-1

 tIdx = threadIdx%x -1
 tIdy = threadIdx%y -1

  bdimx = 256/(blockDim%x)  !16
  bdimy = 64/(blockDim%y)   !8


d_l1=d_l+1
if(d_l1==d_lmax) d_l1=0

d_l0 = d_l -1
if(d_l==0) d_l0=d_lmax-1
call syncthreads()

!load the main part 
s_data(tIdx,tIdy)   = g_data(d_j,d_l)


!Filling halos 
if(tIdx ==0)then
      f(bx == 0) then
         s_data(tIdx-1,tIdy) =0
     else 
         s_data(tIdx-1,tIdy)   = g_data(d_j-1,d_l)
     end if
end if

!Fill (16,tIdy)
if(tIdx == blockDim%x-1)then
    if(bx == bdmx-1) then
       s_data(tIdx+1,tIdy) = 0
    else
        s_data(tIdx+1,tIdy) = g_data(d_j+1,d_l) 
    end if
end if

!Fill (-1,tIdy)
if(tIdy == 0)then              
     s_data(tIdx,tIdy+1)=g_data(d_j,d_l1)
end if

!Fill (N,tIdy)
if(tIdy == blockDim%y -1)then
    s_data(tIdx,tIdy-1) = g_data(d_j,d_l0) 
end if

!Fill (-1,-1) and (-1, N)
if(tIdx==0)then
    if(bx == 0)then
       if(tIdy == 0) then
          s_data(tIdx-1,tIdy-1) =0 
       end if
       if(tIdy == blockDim%y-1) then
          s_data(tIdx-1,tIdy+1) = 0 
       end if

    else
       if(tIdy == 0) then
           s_data(tIdx-1,tIdy-1) =g_data(d_j-1,d_l0) 
       end if 
       if(tIdy == blockDim%y) then
           s_data(tIdx-1,tIdy+1) = g_data(d_j-1,d_l1)
       end if 
    end if 
end if

!Fill (N, -1) & (N,N)
if(tIdx==blockDim%x-1)then
      if(bx == bdimx-1)then
          if(tIdy == 0) then
            s_data(tIdx+1,tIdy-1) = 0
          end if
          if(tIdy == blockDim%y) then
             s_data(tIdx+1,tIdy+1) = 0
          end if 
       else 
          if(tIdy == 0) then
              s_data(tIdx+1,tIdy-1) =g_data(d_j+1,d_l0) 
          end if
          if(dIdy == blockDim%y) then
              s_data(tIdx+1,tIdy+1) = g_data(d_j+1,d_l1) 
          end if 
end if

！用s_data做一些计算

cuda

shared-memory

halo

回答 1

Stack Overflow用户

发布于 2013-10-01 00:49:29

用于图像处理的箱形滤波器总是涉及到光晕数据。基本思想是每个输出元素/像素由一个线程处理，每个线程将多个元素/像素加载到共享内存中。

这本关于使用CUDA进行图像卷积的白皮书可以作为一个很好的参考。

http://docs.nvidia.com/cuda/samples/3_Imaging/convolutionSeparable/doc/convolutionSeparable.pdf

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19098823

复制

相似问题

问从全局内存到共享内存加载带有光环的数组的有效且正确的方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从全局内存到共享内存加载带有光环的数组的有效且正确的方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从全局内存到共享内存加载带有光环的数组的有效且正确的方法
EN