我在设备上有一大块生成的数据(Ai,j,k),但我只需要一个Ai,:,:的‘切片’,在常规的CUDA中,这可以通过一些指针算法轻松完成。
在pycuda中可以做同样的事情吗?i.e
cuda.memcpy_dtoh(h_iA,d_A+(i*stride))显然,这是完全错误的,因为没有大小信息(除非从dest形状推断),但希望您能理解?
发布于 2011-04-20 03:57:23
pyCUDA gpuArray类支持一维数组的切片,但不支持需要步幅的更高维度(尽管它即将到来)。但是,您可以从pycuda.driver.DeviceAllocation类型的gpuArray成员访问多维gpuarray中的底层指针,并从gpuArray.dtype.itemsize成员获取大小信息。然后,你可以做同样类型的指针运算,以获得驱动程序memcpy函数可以接受的值。
它不是很有效,但它确实可以工作(至少在去年我做了大量的pyCUDA + MPI黑客攻击时是这样的)。
发布于 2011-04-20 02:53:51
这不太可能在PyCuda中实现。
我可以想到以下解决方案:
https://stackoverflow.com/questions/5720376
复制相似问题