我正在构建一个内核,它使用Magma函数magma_dgeqrf2_gpu来执行QR分解。这将将上三角矩阵R输出到GPU设备上的通用矩阵d_A中。
在不将d_A传输回主机的情况下(因为我需要GPU进行进一步的操作),是否有一种库方法可以将d_A简化或提取为设备上的上三角矩阵R?
发布于 2015-11-17 05:22:38
这有点傻,但我发现解决方案只是使用magmablas_dlacopy(),并设置属性将上三角矩阵复制到设备上的另一个矩阵(该矩阵已设置为0)。
https://stackoverflow.com/questions/33427495
复制相似问题