我想从getrf包中使用cuSolver和getrs,并用B=I解决AB=X问题。
B的最佳方法是什么?使用for循环可以很小地做到这一点,但是这将占用大量内存,2.非常慢。有更快的路吗?注意,不幸的是,cuSolver没有提供getri。因此,我必须使用getrs。
发布于 2018-08-25 16:42:21
在CUDA提供LAPACK getri之前,我认为getrf和getrs是大型矩阵反演的最佳选择。
矩阵B与A大小相同,因此我认为分配B不会使此任务比其输入/输出数据占用更大的内存。
getrf和getrs的复杂度分别为O(n^3)和O(n^2),而设置B=I则为O(n^2) + O(n)。我觉得这不应该成为整个手术的瓶颈。您可以共享您的实现,这样我们就可以检查问题的所在。
https://stackoverflow.com/questions/50892906
复制相似问题