因此,我正在尝试使用GPU通过同时求解一组方程来解决一个小的超定方程系统,是否可以获得一些显着的加速。我当前的算法涉及使用来自CULA密集库的LU分解函数,该函数还必须在GPU和CPU之间来回切换,以初始化和运行CULA函数。我希望能够从我的CUDA内核调用CULA函数,这样我就不必跳回CPU并将数据复制回来。这也将允许我创建多个线程,这些线程正在处理不同的数据集,以同时求解多个系统。我的问题是,我可以从设备函数中调用CULA函数吗?我知道使用CUBLAS和其他一些CUDA库可以做到这一点。
谢谢!
发布于 2013-11-14 07:26:33
简短的回答是否定的。CULA库例程设计为从主机代码调用,而不是从设备代码调用。
请注意,CULA有自己的支持论坛here,您可能会对此感兴趣。
https://stackoverflow.com/questions/19966270
复制相似问题