这种算法称为核外算法，通常通过使用tiles来解决这个问题。其想法是首先将A和B分割成比较大的块。然后，在GPU上发送2块，执行两块的乘法，将结果写入预先分配的块(始终相同)，将其发送回CPU，并将结果累加到C矩阵的一个块中。实际上，该算法与用于求解矩阵乘法的算法相同，只是条目是块，您需要关心从GPU到GPU发送/接收数据。CUDA流可以通过与计算重叠的通信来改进执行时间。注意，由于GPU上没有足够的内存，所以需要多次复制tiles。Lebesgue曲线 (也称Z-贴图或Z-阶曲线)可以用来减少拷贝/通信的数量.做这一切有点复杂。一些运行时系统和工具可以帮助您更容易地隐藏内存传输(例如。StarPu是一个研究项目)。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71313130

复制

相似问题

问内存受限情况下GEMM的有效算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问内存受限情况下GEMM的有效算法EN