首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提高标准矩阵乘法算法的效率?

提高标准矩阵乘法算法的效率?
EN

Stack Overflow用户
提问于 2011-08-01 23:27:04
回答 5查看 1.6K关注 0票数 1

如何提高标准矩阵乘法算法的效率?

这种方法涉及的主要操作是:C[i][j]+=A[i][p]*B[p][j]

可以做什么来提高算法的效率?

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2011-08-02 07:24:29

你可能想看看使用BLAS (基本线性代数子例程)库,特别是英特尔提供了他们的MKL here,AMD有他们的一个ACML here,还有(开源) Goto BLAS here

(密集)矩阵-矩阵乘法内核将是一个?GEMM调用,其中的?表示浮点类型。例如,DGEMM将调用double例程。

除非你非常有信心知道自己在做什么,否则这些库可能会提供比你手工编写代码更好的性能。

如果你真的想自己编码,那么你可能需要考虑以下几点:

  1. 使用“向量”指令。高速缓存指令被广泛支持,一些较新的高速缓存还将支持instructions.
  2. Nested循环展开,以最大限度地提高浮点运算与加载/存储operations.
  3. Block-wise算法的比率,从而确保有效的高速缓存use.
  4. Multi-threading.

这个参考可能会让你对事物的当前状态有一个概念:

3级BLAS -K Goto的高性能实施。

希望这能有所帮助。

票数 1
EN

Stack Overflow用户

发布于 2011-08-01 23:30:34

我建议阅读Golub and Van Loan的第一章,它解决了这个问题。

票数 0
EN

Stack Overflow用户

发布于 2011-08-01 23:44:23

  1. 缓存阻塞-确保您正确使用和重用缓存中的值
  2. 更好的算法-按定义乘矩阵的方法不是最佳的,看看Strassen's algorithm
  3. Parallelization -如果您的机器有多个内核和/或处理器,您可以分开并征服
  4. SSE -利用现代CPU中的向量指令-现代CPU已经过优化,可以做这类事情。了解CUDAOpenCL.

请注意,使用这些方法并不能保证更好的性能。需要进行大量的调优,从而实现显著的加速。有很多钱花在弄清楚如何快速乘法矩阵上,因此不乏关于这个主题的期刊文章。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6900711

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档