我有一个应用程序,我需要执行许多规范,点积,最重要的是,矩阵向量乘法。环路结构是:/* usually iterations=dimension of matrix, so around 1 million iterations are *at least* required (if not more) */3 dot prods我目前正在使用英特尔Fortran与英特尔MKL。用Intel MKL重写我在Intel
第二个方法的方便之处在于,一旦我有了随机向量\xi,就可以使用BLAS dgemv计算矩阵向量积,结果表明,第二个选项是更有效的。结果是,它比整个矩阵上的原始BLAS操作花费更多的时间,即使有两个线程(这不应该增加太多的通信开销),所以我显然遗漏了一些我看不到的地方。Second option, exploit a different shape of the matrix in order to use BLAS print '("Time,