首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    矩阵相乘在GPU上的终极优化:深度解析Maxas汇编器工作原理

    4x4矩阵中取出同一列的各四个元素,此时它们为了避免bank冲突 // 不得不位于不连续的寄存器上,这个步骤将其复制到8个连续的额外的寄存器cs0-cs7,上面的矩阵使用cs0-3,下面的使用cs4

    1.2K10发布于 2020-05-19
领券