首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GPUS开发者

    DAY50:阅读Warp Vote Functions

    值拼凑起来,得到1个32-bit的值,(注意上面的1和32的顺序),然后每个线程都会得到同样的32-bit值, 也就是说, 可以快速的交换得到邻近线程们的值.很多操作也需要这种的.例如一些前序和操作(prefix-sum 也叫掩码, 从每个1-bit代表1个lane而得来),例如__ffs配合, 从__ballot_sync得来, 然后and掉小于或者大于自己的线程的bit位置的结果, 可以快速进行自己的位置统计(快速prefix-sum

    1.7K10发布于 2018-08-01
  • 来自专栏计算机视觉战队

    谷歌 | 大改Transformer注意力,速度、内存利用率都大幅度提升(附源代码)

    对于输入序列中没有注意前后token的单向(即因果)注意力而言,研究者稍微修改方法以使用前缀和计算(prefix-sum computation),它们只存储矩阵计算的运行总数,而不存储显式的下三角常规注意力矩阵 Visual representation of the prefix-sum algorithm for unidirectional attention TREMBL DATASET ?

    1.1K50发布于 2020-10-30
  • 来自专栏wywwzjj 的技术博客

    ACM 常用小 Trick

    subsets rep(mask,0,1<<10) for(int j=mask;j;j=(j-1)&mask) ;// Cal // high-dimensional prefix-sum

    33430编辑于 2023-05-09
  • 来自专栏机器学习算法与Python学习

    替换Transformer!谷歌提出 Performer 模型,全面提升注意力机制!

    对于输入序列中没有注意前后 token 的单向(即因果)注意力而言,研究者稍微修改方法以使用前缀和计算(prefix-sum computation),它们只存储矩阵计算的运行总数,而不存储显式的下三角常规注意力矩阵

    2K30发布于 2020-11-09
  • 来自专栏机器之心

    自己挖坑自己填,谷歌大改Transformer注意力,速度、内存利用率都提上去了

    对于输入序列中没有注意前后 token 的单向(即因果)注意力而言,研究者稍微修改方法以使用前缀和计算(prefix-sum computation),它们只存储矩阵计算的运行总数,而不存储显式的下三角常规注意力矩阵

    75130编辑于 2023-03-29
  • 来自专栏GPUS开发者

    DAY34:阅读算术指令

    N (N是2的幂)可以用移位来取代.这个如果N在编译时刻可知的常数.现在的CUDA编译器会自动发现这点, 不需要手工操作了,类似的, 还提到了一些类似__popc之类的函数,这些其实都很有用, 例如在prefix-sum

    77030发布于 2018-06-22
  • 来自专栏NLP/KG

    深度学习进阶篇7:Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。

    对于输入序列中没有注意前后 token 的单向(即因果)注意力而言,研究者稍微修改方法以使用前缀和计算(prefix-sum computation),它们只存储矩阵计算的运行总数,而不存储显式的下三角常规注意力矩阵

    1.1K00编辑于 2023-05-31
  • 来自专栏脑洞前端

    【西法带你学算法】一次搞定前缀和

    航班预订统计: https://leetcode-cn.com/problems/corporate-flight-bookings/ [6] 前缀和: https://oi-wiki.org/basic/prefix-sum

    1K42发布于 2020-10-26
领券