搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

# CubeAttn-X：长程检索上为何反而比纯 Transformer 更强？
左边是CubeAttn-X（x_alt变体）：4层里CubeAttn（线性注意力，O(LD)）和标准Softmax（O(L²D)）交替排列。右边是标准Transformer：4层全是Softmax。但实验数据是反的：架构Softmax层数长程检索准确率（LRR）纯CubeAttn0/48.7%CubeAttn-X（交替）2/435.7%纯Softmax（标准Transformer）4/424.5% 混合架构把两个子任务分给各自擅长的机制：CubeAttn层负责"这是不是我要的内容"，Softmax层负责"它在哪个位置"。各司其职，互不干扰。原因：交替排列让两种层形成"压缩—检索—压缩—检索"的循环——每个CubeAttn层接收到Softmax精炼过的位置信息再压缩，每个Softmax层接收到CubeAttn的内容表示再检索。 CubeAttn-X（效率模式）6~1.5GB75%CubeAttn-X（极致省）4~1.0GB83%（注：上表的LRR性能与内存节省是预测，1.8B规模实验尚未公布；4层合成任务上的35.7%已实测。
300编辑于 2026-06-14
CubeAttn｜一篇推翻线性注意力评测惯例的「反常识」发现：U 型失效、种子陷阱与瓶颈定位
我们设计了一种叫 CubeAttn 的新算子：完全不做跨 token 矩阵乘法，改用「特征维度全局聚合」来实现信息传递。背景CubeAttn 除了全局聚合，还有一个局部卷积（类似 CNN 的滑动窗口）。窗口大小 k 是一个超参数。 CubeAttn 有两条信息通道：全局聚合（全局向量）和局部卷积（滑动窗口）。k=3：窗口很小，只看邻居，是对全局信号的温和补充，两者和平共处。七、当前结论与下一步架构定型CubeAttn B+ 默认配置：kernel=3，聚合 V，4 个全局 token，mean 融合。下一步：CubeAttn V2LRR 的 ~11% 上限是当前位置编码机制锁死的。训练加长没用，窗口调整没用。
10910编辑于 2026-06-06

# CubeAttn-X：长程检索上为何反而比纯 Transformer 更强？

CubeAttn｜一篇推翻线性注意力评测惯例的「反常识」发现：U 型失效、种子陷阱与瓶颈定位

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐