左边是CubeAttn-X(x_alt变体):4层里CubeAttn(线性注意力,O(LD))和标准Softmax(O(L²D))交替排列。右边是标准Transformer:4层全是Softmax。 但实验数据是反的:架构Softmax层数长程检索准确率(LRR)纯CubeAttn0/48.7%CubeAttn-X(交替)2/435.7%纯Softmax(标准Transformer)4/424.5% 混合架构把两个子任务分给各自擅长的机制:CubeAttn层负责"这是不是我要的内容",Softmax层负责"它在哪个位置"。各司其职,互不干扰。 原因:交替排列让两种层形成"压缩—检索—压缩—检索"的循环——每个CubeAttn层接收到Softmax精炼过的位置信息再压缩,每个Softmax层接收到CubeAttn的内容表示再检索。 CubeAttn-X(效率模式)6~1.5GB75%CubeAttn-X(极致省)4~1.0GB83%(注:上表的LRR性能与内存节省是预测,1.8B规模实验尚未公布;4层合成任务上的35.7%已实测。
我们设计了一种叫 CubeAttn 的新算子:完全不做跨 token 矩阵乘法,改用「特征维度全局聚合」来实现信息传递。 背景CubeAttn 除了全局聚合,还有一个局部卷积(类似 CNN 的滑动窗口)。窗口大小 k 是一个超参数。 CubeAttn 有两条信息通道:全局聚合(全局向量)和局部卷积(滑动窗口)。k=3:窗口很小,只看邻居,是对全局信号的温和补充,两者和平共处。 七、当前结论与下一步架构定型CubeAttn B+ 默认配置:kernel=3,聚合 V,4 个全局 token,mean 融合。 下一步:CubeAttn V2LRR 的 ~11% 上限是当前位置编码机制锁死的。训练加长没用,窗口调整没用。