
695 GFLOPs vs 2 GFLOPs。
同一个裂缝分割任务,精度更高,计算量只有别人的 0.3%。
如果你做过工业视觉部署,你知道这意味着什么——一个原本只能跑在 A100 上的模型,现在有可能塞进路边的巡检设备里。
但效率只是结果,真正值得关注的是背后的思路:
1. "先理解再设计"比"先堆叠再调参"高明得多。之前的混合架构把 CNN、Transformer、Mamba 当积木拼。MixerCSeg 先深入分析 Mamba 的隐式注意力机制,发现 Δt 天然地将通道分为全局和局部两类,然后顺势而为地把它们交给最合适的处理路径。
2. 极致效率打开了边缘部署的可能性。2.05 GFLOPs、2.54M 参数、1190 MiB 显存——这个量级可以塞进嵌入式设备。对路面巡检车、桥梁监测无人机来说,这不是"学术上的改进",而是"能不能用"的分界线。
3. "深度=1 最优"值得更多任务借鉴。在"更深=更好"的惯性思维下,MixerCSeg 用数据证明:对依赖细粒度边缘特征的任务,单层足矣,更深只会帮倒忙。
这篇论文叫 《MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention》,来自山东大学齐鲁交通学院和杜兰大学的联合团队,已被 CVPR 2026 接收,代码已开源(github.com/spiderforest/MixerCSeg)。
路面裂缝分割是基础设施健康监测的关键技术。但裂缝可能细如发丝,也可能交叉成网,加上低对比度和不均匀纹理,精确的像素级分割一直是老大难。
当前的深度学习方案围绕三种架构展开,但各有硬伤:
有人尝试过混合架构——比如 MambaVision、RestorMixer——但它们只是把不同模块简单堆在一起,串行或并行。相当于三个专家坐在一起开会,各说各话。
MixerCSeg 的思路完全不同:不是从外部"拼装"三种架构,而是从 Mamba 内部"拆解"出混合表示的能力。
这是整篇论文最有洞察力的部分。
在 Mamba 的状态空间模型中,有一个关键参数 Δt,控制着每个 token 的信息传播范围:
论文通过可视化 VMamba 的通道级注意力热力图证实了这一点:不同通道的 Δt 值天然地分成两类——一些通道的感受野覆盖全图(全局通道),另一些只关注邻域区域(局部通道)。

翻译成人话:Mamba 自己已经在做"全局+局部"的混合表示了,只是把这两种能力混在一起,没有被单独优化过。
TransMixer 做的事情,就是把这种隐式分工变成显式设计——全局通道交给 Self-Attention 进一步增强长距离依赖,局部通道交给 CNN 精炼细粒度纹理。
不是"把三个专家凑在一起",而是"在一个专家体内发现了三种能力,然后各自强化"。

整个流程分四步:
Step 1:输入序列经过 Mamba(Linear → Conv1D → SSM)得到输出 Y。Mamba 中每个 token 对输出的贡献可量化为注意力权重 α_i,j,由 Δt 决定信息流通范围。
Step 2:对 Δt 沿通道维度排序,取 top 50% 通道(γ=0.5)为"全局 token",剩余 50% 为"局部 token"。
Step 3:分路增强——
Step 4:合并回原始通道顺序,输出特征图。

裂缝沿多个方向延伸和分支,普通卷积对这种不规则边缘的感知力不够。DEGConv 的做法:
关键:这个模块只增加 0.08 GFLOPs和 0.14M参数。几乎零成本引入了几何先验。
用最高分辨率的特征图生成一张空间注意力图,用它来引导低分辨率特征的上采样融合。
替换 SegFormer 解码器后,计算量降低 89.3%,显存下降 67.2%,精度反而还有提升。
实验在单张 NVIDIA A100 上完成,输入尺寸 512×512,训练 50 epoch(batch=1, AdamW, lr=5e-4),覆盖 DeepCrack(537 张)、CamCrack789(789 张)、CrackMap(120 张)、Crack500(3368 张)四个数据集。
方法 | DeepCrack mIoU | CamCrack789 mIoU | CrackMap mIoU | Crack500 mIoU |
|---|---|---|---|---|
U-Net | 0.8987 | 0.8372 | 0.7983 | 0.7105 |
SCSegamba | 0.9022 | 0.8268 | 0.8094 | 0.7778 |
RestorMixer | 0.9008 | 0.8356 | 0.7887 | 0.7425 |
MambaVision | 0.8991 | 0.8146 | 0.7737 | 0.7015 |
MixerCSeg | 0.9151 | 0.8409 | 0.8123 | 0.7824 |
DeepCrack 上 mIoU 达到 91.51%,比次优 SCSegamba 高出 1.29 个百分点。四个数据集全面领先,没有短板。

方法 | FLOPs (G) | 参数量 (M) | 显存 (MiB) |
|---|---|---|---|
RINDNet | 695.77 | 59.39 | 5392 |
MambaVision | 642.86 | 13.57 | 5222 |
U-Net | 204.38 | 28.99 | 4394 |
RestorMixer | 98.71 | 3.19 | 10384 |
SCSegamba | 18.16 | 2.80 | 2206 |
MixerCSeg | 2.05 | 2.54 | 1190 |
核心数据:
TransMixer | DEGConv | SRF | FLOPs(G) | DeepCrack mIoU |
|---|---|---|---|---|
17.74 | 0.8826 | |||
✔ | 19.10 | 0.9016 | ||
✔ | ✔ | 19.18 | 0.9097 | |
✔ | ✔ | ✔ | 2.05 | 0.9151 |
TransMixer 是主力(+1.9%),DEGConv 低成本增益(+0.81%,仅 +0.08G),SRF 替换解码器后精度再涨 0.54% 的同时把计算量从 19G 直接砍到 2G。
网络深度 | FLOPs(G) | 参数量(M) | DeepCrack mIoU |
|---|---|---|---|
1 | 2.05 | 2.54 | 0.9151 |
2 | 3.51 | 4.76 | 0.9141 |
4 | 6.42 | 9.20 | 0.9126 |
6 | 9.33 | 13.63 | 0.9073 |
单层 TransMixer 即为最优。深度从 1 增到 6,计算量涨了 355%,参数涨了 437%,精度反而掉了 0.78%。
论文的解释是:对裂缝这种高度依赖局部细粒度特征的任务,更深的网络会导致边缘过度平滑和优化困难。
混合架构不是新概念,但大多数工作只是在做"1+1+1"的堆叠。
MixerCSeg 的贡献在于它回答了一个更深层的问题:Mamba 内部到底在做什么?答案是——它已经在隐式地做全局+局部的混合表示,只是没有人把这两种能力拆开、放大、各自优化过。
当你理解了这一点,CNN+Transformer+Mamba 的协同就不再是三个模块的拼装,而是一个模型内部能力的自然延伸。
2 GFLOPs,四大基准全 SOTA。有时候,真正的效率来自于对模型本身的深入理解,而不是更多的参数。
不过,从我们的角度看,这篇工作也留下了几个值得继续探索的方向:
论文信息
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。