EXPLORING CROSS-MODAL FLOWS FOR FEW-SHOTLEARNING
探索跨模态流用于少样本学习
《Exploring Cross-Modal Flows for Few-Shot Learning》的核心在于将流匹配(Flow Matching, FM)。其重点可概括如下:
简言之,本文通过引入跨模态流(cross-modal flows)实现多步特征对齐,有效解决了困难场景下现有PEFT方法对齐能力不足的问题,为少样本视觉-语言学习开辟了新路径。

摘要:
对齐不同模态的特征是跨模态任务中最基本的挑战之一。尽管预训练的视觉-语言模型能够在图像和文本之间实现通用对齐,但它们通常需要参数高效微调(PEFT)以进一步调整。当前的PEFT方法(例如,提示调优、基于LoRA的方法或基于适配器的方法)总是选择性地微调一部分参数,从而仅能轻微调整视觉或文本特征,并避免过拟合。本文首次指出,所有现有的PEFT方法都仅执行单步调整。对于复杂(或困难)的数据集而言,这种单步调整是不够的,因为在这些数据集中不同模态的特征高度纠缠。为此,我们提出了首个与模型无关的多步调整方法——通过学习一个跨模态速度场:流匹配对齐(Flow Matching Alignment, FMA)。具体而言,为确保训练过程中类别之间的对应关系,我们首先采用一种固定的耦合策略;随后,我们提出一种噪声增强策略以缓解数据稀缺问题;最后,我们设计了一种早停求解器,在变换过程早期终止,从而同时提升效率与准确性。与单步PEFT方法相比,FMA具备多步校正能力,可实现更优的对齐效果。大量实验结果表明,FMA在各种基准和骨干网络上均能带来显著的性能提升,尤其在具有挑战性的数据集上表现突出。代码:
https://github.com/HKUST-LongGroup/FMA。
1 引言
如何对齐来自不同模态(例如文本和图像)的信息,在几乎所有跨模态任务中都至关重要。良好对齐的跨模态特征在众多领域中发挥着关键作用,例如在多模态大语言模型(MLLMs)中实现令人印象深刻的理解与推理能力(Hurst 等,2024;Li 等,2022;Liu 等,2023b),以及在人工智能生成内容(AIGC)模型中实现逼真的生成质量(Rombach 等,2022;Esser 等,2024)。通常而言,实现良好的跨模态对齐意味着在共享的公共空间中找到一个“理想”的多模态分布,使得对应的文本和图像特征尽可能接近。
为实现这一目标,研究者提出了许多预训练的视觉-语言模型(VLMs),例如 CLIP(Radford 等,2021)和 ALIGN(Jia 等,2021)。以 CLIP 为例,如图 1(a) 所示,它通过使用对比学习目标联合训练图像编码器和文本编码器来实现跨模态对齐。目前,VLMs 已能在图像和文本之间实现通用对齐,并在零样本任务(如图像识别)上展现出良好效果。

然而,由于不同模态内部的复杂性,预训练的 VLMs 无法在所有场景下实现完美对齐。因此,通常需要进一步的微调步骤来校正特征,以获得更好的对齐效果。例如,在少样本学习中,我们通常需要利用少量基础类别的图像对 VLMs 进行微调。由于对整个 VLM 模型进行微调计算开销巨大,而线性探测(Linear Probing, LP,仅微调最后的全连接层)效果又不够理想,因此提出了大量参数高效微调(PEFT)方法。
这些 PEFT 方法大致可分为三类:
1)提示调优(Prompt Tuning)(Li & Liang, 2021):例如 CoOp(Zhou 等,2022b)和 CoCoOp(Zhou 等,2022a),这类方法通过用可学习的连续提示(learnable continuous prompts)替代手工设计的文本提示,以寻找更优的文本表示(或特征)。与原始 VLM 相比,可将其理解为对所有文本特征施加一种“移动”,使其更好地与对应的图像特征对齐(参见图 1(b))。
2)基于适配器的方法(Adapter-based)(Houlsby 等,2019):例如 CLIP-Adapter(Gao 等,2024),这类方法通常在 VLM 的图像编码器之后添加一个可学习的适配器模块。训练完成后,它们会将图像特征向对应的文本特征方向校正,以实现更好的对齐(参见图 1(c))。
3)基于 LoRA 的方法(LoRA-based)(Hu 等,2022):例如 CLIP-LoRA(Zanella & Ben Ayed, 2024),这类方法在文本和图像编码器中均引入可训练的低秩矩阵,用于存储新知识,同时冻结其他参数。如图 1(d) 所示,它们会同时移动文本和图像特征,使其彼此更接近(即朝向理想分布)。
人们普遍认为,参数高效微调(PEFT)通常优于线性探测(Linear Probing, LP)。然而,我们观察到,PEFT 相较于 LP 的优势在不同数据集上并不一致。为更好地说明这一点,我们引入了“数据集难度”的概念:CLIP 零样本性能越低的数据集被认为越困难。这一定义是合理的,因为较低的零样本性能意味着跨模态分布更为复杂,因而更难调整。
在本文中,我们发现:虽然 PEFT 方法在相对简单的数据集上表现良好,但在困难数据集上却难以泛化。例如,如图 2 所示,主流的 PEFT 方法 CoOp 在相对简单的数据集(如 OxfordPets)上相较于 LP 基线能取得显著提升;然而,在更具挑战性的数据集(如 FGVCAircraft)上,其提升却十分有限。
为解释这一现象,我们为所有现有 PEFT 方法提出了一种新视角:这些方法试图通过单步校正(one rectification step),将其通用对齐的多模态分布调整至理想分布。这是因为在推理过程中,这些调整仅包含一次经过训练模型的前向传播。由于 PEFT 方法只涉及少量可学习参数,通常无法学习非常复杂的变换。因此,对于那些多模态特征高度纠缠的困难数据集,这类单步方法无法实现有效对齐,如图 1(b)(c)(d) 所示。
这引出了我们的核心动机:我们能否通过多步校正来实现更好的跨模态对齐?
为解决这一问题,我们转向流匹配(Flow Matching, FM)理论(Liu 等,2022;Lipman 等,2022;Albergo & Vanden-Eijnden,2022),该理论专为在任意两个分布之间进行多步变换而提出。通常,FM 通过学习一个速度场(velocity field),以迭代的方式将样本从源分布输运到目标分布——也就是说,即使单步调整不够准确,后续步骤仍有机会修正先前的误差。因此,如果能够训练一个速度场,将图像特征变换为对应的文本特征,我们就可以利用其多步校正能力实现更准确的分类。
具体而言,我们可以将所有编码后的图像特征视为源分布。对于目标分布,最直接的方法是将所有包含类别名称的提示(prompts)编码为对应的目标特征。在每个速度场训练步骤中,会独立采样一个图像特征和一个文本特征,组成一个训练对。该速度场的目标是将任意给定的图像特征(来自源分布)变换为对应的文本特征(来自目标分布),即实现分类。
然而,这种直接的方法存在两个潜在问题:
首先,尽管训练良好的速度场可以在两个给定分布之间实现变换,但它无法保证保留局部结构(例如类别对应关系)。例如,如图 3(a) 所示,它可能将某一类别的图像特征变换为另一类别的文本特征,从而导致错误分类。因此,第一个挑战在于:如何训练一个速度场,使其不仅能将图像特征从源分布变换到目标分布(靠近文本特征)。

其次,在推理阶段,流匹配在生成任务中的目标是生成目标分布中的特征,然后将其解码为真实样本;但在分类任务中,我们真正需要的是将图像特征变换得比其他负类嵌入更接近其正类嵌入(即真实类别嵌入)。这种目标上的不一致表明,以往用于生成任务的流匹配推理策略可能并不适用于分类场景。因此,第二个挑战是:如何为分类任务设计一种合适的推理方法。
为应对上述两个挑战,我们提出了一种用于少样本学习的新框架:流匹配对齐(Flow Matching Alignment, FMA)。具体而言,我们设计了以下三个关键组件:
此外,FMA 可作为一个即插即用(plug-and-play)模块,用于多步校正。它仅需共享空间中的两组特征(图像与文本),且对图像或文本特征提取所采用的具体方法完全无关(model-agnostic)。因此,FMA 可轻松适配于不同方法,从零样本 CLIP 到各类 PEFT 方法均可无缝集成。
为验证 FMA 的有效性与通用性,我们将其与多种骨干网络进行了整合。在不同骨干网络和基准数据集上的大量实验结果均表明其性能持续提升。
综上所述,我们的贡献有三点:
2 相关工作
视觉-语言模型中的少样本学习(Few-Shot Learning in VLMs)少样本学习(FSL)是一项从少量样本中进行学习的任务(Wang 等,2020;Yue 等,2020)。目前,FSL 中最常见的场景是利用有限数据对预训练的视觉-语言模型(VLM)(Radford 等,2021;Jia 等,2021)进行微调以完成分类任务。由于直接微调整个 VLM 计算开销巨大,研究者提出了大量参数高效微调(PEFT)方法。当前用于适配 VLM 的技术大致可分为四类范式:提示调优(Prompt Tuning)、基于适配器(Adapter-Based)和基于 LoRA(LoRA-Based)的方法。
扩散模型(Diffusion Model, DM)近年来,扩散模型已发展成为生成模型中最强大的框架之一(Ho 等,2020;Song 等,2020a)。它通过逐步向数据添加噪声来破坏数据,然后学习其逆向去噪过程。随后,Score-SDE(Song 等,2020b)指出,DM 的学习过程实际上是在求解随机微分方程(SDE),并可进一步解释为概率性常微分方程(ODE)。在此基础上,流匹配(Flow Matching, FM)(Liu 等,2022;Lipman 等,2022;Albergo & Vanden-Eijnden,2022)通过学习一个速度场,构建任意两个分布之间的变换。与以往的单步生成模型(如 GAN(Goodfellow 等,2014)和 VAE(Kingma & Welling,2013))不同,FM 通过多步校正生成数据。
迄今为止,FM 已在多个领域取得显著成功,例如文本到图像生成(Esser 等,2024;Geng 等,2025;Albergo 等,2023)、图像编辑(Kim 等,2025;Kulikov 等,2024;Rout 等,2024)、视频生成(Jin 等,2024;Polyak 等,2024)等。然而,尽管 FM 能够实现任意两个分布之间的变换,大多数现有方法仍倾向于将其中一个分布设为先验噪声分布。近期,一些工作(He 等,2025;Liu 等,2025)尝试直接从文本分布变换到图像分布以用于生成任务。在本文中,我们探索了 FM 是否适用于少样本分类等监督任务。
3 方法
用于少样本学习的流匹配对齐(FLOW MATCHING ALIGNMENT FOR FEW-SHOT LEARNING)问题形式化(Formulation)我们考虑 N 路 K 样本(N-way K-shot)分类问题:给定一个包含 N 个类别的训练数据集,每个类别有 K 个样本,目标是训练一个分类模型,能够准确预测来自这 N 个类别的任意测试图像的类别。
整体框架(General Framework)我们提出的 FMA 的整体流程如图 4 所示。具体而言,FMA 包含三个步骤:1)将所有文本和图像编码到共享的公共空间中,得到对应的特征;2)训练一个速度场,将图像特征变换为文本特征,以实现更好的对齐;3)利用训练好的速度场对给定测试图像的特征进行变换,用于分类。

3.1 特征提取(FEATURE EXTRACTION)




3.3 推理阶段




4 实验
数据集(Datasets)我们在少样本分类任务上评估了 FMA。具体而言,我们在 11 个基准数据集上进行了实验,包括:Aircraft(Maji 等,2013)、EuroSAT(Helber 等,2019)、DTD(Cimpoi 等,2014)、SUN397(Xiao 等,2010)、UCF101(Soomro 等,2012)、StanfordCars(Krause 等,2013)、ImageNet(Deng 等,2009)、Flowers102(Nilsback & Zisserman,2008)、Food101(Bossard 等,2014)、OxfordPets(Parkhi 等,2012)和 Caltech101(Fei-Fei 等,2004),这些数据集按从难到易排序。为更好地说明数据集难度对本方法的影响,我们将这些数据集分为两组:前五个作为“困难组”,其余六个作为“简单组”。对于每个数据集,我们遵循标准协议划分训练集、验证集和测试集。在 K 样本分类中,我们从每个类别中随机采样 K 张图像作为训练集。除非另有说明,我们使用预训练的 CLIP ViT-B/16(Radford 等,2021)作为骨干网络。
4.1 与最先进方法的比较(COMPARISONS WITH STATE-OF-THE-ART)
设置(Settings)我们将 FMA 框架与 8 种最先进的方法进行了比较,包括:CoOp(Zhou 等,2022b)、CoCoOp(Zhou 等,2022a)、CLIP-Adapter(Gao 等,2024)、Tip-Adapter(Zhang 等,2022)、PLOT++(Chen 等,2022)、KgCoOp(Yao 等,2023)、ProGrad(Zhu 等,2023)和 CLIP-LoRA(Zanella & Ben Ayed,2024)。我们在 CLIP-LoRA 的基础上实现了 FMA 框架:具体而言,我们首先使用一个预训练的 CLIP-LoRA 模型提取图像和文本特征,然后根据 FMA 框架在这些特征上训练一个速度场网络。值得注意的是,用于训练 CLIP-LoRA 和速度场的数据集完全相同,这意味着没有引入任何额外知识。FMA 训练中使用 AdamW 优化器(Loshchilov & Hutter,2017),学习率设为 0.0002,并采用余弦退火学习率调度策略。在 FMA 推理阶段,默认步长 h=0.1。为确定最优推理步数 M,我们首先在验证集上尝试多个取值,然后选择性能最高的那个作为测试集的最终推理步数。
结果(Results)我们在表 1 中报告了所有方法在 11 个数据集上的分类准确率。对于每个数据集,我们分别报告了 1 样本、4 样本和 16 样本分类的结果。结果表明,FMA 在大多数数据集上取得了最佳性能。值得注意的是,与简单数据集相比,FMA 在困难数据集上展现出更显著的优势。这验证了我们之前的结论:当跨模态分布复杂、难以对齐时,多步校正至关重要。

4.2 泛化能力(GENERALIZATION ABILITY)
设置(Settings)尽管许多 PEFT 方法(如 CoOp)能够提升少样本分类的性能,但它们通常会导致泛化能力下降。
结果(Results)结果如表 2 所示。FMA 在提升少样本学习性能(前两列)的同时,并未进一步损害泛化能力(中间两列)。同时,调和平均值的提升表明,FMA 在适应能力与泛化能力之间取得了更好的平衡。

4.3 消融研究(ABLATION STUDY)
架构无关性(Architecture Agnostic)在本节中,我们评估了 FMA 是否在其他 PEFT 方法上同样有效。具体而言,我们在预训练的 CLIP 以及四种不同的 PEFT 方法(CoOp、CoCoOp、CLIP-Adapter 和 CLIP-LoRA)之上实现了 FMA。对于每种 PEFT 方法,我们首先对预训练的 ViT-B/16 CLIP 进行相应微调;随后,使用该预训练或微调后的 CLIP 提取图像和文本特征;最后,基于这些特征,按照 FMA 框架训练一个速度场网络。我们在困难数据集上报告了性能结果。
结果:如表 3 所示,FMA 在所有方法上均实现了持续的性能提升,这证明了我们框架的架构无关性。这意味着 FMA 可轻松适配于不同的 PEFT 方法,而不会导致显著的性能下降。

不同 CLIP 骨干网络(Different CLIP Backbones)本实验旨在评估 FMA 在不同 CLIP 骨干网络上的有效性。我们在 CoOp 的基础上实现了 FMA,并选用了四种不同的 CLIP 骨干网络:ResNet50、ResNet101、ViT-B/32 和 ViT-B/16。具体而言,我们首先使用训练好的 CoOp 模型提取图像和文本特征,然后根据 FMA 框架在这些特征上训练速度场网络。我们在困难数据集上报告了平均性能。
结果:准确率结果如图 6(a) 所示。在所有骨干网络上,FMA 的性能均优于 CoOp,验证了我们方法的有效性。这也表明 FMA 可轻松适配于不同骨干网络,并进一步提升其性能。

不同推理策略(Different Inference Strategies)为评估推理策略对 FMA 的影响,我们采用两种策略进行了不同推理步数的实验:标准流匹配求解器(在整个时间区间 [0,1]上模拟公式 (6))和我们提出的早停求解器(Early Stopping Solver, ESS)。具体而言,我们使用默认步长 h=0.1,并枚举推理步数 M∈[0,10]。实验在 DTD 数据集上以 16 样本设置进行。
结果:如图 6(b) 所示,随着推理步数的增加,ESS 的性能在达到某一特定步数(本例中为 8 步)后开始下降。这是因为训练一个完美的速度场极其困难,更多的推理步数意味着累积误差更多。这表明,选择合适的推理步数对获得良好性能至关重要。此外,与对推理步数不敏感的标准求解器相比,当选择合适的推理步数时,ESS 能取得更优的结果。
噪声增强(Noise Augmentation)为验证噪声增强在 FMA 中的作用,我们在 CLIP-LoRA 基础上训练了两个速度场网络:一个采用噪声增强,另一个不使用任何增强技术。我们保持 FMA 中其他所有部分(如特征提取和推理)完全一致。在推理阶段,我们使用 ESS 对图像特征进行变换以完成分类。
结果:在困难数据集上的性能如图 6(c) 所示。可以看出,相比无增强的情况,噪声增强能够提升 FMA 的性能。并且,这种提升在不同训练集规模下均保持一致,证明了该策略在速度场训练过程中的有效性。
5 结论 本文研究了如何基于预训练的视觉-语言模型(VLMs)实现更优的跨模态对齐。尽管已有大量参数高效微调(PEFT)方法被提出,但我们发现这些方法在困难数据集上通常表现不佳。本文指出,这些方法本质上都是“单步”调整,不足以在困难数据集中解耦并有效对齐特征。
为解决这一问题,我们提出了 FMA 框架,以利用流匹配(flow matching)的多步校正能力。在 FMA 的训练过程中,我们设计了两种策略——耦合强制(coupling enforcement)和噪声增强(noise augmentation),以学习一个能够保持类别对应关系的速度场。此外,我们还提出了一种早停求解器(early-stopping solver),以提升推理性能。
FMA 是一个即插即用(plug-and-play)模块,我们在多种基准数据集上进行了大量实验,充分验证了其有效性。我们希望本研究能够探索少样本学习领域的一个新潜在方向,即多步校正(multi-step rectification)。
原文链接:https://www.arxiv.org/pdf/2510.14543