MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
MetaMorph:通过指令微调实现多模态理解与生成
https://openaccess.thecvf.com/content/ICCV2025/papers/Tong_MetaMorph_Multimodal_Understanding_and_Generation_via_Instruction_Tuning_ICCV_2025_paper.pdf

摘要 在本研究中,我们提出了视觉-预测性指令微调(Visual-Predictive Instruction Tuning,VPiT)——这是一种对视觉指令微调的简单而有效的扩展方法,能够使一个预训练的大语言模型(LLM)快速转变为统一的自回归模型,从而同时生成文本和视觉标记。VPiT 训练 LLM 从以指令遵循格式组织的图像与文本混合输入序列中,预测离散的文本标记和连续的视觉标记。我们的实证研究表明,VPiT 具有若干引人注目的特性:(1)视觉生成能力作为视觉理解能力提升的自然副产品而出现,并且仅需少量生成数据即可高效激活;(2)尽管我们发现理解与生成能力相互促进,但理解类数据对这两种能力的贡献比生成类数据更为有效。基于这些发现,我们训练了 MetaMorph 模型,在视觉理解和生成任务上均取得了具有竞争力的性能。在视觉生成方面,MetaMorph 能够利用 LLM 预训练所获得的世界知识和推理能力,克服其他生成模型常见的失效模式。我们的结果表明,LLM 可能具备强大的“先验”视觉能力,通过相对简单的指令微调过程,即可高效地适配到视觉理解与生成任务中。
在多模态大语言模型的训练方法中,视觉指令微调(visual instruction tuning)[36] 已被广泛采用 [2, 67]。该方法将预训练视觉编码器的输出嵌入视为连续值的“视觉标记”,并直接将其作为输入馈送给预训练的大语言模型(LLM)。
视觉指令微调的一个优势在于其数据和计算效率高。通过仅使用数百万规模的图像-文本问答对 [32, 63] 进行适度的指令微调,即可将一个预训练的 LLM 重新用于多模态任务。视觉指令微调的有效性表明,LLM 本身已具备相当丰富的内在视觉知识,使其能够在指令微调过程中学习并发展出视觉理解能力 [85]。受此启发,我们探究 LLM 是否也能以同样高效且有效的方式被微调以生成视觉信息。
当前面向“统一”模型(即同时具备多模态理解与生成能力的模型)的尝试,通常将视觉生成视为与视觉理解正交的能力。这些方法往往需要对原始 MLLM 架构进行大幅修改,并依赖大量的多模态预训练和/或微调。设计此类方法具有挑战性,以往研究采用了多种不同策略,包括将视觉输入分词为离散标记 [39, 62, 73]、引入扩散目标 [75, 86],以及将视觉任务解耦为独立的理解与生成模式 [71]。例如,LWM [39]、Show-o [75] 和 Chameleon [62] 等方法需要数十亿规模的图像-文本对 [17, 56] 进行大规模预训练和微调。
在本研究中,我们提出了视觉-预测性指令微调(Visual-Predictive Instruction Tuning, VPiT)——这是对视觉指令微调的一种简单扩展,延续了将连续视觉标记作为输入传入 LLM 的现有范式。VPiT 在微调阶段训练 LLM 同时输出连续的视觉标记和离散的文本标记。模型以预训练视觉编码器的嵌入和文本标记作为输入,并输出文本标记与连续视觉标记的组合。为了将生成的视觉标记可视化,我们进一步微调了一个扩散模型,将其映射回像素空间(参见图 1 示例)。该框架使我们能够研究视觉理解、视觉生成与预训练 LLM 之间的协同关系,并得出以下若干引人深思的发现。

首先,我们发现预测视觉标记的能力源于对视觉输入的理解,且仅需极少的额外训练。与视觉指令微调类似,VPiT 能够高效且有效地将 LLM 转变为一个“统一”模型,同时理解和生成多模态标记。当与充足的视觉理解数据联合训练时,该过程仅需额外约 20 万条视觉生成数据。
其次,我们进一步证实了视觉理解与视觉生成能力之间存在内在联系,且这种联系是不对称的。具体而言,增加理解数据不仅能提升视觉理解能力(以更高的 VQA 得分为衡量标准),也能改善生成质量(以更低的 FID 得分为衡量标准)。相反,增加生成数据虽能提升生成质量,也能在一定程度上增强视觉理解能力,但效果较弱。重要的是,我们的研究揭示了训练不同能力对模型整体视觉表现影响的不对称性:以理解为中心的训练在提升视觉理解与生成两方面,均显著优于以生成为中心的训练。
基于上述发现,我们利用 VPiT 训练了一个名为 MetaMorph 的统一模型,用于预测多模态标记。我们整合了多样化的数据源,涵盖常见的视觉问答数据集,以及无文本标注的纯图像和视频数据。MetaMorph 在视觉理解与视觉生成的基准测试中均取得了具有竞争力的性能。此外,我们表明这种统一建模方法能够充分利用 LLM 的强大能力。例如,MetaMorph 在生成视觉标记时可提取预训练 LLM 中的知识。更令人惊讶的是,我们观察到 MetaMorph 能在生成视觉标记前隐式地执行推理步骤——例如,当提示为“君主斑蝶毛虫蜕变后的动物”时,MetaMorph 成功生成了一只蝴蝶的图像(见图 1)。
我们的结果表明:(1)通过指令微调训练统一模型是可行的;(2)LLM 本身具备强大的先验视觉能力,仅需远少于大规模预训练的数据量即可被有效激活。这些见解为混合模态模型的发展提供了新思路。随着研究社区通过改进基础 LLM、指令微调技术和数据,持续提升多模态大语言模型的视觉理解能力 [32, 63, 67],我们强调,这些努力也可能隐式地推动模型在视觉生成方面变得更强。
受此启发,我们提出了视觉-预测性指令微调(Visual-Predictive Instruction Tuning,VPiT,见图 1)——一种简洁的设计,它在现有指令微调方法的基础上进行扩展,使模型不仅能生成文本,还能生成视觉标记。我们沿用相同的架构和“下一个标记预测”(next-token prediction)范式来激活视觉生成能力,无需引入复杂的附加机制。具体而言,我们对一个预训练的 LLM 进行微调,使其能够同时预测离散的文本标记和连续的视觉标记。这些视觉标记可通过一个适配后的扩散模型进行可视化。
2.1 从单模态到多模态的下一个标记预测 标准的指令微调设置包含一系列对话轮次组成的输入序列 [61, 69]:(Pᵢ, Rᵢ)ᴺᵢ₌₁,其中 Pᵢ 和 Rᵢ 分别表示第 i 轮对话的提示(prompt)和响应(response)。模型被训练根据提示生成对应的响应。
VPiT 在标准指令微调设置的基础上引入了以下机制,以同时解锁视觉理解与生成能力:
多模态数据的标记化(Tokenizing multimodal data)。我们将 Pᵢ 和 Rᵢ 扩展为同时包含文本和图像的形式。为了将视觉数据整合进预训练的 LLM,我们严格遵循视觉指令微调 [36] 的处理方式:
模型架构。我们取一个预训练的 LLM,并对其进行微调,使其能够处理任意序列的文本和视觉标记(具体细节见第 2.2 节)。我们保留原始 LLM 的头部用于文本预测,并额外附加一个独立的视觉头部,用于预测视觉标记——即,在处理图像时由视觉编码器生成的输出标记。该视觉头部是一个投影层,负责将 LLM 的维度映射到视觉编码器的维度。所有响应标记均可在提示标记作为上下文的情况下,进行自回归训练与预测。
与传统的视觉指令微调不同,在 VPiT 中,视觉标记不仅是 LLM 的输入,同时也是其输出。为了使 LLM 意识到视觉标记的存在,我们引入特殊标记

,用以标示视觉标记序列的边界以及何时启用视觉头部。
损失函数。语言头部输出词汇表上的概率分布,并使用交叉熵损失进行下一个标记预测的训练。视觉预测则采用余弦相似度损失,衡量 LLM 预测的视觉标记与视觉编码器输出标记之间的相似性。与指令微调实践一致,模型仅在响应标记上进行预测并计算损失。
2.2 使用多种类型的数据
由于 VPiT 使模型能够在响应中同时预测文本和视觉标记,因此它允许使用更广泛的训练数据。另一方面,传统的视觉指令微调主要依赖问答对。我们的数据集大部分是公开可用的,我们将其分为以下三大类别。这种分类方式使我们能够系统地研究该模型,具体细节见第 3 节和第 4 节。所有数据类型均按指令微调风格的提示与响应对格式组织。更多细节请参见附录 C.2。

2.3 通过扩散模型将标记映射回图像
由于使用 VPiT 训练的模型学习预测的是连续的视觉标记,我们需要将这些预测出的标记重新映射回像素空间。我们借助“扩散自编码器”(Diffusion Autoencoder)[9, 27, 34, 50, 51] 的概念,其中扩散模型可以被调整为以图像嵌入为条件进行生成。具体而言,我们利用预留的(held-out)数据对一个现有的扩散模型进行微调,使其能够以视觉编码器的输出作为条件。
在推理阶段,一旦模型生成了 <image_start> 标记,便会开始输出视觉标记,直至遇到 <image_end> 标记为止。随后,我们将生成的视觉标记输入到该扩散模型中,从而在像素空间中可视化预测结果。我们采用潜在扩散模型(latent diffusion model)的训练流程。有关超参数和训练细节,请参见附录 A.2。
我们在 VPiT 框架下研究以下问题,以探究视觉理解与视觉生成之间的效果与协同关系: §3.1 视觉生成能力能否通过轻量级微调解锁,还是需要大量数据? §3.2 视觉理解与视觉生成是相互促进的,还是彼此正交(独立)的? §3.3 增加视觉理解数据或视觉生成数据分别对理解能力和生成质量有多大贡献? §3.4 哪些视觉理解任务与生成性能的相关性最强?
评估设置。我们使用 9 个 ImageQA 基准(MMBench、Seed、VStar、MMVP、MMMU、ChartQA、TextVQA、ScienceQA、RealWorldQA)来评估模型在不同方面的表现。对于图像生成,我们使用微调后的扩散模型将生成的视觉标记可视化,并在 COCO-30K 数据集上计算 FID 分数(越低越好)和 CLIP 分数(越高越好)。除非另有说明,我们采用 LLaMA-3 8B [3] 作为预训练大语言模型(LLM),SigLIP ViT-SO400M-14@384 [81] 作为视觉编码器。我们还在第 3.2 节中研究了不同 LLM 的影响。我们使用经过指令微调的 LLM 版本,并按照视觉指令微调的方式预训练视觉编码器与 LLM 之间的适配器(adapter)。本节实验的训练细节见附录 A,完整结果见附录 B。
我们首先探究:要教会一个语言模型生成高质量的视觉标记,究竟需要多少图像-文本样本。为此,我们从生成数据(MetaCLIP 数据集 [76])中随机采样 {1k, 5k, 10k, 50k, 200k, 1M, 3M, 5M} 对图像-文本样本。我们探索两种设置:(1) 仅使用视觉生成数据对 LLM 进行微调;(2) 将视觉生成与视觉理解及其他第 2.2 节所述的数据类型进行联合训练。
如图 2 所示,仅使用视觉生成数据进行训练的效果显著弱于与其他所有数据联合训练的效果。即使使用超过 300 万对图像-文本样本,模型仍难以生成高质量的视觉图像(FID 分数约为 40),其性能仍不如使用 500 万对样本进行联合训练的结果。这表明,仅依赖视觉生成数据进行训练的样本效率显著较低。这一发现与先前的一项研究 [84] 一致,该研究也指出,当仅使用生成数据训练时,LLM 难以被有效微调以生成视觉标记。

相比之下,与其他数据集联合训练可显著提升生成性能。模型仅需 5k 条生成数据即可生成有效的视觉标记,且性能在约 200k 样本时趋于稳定。这表明,视觉生成并非一种正交能力,而是一种在联合训练中更高效涌现的能力。
为了更深入理解每种数据类型对视觉生成的贡献,我们进行了对照实验:固定使用 200k 条视觉生成数据,分别与第 2.2 节中定义的每种数据类型单独联合训练。我们还将这些结果与使用全部数据联合训练的情况进行比较,结果如图 3 所示。

尽管所有数据类型都能提升模型的视觉生成能力,但提升程度存在差异。视觉理解数据(如 ImageQA 和 VideoQA)显著增强了模型的视觉生成能力。这表明,理解视觉内容的能力与生成视觉标记的能力之间存在强关联。此外,将所有数据类型联合训练可进一步提升性能,说明不同类型数据带来的收益具有可加性。

3.2 视觉理解与视觉生成相互促进
更多理解数据可同时提升理解与生成能力。 基于上一小节的发现,我们进一步开展对照实验,以探究视觉理解能力与视觉生成能力之间的相关性。我们在固定使用 20 万条生成数据的前提下,从 Cambrian-7M 数据集中选取不同规模的 VQA 数据(从 100 万到 700 万样本),以构建不同水平的视觉理解能力。图 4 所示结果表明,更强的 VQA 能力与更优的生成性能呈正相关。

更多生成数据也能同时提升理解与生成能力。 接下来,我们探究反向关系:增强模型的视觉生成能力是否也与更高的 VQA 表现相关?为此,我们以固定的 100 万条 VQA 样本作为理解能力的基准,并在此基础上变化生成数据的规模({20 万、50 万、100 万、200 万、300 万、400 万}),在联合训练中调整模型的生成能力。结果如图 5 所示。在固定 100 万 VQA 数据的设定下,更强的生成能力与 VQA 性能的提升呈正相关。这表明,增加生成数据不仅能改善生成质量,还能对 VQA 表现产生积极影响。
这种协同效应在不同 LLM 架构上具有可扩展性。 我们进一步检验上述发现是否适用于不同的 LLM 主干网络。在使用 700 万 VQA 数据和 100 万生成数据的固定数据组合下,我们在 LLaMA-3 8B、LLaMA-3.1 8B 和 LLaMA-3 70B 三种模型上分别训练 VPiT。图 6 展示了不同 LLM 上的性能扩展趋势,表明这种理解与生成之间的协同关系具有良好的泛化性和可扩展性。

3.3 理解数据的贡献更大
我们探究理解数据与生成数据的贡献是否对等。为此,我们联合训练不同规模的 VQA 数据({1M, 4M, 7M})和生成数据({200k, 500k, 1M, 2M, 3M, 4M})。图 7 总结了这些实验结果,其中横轴表示 VQA 数据量,纵轴表示生成数据量。结果以热力图形式呈现,颜色越深表示性能越好。
结果表明,增加 VQA 数据在所有三项评估指标上均带来最显著的提升。当 VQA 数据量较低(1M)时,增加生成数据仍能带来明显改进,这体现在图中颜色的逐渐加深。然而,随着 VQA 数据规模扩大(从 1M 增至 4M 再到 7M),VQA 数据的影响变得更加突出,热力图中出现了明显的颜色跃变。最终,当 VQA 数据达到 7M 时,继续增加生成数据对性能的提升几乎可以忽略不计。
这些结果充分说明,理解数据在同时提升视觉理解与视觉生成性能方面起着关键作用。

3.4 某些理解任务与生成性能的相关性更强
鉴于理解任务具有多样性,例如 OCR(光学字符识别)、以视觉为中心的任务(Vision-Centric tasks)以及基于知识的任务(Knowledge-based tasks),我们进一步探究哪些任务与生成能力的相关性最强。受 Cambrian-1 的启发,我们将 VQA 任务划分为五类:通用(General)、文本与图表(Text&Chart)、高分辨率(High-Resolution)、知识型(Knowledge)和视觉中心型(Vision-Centric)VQA。
基于我们此前的实验结果(即在不同规模的 VQA 数据与不同数量的生成数据联合训练下得到的模型),我们在图 8 中绘制了各基准测试的 VQA 表现与生成性能之间的关系,并计算了 VQA 分数与 FID/CLIP 分数之间的皮尔逊相关系数(ρ)。
图 8 显示,通用类(General)、视觉中心类(Vision-Centric)和文本与图表类(Text&Chart)VQA 任务与生成性能高度相关,每类的相关系数 ρ 均超过 0.85。高分辨率 VQA 表现出中等程度的相关性,ρ 约为 0.7。相比之下,知识型 VQA 任务与生成性能的相关性较弱。

这些发现表明,模型的生成能力更紧密地与其视觉感知能力相关,而非依赖于特定知识的任务能力。

基于第 3 节的发现,我们使用 VPiT 方法,结合第 2.2 节所述的数据,基于 LLaMA-3.1 8B [3] 训练了我们的统一模型 MetaMorph。我们将结果分为三个部分进行展示:定量性能(第 4.1 节)、MetaMorph 在视觉生成中利用 LLM 知识的证据(第 4.2 节),以及多模态隐式推理能力(第 4.3 节)。
我们将 MetaMorph 与其他统一模型进行比较,结果汇总于表 1。由于这些模型使用了不同的训练数据集和基础 LLM(或从零开始预训练),很难进行完全公平的对比。尽管如此,MetaMorph 仍展现出具有竞争力的性能,并在大多数基准测试上优于其他统一模型——即使先前的一些模型可能使用了更多的训练数据。与从零训练的模型(如 EMU-3 [68] 和 Chameleon [62])相比,MetaMorph 利用了最新的 LLM,在视觉理解与生成任务上均取得了相当的性能。MetaMorph 表明,统一模型可以高效地从预训练 LLM 出发构建而成。

MetaMorph 能够有效利用预训练 LLM 中蕴含的世界知识。我们在图 9 左侧展示了若干示例:我们提示模型生成一些需要非平凡且专业化知识的概念,例如“乔戈里峰(Chhogori)”(世界第二高峰)、“南美小斑虎猫(Oncilla)”(一种南美洲的小型野猫)以及“奇扎里拉(Chizarira)”(津巴布韦的一处偏远荒野地区)。

MetaMorph 成功将这些领域特定的知识转化为准确的视觉标记,展现出其利用 LLM 中世界知识的能力。相比之下,最新的文本到图像(Text-to-Image, T2I)模型 Stable Diffusion 3.5 8B 尽管能生成高质量图像,却难以正确呈现这些概念。这一问题可能源于其所使用的文本嵌入模型——CLIP [52] 和 T5 [54]——无法对这些专业术语进行恰当编码 [80]。
在图 9 右侧,我们进一步展示了 MetaMorph 在处理常见语义挑战方面比 CLIP 和 T5 等文本嵌入模型更有效。这些挑战包括否定(negation)和主观性(subjectivity)[64]。MetaMorph 能够区分“略微”(slightly)与“非常”(very)、“少量”(few)与“大量”(many)等语义细微差别,而这些正是当前文本到图像系统常见的失败点。
4.3 多模态生成中的推理能力
在图 10 中,我们展示了若干示例,其中模型根据谜题式提示生成图像,例如:“黄石国家公园所在国家的国旗”。对于每个谜题,我们直接使用提示“生成一张{谜题}的图像”,并未在提示中显式调用思维链(Chain-of-Thought, CoT)[70]。MetaMorph 能够从需要多步推理的提示中直接生成正确的图像。

例如,在回答问题“一种乐器,这位科学家提出了狭义相对论,而他常演奏这种乐器”时,模型需隐式完成三个推理步骤:首先识别出提出狭义相对论的科学家是阿尔伯特·爱因斯坦;其次,认识到他偏爱的乐器是小提琴;最后,直接生成正确的小提琴视觉标记——而整个过程并未显式地将这些推理步骤分离出来。
这一结果表明,MetaMorph 能够在接收到提示后立即隐式地解答谜题,并直接输出正确的视觉标记。这些发现与《语言模型的物理学》(Physics of LMs)[5, 77] 中的结论一致,即 LLM 在自回归生成后续标记之前,会预先计算推理图(reasoning graphs)。在此,我们进一步证明,这种能力可以迁移到统一的多模态模型设定中。
指令微调与视觉指令微调。指令微调(Instruction tuning)[61, 69] 通过对预训练大语言模型(LLM)进行微调,使其学习指令格式,并释放预训练阶段获得的能力 [85]。LLaVA [36] 将指令微调扩展到多模态领域。后续工作分别聚焦于改进数据 [11, 29, 30]、视觉表征 [13, 26, 63] 以及训练策略 [18, 38]。仅使用数百万规模的数据,开源的多模态大语言模型(MLLMs)[32, 38, 63] 就在多个基准测试 [40, 78, 79] 和实际应用 [49, 82] 上达到了与闭源模型 [6, 48] 相当的性能。
从多模态 LLM 到统一模型。近期构建统一模型(即同时支持理解与生成)的努力主要依赖于大规模预训练,或在数十亿规模数据集上进行重度微调。一些研究使用连续嵌入来预测视觉标记,并结合回归损失 [59, 60],或利用扩散方法 [15]。其他方法 [1, 39, 42, 43, 62, 68, 73] 则将所有数据分词为离散标记。近期也有研究探索结合自回归与扩散目标 [75, 86]。与以往工作不同,我们证明:统一模型可以在指令微调阶段以较少的数据高效训练,并揭示了视觉理解与视觉生成之间相互促进但不对称的关系。
在本研究中,我们提出了 VPiT(视觉-预测性指令微调)——这是对视觉指令微调的一种简单而有效的扩展,使 LLM 能够预测多模态标记。VPiT 解锁了比仅使用视觉问答更丰富的指令微调数据类型,例如文本到图像数据。通过受控实验,我们发现:视觉生成能力是视觉理解能力提升的自然副产品,仅需少量额外的生成数据即可激活。此外,我们发现尽管视觉理解与生成相互促进,但增加视觉理解数据对整体性能的提升效果远大于增加生成数据。
基于这些发现,我们利用 VPiT 对 LLaMA-3.1 8B 进行微调,训练了 MetaMorph 模型。通过简单的训练流程,MetaMorph 在视觉理解与生成任务上均取得了具有竞争力的性能。定性评估表明,MetaMorph 能在视觉生成过程中有效利用基础 LLM 的世界知识与推理能力。例如,它能完成通常需要多步推理的多模态任务,如生成特定专有名词的图像(“乔戈里峰”),或解答视觉谜题(“生成君主斑蝶毛虫蜕变后的动物图像”)。
这表明,LLM 本身已具备一定程度的“先验”视觉知识,仅需通过轻量级的 VPiT 指令微调即可激活。总体而言,LLM 可能已拥有与统一、多功能模型 [25] 相似的表征空间。我们希望这些见解能激发更多关于通用智能模型开发的探索。
https://openaccess.thecvf.com/content/ICCV2025/papers/Tong_MetaMorph_Multimodal_Understanding_and_Generation_via_Instruction_Tuning_ICCV_2025_paper.pdf