机器之心报道 编辑:杜伟、大盘鸡 研究者表示,CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。 近日,UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。 而为了训练 CoDi-2,研究者构建了一个大规模生成数据集,包含了跨文本、视觉和音频的上下文多模态指令。 人类与 CoDi-2 的多轮对话为图像编辑提供了上下文多模态指令。 模型架构 CoDi-2 在设计时旨在处理上下文中的文本、图像和音频等多模态输入,利用特定指令促进上下文学习并生成相应的文本、图像和音频输出。CoDi-2 模型架构图如下所示。
AiCharm」公众号 Subjects: cs.CV 1.CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation 标题:CoDi 通过将模态与编码和生成的语言保持一致,CoDi-2 使大型语言模型 (LLM) 不仅能够理解复杂的模态交错指令和上下文示例,而且还能在连续特征空间中自回归生成接地且连贯的多模态输出。 为了训练 CoDi-2,我们构建了一个大规模生成数据集,其中包含跨文本、视觉和音频的上下文多模式指令。 CoDi-2 展示了多种多模态生成的零样本功能,例如上下文学习、推理以及通过多轮交互式对话生成任意模态的组合性。CoDi-2 在主题驱动图像生成、视觉转换和音频编辑等任务上超越了以前的特定领域模型。 CoDi-2 标志着在开发全面的多模态基础模型方面取得了重大突破,该模型擅长解释上下文中的语言-视觉-音频交错指令并产生多模态输出。
反过来,为了减少级联系统中传播的错误,也有一些研究团队想要打造出端到端式的任意模态 MM-LLM;这类研究包括 NExT-GPT 和 CoDi-2。 图 1 给出了 MM-LLM 的时间线。 (25) CoDi-2:这是一种多模态生成模型,可以出色地执行多模态融合的指令遵从、上下文生成以及多轮对话形式的用户 - 模型交互。
「在模型/应用方面」UC 伯克利、「微软将CoDi 升级到了 CoDi-2」,作为一种多功能、交互式的多模态大语言模型(MLLM),CoDi-2 能够以 any-to-any 输入-输出模态范式进行上下文学习
CoDi-2[22]:CoDi-2采用了一个多模态编码器ImageBind,带有对齐的编码器和一个用于模态投影的多层感知机。