搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2
机器之心报道编辑：杜伟、大盘鸡研究者表示，CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。近日，UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。而为了训练 CoDi-2，研究者构建了一个大规模生成数据集，包含了跨文本、视觉和音频的上下文多模态指令。人类与 CoDi-2 的多轮对话为图像编辑提供了上下文多模态指令。模型架构 CoDi-2 在设计时旨在处理上下文中的文本、图像和音频等多模态输入，利用特定指令促进上下文学习并生成相应的文本、图像和音频输出。CoDi-2 模型架构图如下所示。
49210编辑于 2023-12-05
来自专栏AiCharm
每日学术速递12.9
AiCharm」公众号 Subjects: cs.CV 1.CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation 标题：CoDi 通过将模态与编码和生成的语言保持一致，CoDi-2 使大型语言模型 (LLM) 不仅能够理解复杂的模态交错指令和上下文示例，而且还能在连续特征空间中自回归生成接地且连贯的多模态输出。为了训练 CoDi-2，我们构建了一个大规模生成数据集，其中包含跨文本、视觉和音频的上下文多模式指令。 CoDi-2 展示了多种多模态生成的零样本功能，例如上下文学习、推理以及通过多轮交互式对话生成任意模态的组合性。CoDi-2 在主题驱动图像生成、视觉转换和音频编辑等任务上超越了以前的特定领域模型。 CoDi-2 标志着在开发全面的多模态基础模型方面取得了重大突破，该模型擅长解释上下文中的语言-视觉-音频交错指令并产生多模态输出。
39510编辑于 2023-12-13
来自专栏机器之心
多模态LLM多到看不过来？先看这26个SOTA模型吧
反过来，为了减少级联系统中传播的错误，也有一些研究团队想要打造出端到端式的任意模态 MM-LLM；这类研究包括 NExT-GPT 和 CoDi-2。图 1 给出了 MM-LLM 的时间线。 (25) CoDi-2：这是一种多模态生成模型，可以出色地执行多模态融合的指令遵从、上下文生成以及多轮对话形式的用户 - 模型交互。
83110编辑于 2024-02-06
来自专栏自然语言处理(NLP)论文速递
2024开年，看一看：大型语言模型（LLM）在过去一年多的发展！（按月总结）
「在模型/应用方面」UC 伯克利、「微软将CoDi 升级到了 CoDi-2」，作为一种多功能、交互式的多模态大语言模型（MLLM），CoDi-2 能够以 any-to-any 输入-输出模态范式进行上下文学习
1.8K10编辑于 2024-02-22
来自专栏AIGC 先锋科技
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿，当前方法与未来方向的调查！
CoDi-2[22]：CoDi-2采用了一个多模态编码器ImageBind，带有对齐的编码器和一个用于模态投影的多层感知机。
1K10编辑于 2024-07-08

任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

每日学术速递12.9

多模态LLM多到看不过来？先看这26个SOTA模型吧

2024开年，看一看：大型语言模型（LLM）在过去一年多的发展！（按月总结）

斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿，当前方法与未来方向的调查！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐