首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

    机器之心报道 编辑:杜伟、大盘鸡 研究者表示,CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。 近日,UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。 而为了训练 CoDi-2,研究者构建了一个大规模生成数据集,包含了跨文本、视觉和音频的上下文多模态指令。 人类与 CoDi-2 的多轮对话为图像编辑提供了上下文多模态指令。 模型架构 CoDi-2 在设计时旨在处理上下文中的文本、图像和音频等多模态输入,利用特定指令促进上下文学习并生成相应的文本、图像和音频输出。CoDi-2 模型架构图如下所示。

    49210编辑于 2023-12-05
  • 来自专栏AiCharm

    每日学术速递12.9

    AiCharm」公众号 Subjects: cs.CV 1.CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation 标题:CoDi 通过将模态与编码和生成的语言保持一致,CoDi-2 使大型语言模型 (LLM) 不仅能够理解复杂的模态交错指令和上下文示例,而且还能在连续特征空间中自回归生成接地且连贯的多模态输出。 为了训练 CoDi-2,我们构建了一个大规模生成数据集,其中包含跨文本、视觉和音频的上下文多模式指令。 CoDi-2 展示了多种多模态生成的零样本功能,例如上下文学习、推理以及通过多轮交互式对话生成任意模态的组合性。CoDi-2 在主题驱动图像生成、视觉转换和音频编辑等任务上超越了以前的特定领域模型。 CoDi-2 标志着在开发全面的多模态基础模型方面取得了重大突破,该模型擅长解释上下文中的语言-视觉-音频交错指令并产生多模态输出。

    39510编辑于 2023-12-13
  • 来自专栏机器之心

    多模态LLM多到看不过来?先看这26个SOTA模型吧

    反过来,为了减少级联系统中传播的错误,也有一些研究团队想要打造出端到端式的任意模态 MM-LLM;这类研究包括 NExT-GPT 和 CoDi-2。 图 1 给出了 MM-LLM 的时间线。 (25) CoDi-2:这是一种多模态生成模型,可以出色地执行多模态融合的指令遵从、上下文生成以及多轮对话形式的用户 - 模型交互。

    83110编辑于 2024-02-06
  • 来自专栏自然语言处理(NLP)论文速递

    2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)

    「在模型/应用方面」UC 伯克利、「微软将CoDi 升级到了 CoDi-2」,作为一种多功能、交互式的多模态大语言模型(MLLM),CoDi-2 能够以 any-to-any 输入-输出模态范式进行上下文学习

    1.8K10编辑于 2024-02-22
  • 来自专栏AIGC 先锋科技

    斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!

    CoDi-2[22]:CoDi-2采用了一个多模态编码器ImageBind,带有对齐的编码器和一个用于模态投影的多层感知机。

    1K10编辑于 2024-07-08
领券