首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA

    市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 SAM-2 解码器从 SAM-2 编码器接收图像和视频特征以及 [SEG] 令牌,以生成相应的图像和视频分割结果。 Sa2VA 使用了多模态大语言模型和分割模型分离的设计,将预训练后的 SAM-2 模型和多模态大语言模型放在一起分别处理不同的特征,而不是将 SAM-2 模型的输出送入多模态大语言模型。 Sa2VA 通过微调 “[SEG]” 令牌的方式来连接多模态大语言模型和 SAM-2 模型。“[SEG]” 令牌对应的隐藏状态将作为 SAM-2 模型的一种新的提示词。 在训练的过程中 SAM-2 模型的解码器可以被微调来理解 “[SEG]” 令牌对应的提示词。

    48010编辑于 2025-02-15
  • 来自专栏机器之心

    AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

    分割模型 (SAM-2) - 像素解码器:作为系统的 “双手”,LENS 采用高性能的分割模型(SAM2-Large)。

    27810编辑于 2025-12-31
  • 每周AI论文速递(250106-250110)

    Sa2VA 将 SAM-2(一个基础视频分割模型)与 LLaVA(一个先进的视觉-语言模型)结合,并将文本、图像和视频统一到一个共享的大语言模型 Token 空间中。 通过使用大语言模型,Sa2VA 生成指令 Token,这些 Token 指导 SAM-2 生成精确的掩码,从而实现对静态和动态视觉内容的基于基础的多模态理解。

    27700编辑于 2025-04-08
  • 业内首个具身智能原子技能库架构

    考虑到 3D 世界的复杂性,我们设计了一种空间智能感知策略:首先,Dino-X 检测任务相关物体并输出边界框;然后,SAM-2 提供精细分割掩码,并基于规则判断物体间的空间关系;最终,这些视觉与空间信息与任务指令一同输入

    1.1K10编辑于 2025-02-20
  • 每周AI论文速递(241028-241101)

    基于此,我们训练了 ROCKET-1,一个根据连接的视觉观察和分割掩码预测动作的低级策略,实时对象跟踪由 SAM-2 提供。

    21400编辑于 2025-04-08
  • CVPR 2026|“全能AI海报设计师”PosterOmni开源: 6大任务笑傲开源社区,媲美闭源商用

    同时用 SAM-2 做分割/区域生成,为后续“填充/扩图”等任务提供 mask 级监督信号。

    17510编辑于 2026-02-28
  • 来自专栏AiCharm

    每日学术速递11.18

    该方法首先生成一个粗略的对象掩码,然后使用SAM-2模型对其进行细化,以获得最终的掩码,并根据这个掩码在源和目标噪声潜在表示之间进行混合。 4.

    46710编辑于 2024-11-18
领券