市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 SAM-2 解码器从 SAM-2 编码器接收图像和视频特征以及 [SEG] 令牌,以生成相应的图像和视频分割结果。 Sa2VA 使用了多模态大语言模型和分割模型分离的设计,将预训练后的 SAM-2 模型和多模态大语言模型放在一起分别处理不同的特征,而不是将 SAM-2 模型的输出送入多模态大语言模型。 Sa2VA 通过微调 “[SEG]” 令牌的方式来连接多模态大语言模型和 SAM-2 模型。“[SEG]” 令牌对应的隐藏状态将作为 SAM-2 模型的一种新的提示词。 在训练的过程中 SAM-2 模型的解码器可以被微调来理解 “[SEG]” 令牌对应的提示词。
分割模型 (SAM-2) - 像素解码器:作为系统的 “双手”,LENS 采用高性能的分割模型(SAM2-Large)。
Sa2VA 将 SAM-2(一个基础视频分割模型)与 LLaVA(一个先进的视觉-语言模型)结合,并将文本、图像和视频统一到一个共享的大语言模型 Token 空间中。 通过使用大语言模型,Sa2VA 生成指令 Token,这些 Token 指导 SAM-2 生成精确的掩码,从而实现对静态和动态视觉内容的基于基础的多模态理解。
考虑到 3D 世界的复杂性,我们设计了一种空间智能感知策略:首先,Dino-X 检测任务相关物体并输出边界框;然后,SAM-2 提供精细分割掩码,并基于规则判断物体间的空间关系;最终,这些视觉与空间信息与任务指令一同输入
基于此,我们训练了 ROCKET-1,一个根据连接的视觉观察和分割掩码预测动作的低级策略,实时对象跟踪由 SAM-2 提供。
同时用 SAM-2 做分割/区域生成,为后续“填充/扩图”等任务提供 mask 级监督信号。
该方法首先生成一个粗略的对象掩码,然后使用SAM-2模型对其进行细化,以获得最终的掩码,并根据这个掩码在源和目标噪声潜在表示之间进行混合。 4.