搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA
市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型，结合了 SAM-2 和 LLaVA 的优势，实现了时空细粒度的理解。 SAM-2 解码器从 SAM-2 编码器接收图像和视频特征以及 [SEG] 令牌，以生成相应的图像和视频分割结果。 Sa2VA 使用了多模态大语言模型和分割模型分离的设计，将预训练后的 SAM-2 模型和多模态大语言模型放在一起分别处理不同的特征，而不是将 SAM-2 模型的输出送入多模态大语言模型。 Sa2VA 通过微调 “[SEG]” 令牌的方式来连接多模态大语言模型和 SAM-2 模型。“[SEG]” 令牌对应的隐藏状态将作为 SAM-2 模型的一种新的提示词。在训练的过程中 SAM-2 模型的解码器可以被微调来理解 “[SEG]” 令牌对应的提示词。
48010编辑于 2025-02-15
来自专栏机器之心
AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型
分割模型 (SAM-2) - 像素解码器：作为系统的 “双手”，LENS 采用高性能的分割模型（SAM2-Large）。
27810编辑于 2025-12-31
每周AI论文速递（250106-250110）
Sa2VA 将 SAM-2（一个基础视频分割模型）与 LLaVA（一个先进的视觉-语言模型）结合，并将文本、图像和视频统一到一个共享的大语言模型 Token 空间中。通过使用大语言模型，Sa2VA 生成指令 Token，这些 Token 指导 SAM-2 生成精确的掩码，从而实现对静态和动态视觉内容的基于基础的多模态理解。
27700编辑于 2025-04-08
业内首个具身智能原子技能库架构
考虑到 3D 世界的复杂性，我们设计了一种空间智能感知策略：首先，Dino-X 检测任务相关物体并输出边界框；然后，SAM-2 提供精细分割掩码，并基于规则判断物体间的空间关系；最终，这些视觉与空间信息与任务指令一同输入
1.1K10编辑于 2025-02-20
每周AI论文速递（241028-241101）
基于此，我们训练了 ROCKET-1，一个根据连接的视觉观察和分割掩码预测动作的低级策略，实时对象跟踪由 SAM-2 提供。
21400编辑于 2025-04-08
CVPR 2026｜“全能AI海报设计师”PosterOmni开源: 6大任务笑傲开源社区，媲美闭源商用
同时用 SAM-2 做分割/区域生成，为后续“填充/扩图”等任务提供 mask 级监督信号。
17510编辑于 2026-02-28
来自专栏AiCharm
每日学术速递11.18
该方法首先生成一个粗略的对象掩码，然后使用SAM-2模型对其进行细化，以获得最终的掩码，并根据这个掩码在源和目标噪声潜在表示之间进行混合。 4.
46710编辑于 2024-11-18

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型

每周AI论文速递（250106-250110）

业内首个具身智能原子技能库架构

每周AI论文速递（241028-241101）

CVPR 2026｜“全能AI海报设计师”PosterOmni开源: 6大任务笑傲开源社区，媲美闭源商用

每日学术速递11.18

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐