首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CVer

    开创VLA的那帮人,正在抛弃VLA

    在文中,作者直指目前具身智能领域流行的 VLA(视觉 - 语言 - 动作)模型趋势。 作为 VLA 概念的共同开创者,他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义,因为在他们看来,过于在意工具的标签,反而会限制通往物理 AGI 的想象力。 让我们看看他是怎么说的。 在 Generalist,我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。 事实上,我们正是 VLA 概念的共同开创者之一;自 2023 年起,我们便持续在机器人领域发表关于世界模型的研究成果,而我们在这一领域的实际探索与耕耘,更是早在数年前便已启动。 在过去一年多的时间里,我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」(VLA)、「世界模型」(World Models),乃至更为前沿的探索方向。

    10210编辑于 2026-04-15
  • 来自专栏机器之心

    VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密

    图 1 VLA-OS 整体概览 一、疑云密布:VLA 模型在进行任务规划时到底该怎么做? 图 2 展示了一些端到端的 VLA 代表性工作。 图 2 一些端到端的 VLA 模型(ActionOnly-VLA) 然而,目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。 图 7 VLA-OS 可组合模块家族 然后,我们针对三个 VLA 的任务规划范式,设计了可组合的 VLA-OS 模型家族,首次实现三大范式的公平对比。 针对三种 VLA 范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我们组合使用 VLA-OS 的标准模块,构建了对应的 VLA-OS 模型实现,如图所示 发现 13:相比不含任务规划的范式(ActionOnly-VLA),包含任务规划的 VLA 范式(Integrated-VLA 与 Hierarchical-VLA)在前向迁移能力上更强,但遗忘速度也更快

    50710编辑于 2025-08-06
  • 来自专栏休辞醉倒

    浅析变长数组(VLA)和动态数组

    1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组(variable-length array,简称VLA

    2.4K21发布于 2019-07-23
  • 来自专栏机器之心

    VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

    OpenHelix以及LLaVA-VLA的研究团队。 尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接:  https://arxiv.org/pdf/2506.13725 代码链接:  https://github.com/OpenHelix-Team/CEED-VLA 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。  

    46710编辑于 2025-07-14
  • 来自专栏一点人工一点智能

    CogACT:一种新的VLA模型架构

    论文方法 1.1 方法描述 该研究旨在开发一种视觉语言模型(VLA),使不同的机器人能够根据视觉观察和语言指令执行各种任务。为此,他们将模型分为三个部分:视觉模块、语言模块和动作模块。 方法创新点 该论文的主要贡献在于提出了一种全新的VLA模型架构——CogACT,通过将认知信息提取出来并作为条件引导动作预测过程,从而解决了现有VLAs在处理连续、多模态、时间相关且需要高精度的动作信号时存在的问题

    57910编辑于 2025-01-20
  • 来自专栏新智元

    VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

    从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。 放眼全球,VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界,并催生出了各具特色的技术分支。 这不仅印证了VLA的巨大潜力,也预示着,它正在重塑智能机器人与人类交互的未来。 或许你一定好奇,VLA为何成为了具身智能的「新范式」? VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 短短三年的时间,VLA技术完成了从实验室走向工业落地的华丽蜕变。 随着GROOT N1、Helix、FiS-VLA等模型的部署,VLA将在人形机器人、智能制造等领域大放异彩。

    1.1K10编辑于 2025-07-09
  • 来自专栏星河细雨

    自动驾驶VLA的过去、现在和未来

    VLA模型的理论框架 形式化定义与核心组件 从数学角度来看,VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑",它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。 端到端VLA架构深度解析 端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。 同时,VLA相关研究的快速推进和演化,也为VLA的量产落地提供了更清晰的技术实现路径。 亟待解决的技术挑战 实时性约束是VLA模型面临的首要工程挑战。 结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA,自动驾驶系统经历了从简单反射到复杂推理的演进。

    79510编辑于 2025-12-29
  • 来自专栏一点人工一点智能

    NaVILA:用于足式机器人导航的VLA模型

    该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。

    94510编辑于 2024-12-27
  • 来自专栏多模态模型系列

    具身智能中VLA(视觉-语言-动作)技术论文解读

    正好最近在看VLA(Vision-Language-Action)模型相关技术,VLA的核心目标就是解决感知、语言和行动之间的断层问题。本文主要和大家讨论下VLA相关技术~1. 到这儿终于引入我们的主题VLA。5. RT-2介绍了如何通过将 VLM 预训练与机器人数据相结合来训练VLA模型,验证了再机器人领域能够利用VLM模型的能力来提升VLA模型的泛化能力。 模型,支持有效微调,推动机器人技术发RT-2提出了VLA模型,openVLA也同样具有里程碑意义,因为他开源了通用机器人VLA模型和训练代码。 2025年来看,VLA将长链式的端到端VLA系统拆分为视觉语言理解(VLM)与动作执行两个子模块,也正在成为一个重要探索方向。

    5.4K36编辑于 2025-04-29
  • 来自专栏遊俠扎彪

    C语言C99标准中的变长数组(VLA)

    该文介绍了在C语言C99标准中的变长数组(VLA)的相关知识,以及其在编译器中的实现和用法。具体包括变长数组在C语言中的定义和声明方式,以及其在编译器中的实现和用法。同时,还介绍了在GNU C下变长数组的使用和注意事项。

    4.2K90发布于 2018-01-01
  • 来自专栏GPUS开发者

    LeRobot 新作 X-VLA:机器人界的通用基础模型来了

    LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型(VLA)赋能开发者社区的使命,而 X-VLA 的推出,正是这一使命的重要落地。 近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA,作为首个基于软提示(Soft-Prompt)的跨载体视觉 - 语言 - 动作机器人基础模型,它真正实现了 “一个模型适配任意机器人 而 X-VLA 从大模型的提示学习(Prompt Learning) 和元学习(Meta-Learning) 中汲取灵感,提出了全新的解决方案:让 VLA 模型像 LLM 学习不同任务一样,通过 “提示 X-VLA 的核心创新:软提示解锁跨载体通用能力 X-VLA 是一个基于软提示、融合流匹配(Flow-Matching)的 VLA 框架,其核心设计是将每一种机器人硬件配置视为一个 “任务”,用一组可学习的嵌入向量 VLA 赋能社区的使命。

    75110编辑于 2026-03-02
  • AerialVLA:用VLA模型实现无人机端到端视觉-语言导航

    AerialVLA的设计目标是同时移除这两个依赖,用一个统一的VLA模型完成从感知到动作的端到端映射。 这说明端到端VLA模型在泛化能力上具有明显优势。作为参考,人类操作者在Seen场景中的SR为94.51%,SPL为77.84%。 五、总结与思考AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径:通过极简视觉输入、模糊方向提示和数值标记化三个设计,移除了对oracle引导和外部检测器的依赖,在Unseen 极简输入的启示:5视图反而不如2视图,在训练数据有限(420,000帧)时更多视角带来的信息增量不足以抵消过拟合风险,对其他VLA任务的视觉输入设计有参考价值。

    36510编辑于 2026-04-03
  • 来自专栏机器之心

    全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

    这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能! 四大灵魂拷问:RoboVLMs 是怎么炼成的? 我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案! 1. 为什么要用 VLA 模型? 简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。 怎么设计一个靠谱的 VLA 架构? 这里面讲究可不少!比如: 动作空间:用连续动作空间比离散的好很多。 历史信息:加多步历史信息后,模型的操作更稳准狠。 这些结论为未来 VLA 模型的训练策略指明了方向。

    44510编辑于 2025-02-03
  • 来自专栏一点人工一点智能

    清华团队新模型UP-VLA实现视觉-语言-动作三重突破

    研究背景 引言构建了UP-VLA研究的理论基础和问题背景,系统性地阐述了当前VLA模型研究的发展现状与核心挑战。文章开篇即指出,构建能够在开放环境中解决多任务的VLA模型已成为机器人研究的核心方向。 UP-VLA的创新点在于重新思考了VLA模型的预训练方法,突破了传统视觉语言预训练仅关注高层次语义信息的局限。 作者特别对比了与3D-VLA工作的异同——虽然都探索了多模态理解与生成的协同训练,但3D-VLA主要关注3D信息的引入并使用独立的扩散模型进行生成,而UP-VLA则采用统一模型处理多模态输入,重点解决VLA 对于未见过的物体抓取任务,UP-VLA-RT-2优于UP-VLA-phi-w/o-mmu,说明多模态理解有助于语义泛化能力。UP-VLA表现最佳,证明其能有效对齐多模态理解与物体和动作。 在需要精确操作的任务(如布线、抓取小物体)中,UP-VLA-phi-w/o-mmu优于UP-VLA-RT-2,而UP-VLA表现最优,表明未来视觉预测的整合确实增强了VLA对物理空间和细节的理解能力。

    51310编辑于 2025-08-11
  • 来自专栏机器之心

    全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

    一、为什么VLA+RL很重要 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。 三、星动纪元 iRe-VLA 最先突破 VLA 强化学习困境,也是 π*0.6 的引用来源 对于VLA的强化学习困境,行业内其实有三种类型的解决方案: 第一种:外挂式干预:一些尝试不敢轻易触碰庞大的 VLA 这种方法虽然安全,但 VLA没有真正发生质变。 第二种:暴力美学:以 VLAC 为代表的工作尝试直接用 PPO 等算法全量微调 VLA。 我们来看下 iRe-VLA。 图注:该架构的优点 国内的星动纪元的iRe-VLA 的基础上,海外的PI π*0.6,都为我们揭示出了VLA在线强化学习技术的发展前景。

    50710编辑于 2025-12-18
  • 来自专栏机器之心

    效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

    Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1] 触觉增强的 DexGrasp-VLA 机械臂系统高效地采集高质量的演示数据,以训练出具备通用操作能力的 VLA 策略。 核心策略: DexGrasp-VLA,打造共享自主框架的基石 DexGrasp-VLA 是一个专为灵巧手设计的自主抓取策略,是本文共享自主框架的基石。 Tactile-based DexGrasp-VLA for hand control [1] 在杂乱桌面场景中使用 DexGrasp-VLA 进行清桌操作。 2. Autonomous Hand VLA Policy for Efficient Data Collection.

    32010编辑于 2025-12-18
  • 来自专栏机器之心

    刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

    SOP:让机器人实现在真实世界中的分布式持续学习 在过去几年里,基于互联网海量数据预训练的 VLA(视觉 - 语言 - 动作)模型,虽然赋予了机器人一定的通用泛化能力,但始终面临一个难以逾越的鸿沟:「懂 它将 VLA 的后训练从「单机单打独斗」转变为「在线、集群、并行」的集团军作战。形象地说,SOP 构建了一个「多机平行现实 → 云端集中学习 → 模型即时回流」的超级闭环。 分布式机器人队伍:构建「平行现实」 在 SOP 架构下,不再是一台机器人在苦苦探索,而是多台机器人组成集群,共享同一个 VLA 策略。 破解灾难性遗忘:泛化与精度的共存 传统的单机在线训练往往面临一个两难:为了精通某项任务(如叠衣服),模型很容易退化成只懂这一件事的专家,丧失了通用的 VLA 能力。 因为它是在更广阔的分布中同时进行多任务学习,而非按顺序一个个学,从而确保了 VLA 的通用性不会因针对某一任务的性能提升而受损。

    25810编辑于 2026-01-12
  • 来自专栏一点人工一点智能

    MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移

    另一方面,近年来发展的视觉-语言-动作(VLA)模型在各种操纵任务中展现了出色的泛化性能。当前最前沿的VLA模型可以直接根据RGB图像输出7自由度的末端执行器动作,无需依赖预测的对象类别和姿态。 OpenVLA探索了视觉编码器对VLA模型性能的影响,通过组合不同的基础模型组件实现了满意的表现。 这种双层优化策略不仅提高了轨迹生成的效率,还使得原本专为固定基座设计的VLA模型能够适应移动操纵的需求。 为了微调现成的VLA模型以弥合跨实体差距,研究人员收集了基于OVMM提供的启发式基线的移动操纵专家轨迹。 特别是在拾取成功率方面,得益于预训练VLA模型的强大泛化能力,MoManipVLA比SOTA方法高出12.4%,这证明了所提出方法能有效迁移预训练VLA模型策略至移动操纵任务中。

    55710编辑于 2025-03-27
  • 来自专栏机器之心

    北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

    Fast-in-slow VLA (如何在慢系统中分化出执行模块) FiS-VLA 提出一种创新结构,将 VLM 的末端几层 Transformer 模块直接重构为系统 1 执行模块,嵌入原有系统 2 借鉴 “动作块化” 的方法,FiS-VLA 认识到在时间步 t 的输入可以为未来若干步的动作生成提供指导,因此 FiS-VLA 将系统 2 的中间层输出作为一个潜在的条件信号,为接下来的 H 步系统 1 在训练阶段,FiS-VLA 采用异步采样的方式控制系统 2 的运行频率,使得系统 1 能够保持动作生成过程的时间一致性。 另外,FiS-VLA 采用异构模态输入设计。 由于系统 1 与系统 2 在职责上存在根本差异,FiS-VLA 为其设计了异构的输入模态。 3.FiS-VLA 双系统协同训练:系统 1 以扩散建模为核心,注入带噪动作作为训练变量,实现连续性动作生成;系统 2 则采用自回归预测保留推理能力,这两个训练目标联合优化 FiS-VLA

    39400编辑于 2025-07-12
  • 来自专栏防止网络攻击

    C++构造函数初始化列表

    例如 VS/VC 不支持变长数组(数组长度不能是变量),我们自己定义了一个 VLA 类,用于模拟变长数组,请看下面的代码: class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; //必须使用初始化列表来初始化 m_len VLA::VLA(int len): m_len(len){ m_arr = new int[len]; } VLA 类包含了两个成员变量,m_len 和 m_arr 指针,需要注意的是 m_len 加了 const 修饰,只能使用初始化列表的方式赋值,如果写作下面的形式是错误的: class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; VLA::VLA(int len){ m_len =

    71240编辑于 2023-10-14
领券