搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏CVer
开创VLA的那帮人，正在抛弃VLA
在文中，作者直指目前具身智能领域流行的 VLA（视觉 - 语言 - 动作）模型趋势。作为 VLA 概念的共同开创者，他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义，因为在他们看来，过于在意工具的标签，反而会限制通往物理 AGI 的想象力。让我们看看他是怎么说的。在 Generalist，我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。事实上，我们正是 VLA 概念的共同开创者之一；自 2023 年起，我们便持续在机器人领域发表关于世界模型的研究成果，而我们在这一领域的实际探索与耕耘，更是早在数年前便已启动。在过去一年多的时间里，我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」（VLA）、「世界模型」（World Models），乃至更为前沿的探索方向。
10210编辑于 2026-04-15
来自专栏机器之心
VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密
图 1 VLA-OS 整体概览一、疑云密布：VLA 模型在进行任务规划时到底该怎么做？图 2 展示了一些端到端的 VLA 代表性工作。图 2 一些端到端的 VLA 模型（ActionOnly-VLA）然而，目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。图 7 VLA-OS 可组合模块家族然后，我们针对三个 VLA 的任务规划范式，设计了可组合的 VLA-OS 模型家族，首次实现三大范式的公平对比。针对三种 VLA 范式（ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA），我们组合使用 VLA-OS 的标准模块，构建了对应的 VLA-OS 模型实现，如图所示发现 13：相比不含任务规划的范式（ActionOnly-VLA），包含任务规划的 VLA 范式（Integrated-VLA 与 Hierarchical-VLA）在前向迁移能力上更强，但遗忘速度也更快
50710编辑于 2025-08-06
来自专栏休辞醉倒
浅析变长数组(VLA)和动态数组
1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组（variable-length array,简称VLA
2.4K21发布于 2019-07-23
来自专栏机器之心
VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！
OpenHelix以及LLaVA-VLA的研究团队。尽管相关技术取得了显著进展，但在实际部署中，尤其是在高频率和精细操作等任务中，VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接: https://arxiv.org/pdf/2506.13725 代码链接: https://github.com/OpenHelix-Team/CEED-VLA 图 1：不同解码方法加速效果对比 Method 图 2：CEED-VLA 模型架构示意图我们提出的框架首先通过预训练的 VLA 模型（例如 LLaVA-VLA和OpenVLA）进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高，机械臂动作更加顺畅，成功完成了灵巧操作任务。图 11：CEED-VLA 在真实世界中的实验结果。
46710编辑于 2025-07-14
来自专栏一点人工一点智能
CogACT：一种新的VLA模型架构
论文方法 1.1 方法描述该研究旨在开发一种视觉语言模型（VLA），使不同的机器人能够根据视觉观察和语言指令执行各种任务。为此，他们将模型分为三个部分：视觉模块、语言模块和动作模块。方法创新点该论文的主要贡献在于提出了一种全新的VLA模型架构——CogACT，通过将认知信息提取出来并作为条件引导动作预测过程，从而解决了现有VLAs在处理连续、多模态、时间相关且需要高精度的动作信号时存在的问题
57910编辑于 2025-01-20
来自专栏新智元
VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化
从美国RT-2的开创性突破，到中国最新FiS-VLA「快慢双系统」，VLA正以光速硬核进化。 2025年，具身智能可真是太火了。近日，国内具身智能代表性创企——智平方，联合头部高校发布了一款全新的VLA模型——Fast-in-Slow（FiS-VLA）。放眼全球，VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界，并催生出了各具特色的技术分支。这不仅印证了VLA的巨大潜力，也预示着，它正在重塑智能机器人与人类交互的未来。或许你一定好奇，VLA为何成为了具身智能的「新范式」？ VLA超进化谷歌RT-2成关键节点若想破除这一疑问，前提是必须理解VLA模型的重要性。短短三年的时间，VLA技术完成了从实验室走向工业落地的华丽蜕变。随着GROOT N1、Helix、FiS-VLA等模型的部署，VLA将在人形机器人、智能制造等领域大放异彩。
1.1K10编辑于 2025-07-09
来自专栏星河细雨
自动驾驶VLA的过去、现在和未来
VLA模型的理论框架形式化定义与核心组件从数学角度来看，VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑"，它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。端到端VLA架构深度解析端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。同时，VLA相关研究的快速推进和演化，也为VLA的量产落地提供了更清晰的技术实现路径。亟待解决的技术挑战实时性约束是VLA模型面临的首要工程挑战。结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA，自动驾驶系统经历了从简单反射到复杂推理的演进。
79510编辑于 2025-12-29
来自专栏一点人工一点智能
NaVILA：用于足式机器人导航的VLA模型
该模型采用了两层框架，将视觉、语言和行动模型（VLA）与运动技能相结合。通过预先生成具有空间信息的语言中间动作（例如，“向前移动75厘米”），然后将其作为输入传递给视觉运动强化学习策略以执行任务。
94510编辑于 2024-12-27
来自专栏多模态模型系列
具身智能中VLA（视觉-语言-动作）技术论文解读
正好最近在看VLA（Vision-Language-Action）模型相关技术，VLA的核心目标就是解决感知、语言和行动之间的断层问题。本文主要和大家讨论下VLA相关技术~1. 到这儿终于引入我们的主题VLA。5. RT-2介绍了如何通过将 VLM 预训练与机器人数据相结合来训练VLA模型，验证了再机器人领域能够利用VLM模型的能力来提升VLA模型的泛化能力。模型，支持有效微调，推动机器人技术发RT-2提出了VLA模型，openVLA也同样具有里程碑意义，因为他开源了通用机器人VLA模型和训练代码。 2025年来看，VLA将长链式的端到端VLA系统拆分为视觉语言理解（VLM）与动作执行两个子模块，也正在成为一个重要探索方向。
5.4K36编辑于 2025-04-29
来自专栏遊俠扎彪
C语言C99标准中的变长数组(VLA)
该文介绍了在C语言C99标准中的变长数组（VLA）的相关知识，以及其在编译器中的实现和用法。具体包括变长数组在C语言中的定义和声明方式，以及其在编译器中的实现和用法。同时，还介绍了在GNU C下变长数组的使用和注意事项。
4.2K90发布于 2018-01-01
来自专栏GPUS开发者
LeRobot 新作 X-VLA：机器人界的通用基础模型来了
LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型（VLA）赋能开发者社区的使命，而 X-VLA 的推出，正是这一使命的重要落地。近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA，作为首个基于软提示（Soft-Prompt）的跨载体视觉 - 语言 - 动作机器人基础模型，它真正实现了 “一个模型适配任意机器人而 X-VLA 从大模型的提示学习（Prompt Learning）和元学习（Meta-Learning）中汲取灵感，提出了全新的解决方案：让 VLA 模型像 LLM 学习不同任务一样，通过 “提示 X-VLA 的核心创新：软提示解锁跨载体通用能力 X-VLA 是一个基于软提示、融合流匹配（Flow-Matching）的 VLA 框架，其核心设计是将每一种机器人硬件配置视为一个 “任务”，用一组可学习的嵌入向量 VLA 赋能社区的使命。
75110编辑于 2026-03-02
AerialVLA：用VLA模型实现无人机端到端视觉-语言导航
AerialVLA的设计目标是同时移除这两个依赖，用一个统一的VLA模型完成从感知到动作的端到端映射。这说明端到端VLA模型在泛化能力上具有明显优势。作为参考，人类操作者在Seen场景中的SR为94.51%，SPL为77.84%。五、总结与思考AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径：通过极简视觉输入、模糊方向提示和数值标记化三个设计，移除了对oracle引导和外部检测器的依赖，在Unseen 极简输入的启示：5视图反而不如2视图，在训练数据有限（420,000帧）时更多视角带来的信息增量不足以抵消过拟合风险，对其他VLA任务的视觉输入设计有参考价值。
36510编辑于 2026-04-03
来自专栏机器之心
全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷
这篇文章就是要带你一起看看，我们是如何用 RoboVLMs 解锁 VLA 的无限可能！四大灵魂拷问：RoboVLMs 是怎么炼成的？我们围绕四个关键问题，对 VLA 的设计展开了深度探索，下面就带你看看答案！ 1. 为什么要用 VLA 模型？简单说，通过实验，我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务，还能在陌生场景中稳稳发挥。怎么设计一个靠谱的 VLA 架构？这里面讲究可不少！比如：动作空间：用连续动作空间比离散的好很多。历史信息：加多步历史信息后，模型的操作更稳准狠。这些结论为未来 VLA 模型的训练策略指明了方向。
44510编辑于 2025-02-03
来自专栏一点人工一点智能
清华团队新模型UP-VLA实现视觉-语言-动作三重突破
研究背景引言构建了UP-VLA研究的理论基础和问题背景，系统性地阐述了当前VLA模型研究的发展现状与核心挑战。文章开篇即指出，构建能够在开放环境中解决多任务的VLA模型已成为机器人研究的核心方向。 UP-VLA的创新点在于重新思考了VLA模型的预训练方法，突破了传统视觉语言预训练仅关注高层次语义信息的局限。作者特别对比了与3D-VLA工作的异同——虽然都探索了多模态理解与生成的协同训练，但3D-VLA主要关注3D信息的引入并使用独立的扩散模型进行生成，而UP-VLA则采用统一模型处理多模态输入，重点解决VLA 对于未见过的物体抓取任务，UP-VLA-RT-2优于UP-VLA-phi-w/o-mmu，说明多模态理解有助于语义泛化能力。UP-VLA表现最佳，证明其能有效对齐多模态理解与物体和动作。在需要精确操作的任务（如布线、抓取小物体）中，UP-VLA-phi-w/o-mmu优于UP-VLA-RT-2，而UP-VLA表现最优，表明未来视觉预测的整合确实增强了VLA对物理空间和细节的理解能力。
51310编辑于 2025-08-11
来自专栏机器之心
全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔
一、为什么VLA+RL很重要图注：VLA模型依赖研读微调在具身智能（Embodied AI）领域，科学家们正在尝试将强大的视觉-语言模型（VLM）应用到机器人的底层控制中，这就是所谓的VLA模型。三、星动纪元 iRe-VLA 最先突破 VLA 强化学习困境，也是 π*0.6 的引用来源对于VLA的强化学习困境，行业内其实有三种类型的解决方案：第一种：外挂式干预：一些尝试不敢轻易触碰庞大的 VLA 这种方法虽然安全，但 VLA没有真正发生质变。第二种：暴力美学：以 VLAC 为代表的工作尝试直接用 PPO 等算法全量微调 VLA。我们来看下 iRe-VLA。图注：该架构的优点国内的星动纪元的iRe-VLA 的基础上，海外的PI π*0.6，都为我们揭示出了VLA在线强化学习技术的发展前景。
50710编辑于 2025-12-18
来自专栏机器之心
效率提升25%，灵巧操作数采困境被「臂-手共享自主框架」解决
Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1] 触觉增强的 DexGrasp-VLA 机械臂系统高效地采集高质量的演示数据，以训练出具备通用操作能力的 VLA 策略。核心策略: DexGrasp-VLA，打造共享自主框架的基石 DexGrasp-VLA 是一个专为灵巧手设计的自主抓取策略，是本文共享自主框架的基石。 Tactile-based DexGrasp-VLA for hand control [1] 在杂乱桌面场景中使用 DexGrasp-VLA 进行清桌操作。 2. Autonomous Hand VLA Policy for Efficient Data Collection.
32010编辑于 2025-12-18
来自专栏机器之心
刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化
SOP：让机器人实现在真实世界中的分布式持续学习在过去几年里，基于互联网海量数据预训练的 VLA（视觉 - 语言 - 动作）模型，虽然赋予了机器人一定的通用泛化能力，但始终面临一个难以逾越的鸿沟：「懂它将 VLA 的后训练从「单机单打独斗」转变为「在线、集群、并行」的集团军作战。形象地说，SOP 构建了一个「多机平行现实 → 云端集中学习 → 模型即时回流」的超级闭环。分布式机器人队伍：构建「平行现实」在 SOP 架构下，不再是一台机器人在苦苦探索，而是多台机器人组成集群，共享同一个 VLA 策略。破解灾难性遗忘：泛化与精度的共存传统的单机在线训练往往面临一个两难：为了精通某项任务（如叠衣服），模型很容易退化成只懂这一件事的专家，丧失了通用的 VLA 能力。因为它是在更广阔的分布中同时进行多任务学习，而非按顺序一个个学，从而确保了 VLA 的通用性不会因针对某一任务的性能提升而受损。
25810编辑于 2026-01-12
来自专栏一点人工一点智能
MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
另一方面，近年来发展的视觉-语言-动作（VLA）模型在各种操纵任务中展现了出色的泛化性能。当前最前沿的VLA模型可以直接根据RGB图像输出7自由度的末端执行器动作，无需依赖预测的对象类别和姿态。 OpenVLA探索了视觉编码器对VLA模型性能的影响，通过组合不同的基础模型组件实现了满意的表现。这种双层优化策略不仅提高了轨迹生成的效率，还使得原本专为固定基座设计的VLA模型能够适应移动操纵的需求。为了微调现成的VLA模型以弥合跨实体差距，研究人员收集了基于OVMM提供的启发式基线的移动操纵专家轨迹。特别是在拾取成功率方面，得益于预训练VLA模型的强大泛化能力，MoManipVLA比SOTA方法高出12.4%，这证明了所提出方法能有效迁移预训练VLA模型策略至移动操纵任务中。
55710编辑于 2025-03-27
来自专栏机器之心
北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作
Fast-in-slow VLA (如何在慢系统中分化出执行模块) FiS-VLA 提出一种创新结构，将 VLM 的末端几层 Transformer 模块直接重构为系统 1 执行模块，嵌入原有系统 2 借鉴 “动作块化” 的方法，FiS-VLA 认识到在时间步 t 的输入可以为未来若干步的动作生成提供指导，因此 FiS-VLA 将系统 2 的中间层输出作为一个潜在的条件信号，为接下来的 H 步系统 1 在训练阶段，FiS-VLA 采用异步采样的方式控制系统 2 的运行频率，使得系统 1 能够保持动作生成过程的时间一致性。另外，FiS-VLA 采用异构模态输入设计。由于系统 1 与系统 2 在职责上存在根本差异，FiS-VLA 为其设计了异构的输入模态。 3.FiS-VLA 双系统协同训练：系统 1 以扩散建模为核心，注入带噪动作作为训练变量，实现连续性动作生成；系统 2 则采用自回归预测保留推理能力，这两个训练目标联合优化 FiS-VLA。
39400编辑于 2025-07-12
来自专栏防止网络攻击
C++构造函数初始化列表
例如 VS/VC 不支持变长数组（数组长度不能是变量），我们自己定义了一个 VLA 类，用于模拟变长数组，请看下面的代码： class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; //必须使用初始化列表来初始化 m_len VLA::VLA(int len): m_len(len){ m_arr = new int[len]; } VLA 类包含了两个成员变量，m_len 和 m_arr 指针，需要注意的是 m_len 加了 const 修饰，只能使用初始化列表的方式赋值，如果写作下面的形式是错误的： class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; VLA::VLA(int len){ m_len =
71240编辑于 2023-10-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

开创VLA的那帮人，正在抛弃VLA

VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密

浅析变长数组(VLA)和动态数组

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

CogACT：一种新的VLA模型架构

VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化

自动驾驶VLA的过去、现在和未来

NaVILA：用于足式机器人导航的VLA模型

具身智能中VLA（视觉-语言-动作）技术论文解读

C语言C99标准中的变长数组(VLA)

LeRobot 新作 X-VLA：机器人界的通用基础模型来了

AerialVLA：用VLA模型实现无人机端到端视觉-语言导航

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

清华团队新模型UP-VLA实现视觉-语言-动作三重突破

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

效率提升25%，灵巧操作数采困境被「臂-手共享自主框架」解决

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移

北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

C++构造函数初始化列表

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐