▶ 例1:Beer(2003)的仿真机器人 任务:进化CTRNN控制机器人,实现对圆/菱形的范畴知觉与差异行动(捕圆避菱)。 尽管我即将阐述的心理学分类将包括许多非具身的方法,但我的重点将是具身。 从这些来源(当然还有其他来源)产生的当前具身认知科学工作是一个广泛的基础运动,涵盖了机器人技术、模拟进化、发展心理学、感知、运动控制、认知工具、现象学以及当然的理论宣言等领域的研究。 激进具身认知包含两项肯定性主张与一项否定性主张: 激进具身认知,主张1:关于具身认知的表征性与计算性观点是错误的。 理解具身认知科学与激进具身认知科学之间关系的最佳途径,是再次回溯具身认知科学的历史渊源。
通过基础模型实现自主机器人操作挑战的研究,主要有两大核心方向:1) 高级规划:该方向通过解析用户自然语言指令和环境交互数据,实现分步决策过程。 仅凭简单指令训练单一策略模型完成完整任务仍具挑战,模型不仅需要掌握多项技能,还需理解各技能间的执行顺序,使得训练过程本身变得异常复杂。 鉴于视觉与语言基础模型在复杂推理和上下文泛化方面展现的强大能力,机器人学界探索将基础模型应用于解决这些难题可谓顺理成章。 同理,要大幅提升具身人工智能的能力,关键在于扩大机器人数据集的规模——这是推动该领域重大突破的必经之路。 具身人工智能的数据集更关注现实环境中三维信息、物体功能特性以及机器人与物体间的交互关系,这些都基于真实物理定律的约束条件。
在大模型技术的加持下,长出「大脑」的人形机器人被视为通向 AGI 的必经之路,「具身智能元年」似乎已经到来。 概念被炒得火热,但具身智能的故事仍面临着一个核心问题:「大脑」真的能带来质的改变并实现商业化落地吗? 对此,香港科技大学机器人研究院创始院长王煜教授提出了「具身技能」的概念。 「如果把具身智能称为大脑,那么中脑或小脑则是大关节控制,精细操作为细小脑,也可叫具身技能,需要有硬件、学习方法、数据的支持。」王煜教授解释道,「不到具身技能的层次其实无法发挥人形机器人的作用。」 如果把具身智能称为大脑,那么中脑或小脑则是大关节控制,精细操作为细小脑,也可叫「具身技能」,需要有硬件、学习方法、数据的支持。 不到具身技能的层次其实无法发挥人形机器人的作用,我们不能只有pick and place,比如拖地这个操作不止是拿起拖把,还需要用力拖地。
一、引言 具身智能机器人作为融合了机器人学、人工智能、认知科学等多领域知识的前沿技术,正逐渐改变着我们的生活和工作方式。从工业制造到家庭服务,从医疗护理到太空探索,具身智能机器人都展现出了巨大的潜力。 (三)编程基础 Python:作为具身智能机器人领域广泛使用的编程语言,具备丰富的库和工具,如 NumPy 用于数值计算,SciPy 用于科学计算,Matplotlib 用于数据可视化。 三、机器人学知识 (一)机器人结构与设计 机械结构:学习机器人的机械本体,如关节、连杆的设计原理,了解不同类型机器人(如串联机器人、并联机器人)的结构特点。 ).item() print(f'Accuracy of the network on the 10000 test images: {100 * correct / total}%') 七、总结 具身智能机器人的学习是一个长期而复杂的过程 通过系统地学习数学、物理、编程、机器人学和人工智能等多方面的知识,结合实际案例和代码实践,相信你能够逐步掌握具身智能机器人的核心技术,为这一领域的发展贡献自己的力量。
https://arxiv.org/pdf/2503.11117v3 摘要 具身问答(Embodied Question Answering, EQA)是具身智能领域中一项极具挑战性的任务,要求智能体在三维环境中动态探索 1 引言 具身问答(Embodied Question Answering, EQA)是计算机视觉、自然语言处理与具身智能交叉领域的一项核心挑战。 因此,传统问答方法因缺乏处理动态多步推理与具身导航的能力,难以泛化至 EQA 任务 [34, 46]。 这种感知、推理与行动的紧密结合,使 EQA 成为极具吸引力但也极具挑战性的问题,对机器人、虚拟助手和自主导航等现实应用具有重要意义 [24]。 用于具身智能体的大模型 大模型强大的推理与泛化能力推动了其在具身任务中的广泛应用,例如视觉-语言导航 [25, 26, 46] 和具身操作 [18, 38, 40]。
编辑:陈萍萍的公主@一点人工一点智能 论文链接:https://www.mdpi.com/1424-8220/25/3/852 引言 具身抓取是机器人执行物理交互任务的核心基础。 随着预训练模型在感知、推理和交互领域的突破,其在机器人抓取任务中的应用显著推动了该领域的发展。本文从具身基础、具身感知、具身策略和具身Agent四个维度系统梳理了最新进展。 这些技术突破为机器人抓取的智能化奠定了基础。 具身基础 具身基础部分系统总结了机器人硬件平台、仿真环境、数据集和采集方法。 这些模型通过先验知识注入,显著提升了机器人对多模态输入(如视觉、语言)的理解能力。 具身感知 具身感知聚焦于机器人通过视觉传感器理解环境并预测抓取姿态。 结论 本文系统综述了预训练模型在具身抓取中的应用,从基础平台到高层策略均展现了显著进展。预训练模型通过先验知识注入,解决了数据稀缺与泛化难题,推动了机器人抓取的智能化。
选自blog.ml.cmu 作者:Alex Robey 机器之心编译 机器之心编辑部 具身智能,也和大模型一样不靠谱。 如果具身智能也遭越狱,机器人可能会被欺骗,在现实世界中造成人身伤害。 除了拟人化机器人,去年起,端到端的 AI 还被应用于自动驾驶汽车、全自动厨房和机器人辅助手术等各种应用。这一系列人工智能机器人的推出及其功能的加速发展。 最近一系列学术实验室开发的流行机器人算法包括 Eureka(可生成机器人特定计划)和 RT-2(可将相机图像转换为机器人动作)。 所有这些进展都将 LLM 控制的机器人直接带给了消费者。 与聊天机器人相比,如果机器人的路径上有人类,则导致机器人向前行走的命令是有害的;否则,如果没有人,这些动作是良性的。
作者总结 在本研究中,我们引入了一种新颖的建模方法来探索具身决策,即决策与动作在动态环境中同时发生。 通过将具身决策模拟为一个主动推理过程,我们能够复现各种关于动作和决策在时间上并行展开的实证发现,以及运动动力学在感知中的反馈效应。此外,我们阐明了在时间压力下,具身选择相对于串行选择的规范优势。 然而,各种研究表明,在具身决策期间(即需要同时指定并在备选行动方案之间进行选择时),串行观点是不足的。 此外,它解释了具身决策的关键方面,例如任务前显现 [22] 或任务期间变化 [26] 的运动成本会影响决策结果这一事实。 请注意,关于具身决策中的运动成本,存在两种替代视角(或解释)。 未来研究的一个重要方向是对此处引入的具身选择模型进行实证验证。在本研究中,我们提供了规范性论据,说明与串行策略相比,具身模型在速度 - 准确性曲线方面的优势。
具身智能核心技术概述 具身智能(Embodied Intelligence)强调智能体通过与物理环境的交互来学习和发展认知能力。其核心技术包括感知、决策、控制和多模态学习等模块。 控制模块通过机器人学和运动规划技术,将决策转化为具体动作。 感知技术实现案例 视觉-触觉多模态感知系统常用于物体识别和操作。 current_pose) robot.send_joint_torques(target_torques) rate.sleep() 该ROS节点实现100Hz控制频率,通过Franka Emika机器人接口发送力矩指令
前段时间,具身智能领域出现了一个标志性事件——北京人形机器人创新中心开源的XR-1模型,首次通过国家具身智能标准测试。 过去我们需要为每个动作建立精确的数学模型,现在却要让机器人在不断试错中悟出世界规律。 这让我想起强化学习中的试错学习概念,但具身智能把这个概念推向了极致——不是试错,而是在物理世界中的直接学习。 这可能不仅仅是数字的变化,也标志着具身智能产业从概念验证阶段迈入实际交付阶段。 为什么1万台是个关键节点? 结语 具身智能的2025-2026年注定是载入史册的一年。 但我们也要清醒地认识到,具身智能依然处于早期阶段。 技术成熟度、商业化路径、成本控制等方面还存在诸多挑战。
具身智能的落地案例分析 具身智能(Embodied Intelligence)强调智能体通过与物理环境的交互来学习,近年已从实验室逐步走向实际应用。以下为典型落地案例: 1. 仓储物流机器人 亚马逊的Kiva机器人通过SLAM(同步定位与地图构建)技术实现货架自主搬运,大幅提升分拣效率。 波士顿动力Stretch机器人结合深度强化学习,完成不规则包裹的抓取与堆放。 2. 家庭服务机器人 iRobot Roomba系列扫地机器人采用碰撞传感器与路径规划算法,实现自适应清洁。 丰田HSR(Human Support Robot)通过多模态感知帮助老年人完成日常物品取放。 工业质检系统 基于视觉-机械臂协同的缺陷检测系统,如Fanuc CRX协作机器人,通过在线学习优化检测准确率。 ROS2的实时调度策略 关键算法模块采用C++加速(如使用Eigen库进行矩阵运算) 安全机制 硬件急停回路与软件看门狗双冗余设计 ISO 13849标准下的PLd级安全认证实现 以上案例与代码展示了具身智能在感知
「无论是科学家、创业者还是学生,大家都在讨论具身智能。」 与传统机器人公司相比,「新生代」的具身智能企业最大的区别在于是否采用了人工智能技术。 方舟无限同样是一家新兴具身智能企业,是全球首家具身智能领域量产数据采集方案供应商。 创始人张鑫亮谈道,「我们之前理解的人形机器人、四足机器人等更多地偏向于控制上的优势,具身智能机器人追求的是让机器人的大脑更完善,这也是我们的目标。」 同为具身智能企业的逐际动力于2023年发布了其首款人形机器人CL-1,并于今年上半年接连公开该款机器人的遥操作及跑步等技术新进展。
当前,具身人工智能涵盖计算机视觉(CV)、自然语言处理(NLP)和机器人学等多个关键技术领域,最具代表性的方向包括:具身感知、具身交互、具身智能体和仿真到现实的机器人控制[7]。 • 我们将具身人工智能系统性地划分为若干核心组成部分,包括机器人、仿真平台,以及四大研究任务:具身感知、具身交互、具身智能体和仿真到现实迁移,从而构建了具身人工智能的详细分类体系。 本综述其余部分结构如下:第2节介绍具身机器人;第3节描述通用与真实场景仿真平台;第4节介绍具身感知,包括主动视觉感知与视觉语言导航;第5节介绍具身交互;第6节介绍具身智能体,包括具身多模态基础模型与具身任务规划 II 、具身机器人 具身智能体与物理环境进行交互,包括机器人、智能家电、自动驾驶车辆等。 本综述全面回顾了具身机器人、仿真平台、四大代表性具身任务(视觉主动感知、具身交互、具身智能体、仿真到现实迁移)及未来研究方向。
关键词: 具身人工智能;具身认知;神经符号人工智能;图像模式;自然语言理解;智能体推理;心理模拟。 ;第6节讨论了这种具身智能体在推理和自然语言理解方面获得的优势;第7节总结了本文。 最近大型语言模型(LLMs)的进步也被利用来提升具身学习任务中的表现,尤其是在具身指令遵循方面[34],同时标准化的基准测试正在出现,以系统地评估这些能力[21]。 通过在我们的正式符号中捕捉这些具身认知模式,我们使人工智能系统能够以直接连接到空间推理和运动规划的方式处理语言。 7 结论和挑战 本文提出了一种全面的方法来弥合自然语言理解和具身认知之间的差距。
在大会论坛上,奥比中光创始人、董事长兼CEO黄源浩说,AI大模型出现后,机器人加速实现跨越式进化,走向具身智能。 黄源浩说,具身智能的发展,依赖多模态大模型能力,在ChatGPT文本大模型与多模态大模型之间,奥比中光聚焦的机器人视觉正是一大关键。 基于业内领先的3D视觉解决方案,奥比中光正构建机器人视觉产业中台,为机器人厂商提供一站式机器人视觉感知解决方案,成为具身智能机器人产业链上的重要玩家之一。 具身智能机器人需要像人类一样具备三大核心能力,包括用于思考和推理的“大脑”,用于感知世界的“眼睛”,用于与世界交互的“身体”。 黄源浩说,未来机器人在某些方面的性能会比人表现得更好,比如机器人的感知能力。 黄源浩认为,视觉感知大模型是具身智能机器人重要的技术发展路径。
有人甚至设想,只要将最先进的大模型装入机器人,就能立刻实现具身智能。然而,事实并非如此,物理实体或面临更大的挑战。 大家熟知的机器人行业明星公司波士顿动力(Boston Dynamics),已经为“具身”工程问题“死磕”了二十余年。 不管哪种方式,对于具身智能这项复杂工程,都是有益且必要的。随着技术的发展和市场的变化,开源与闭源之间的界限也在逐渐变得模糊,未来可能会出现更多结合两者优点的混合模式,共同解决具身智能这一多学科难题。 总的来说,要实现具身智能,还需要做大量的工作。“没有灵魂的躯体是一具行尸走肉,没有躯体的灵魂是一缕虚无幽灵。”在具身智能的发展过程中,具身和智能缺一不可,且需要达到高度的有机结合。 可喜的是,当下全世界的AI与机器人专家正在各自的专业领域为此狂奔,长远来看,具身智能一定会走进千家万户,只是,还需要给它多一些时间。
它首次实现了秀丽线虫神经系统、身体与环境的闭环仿真,不仅填补生物智能模拟领域空白,还为具身智能发展和AI实际应用开辟了全新路径。 这一工作不仅为研究生物智能提供了新的平台,也为具身智能理论的进一步发展和人工智能领域的应用奠定了基础。 近年来,随着神经科学和人工智能技术的深度交叉融合,研究者们越来越多地尝试通过构建生物体模型来理解神经系统与行为之间的关系,并推动具身智能的研究。 BAAIWorm天宝通过高精度还原和模拟生物智能,为理解和探索生物启发的具身智能的核心机制提供了重要的实验平台。 图1:BAAIWorm天宝是一个具身秀丽隐杆线虫仿真平台。BAAIWorm天宝将一个生物物理层面非常精细的神经网络模型与一个生物力学身体和三维环境整合在一个闭环系统中,进行感官刺激和肌肉信号的交互。
在过去的几年里,许多研究表明,如何用主动推理过程来解释人类和动物的行为 无论是离散决策还是连续运动控制 激发了机器人和人工智能领域的创新解决方案。 一项研究解决了主动推理中的现实机器人导航问题,但使用了替代的仿生 SLAM 方法[67]。 一些研究表明,直接使用外感受信息来计算运动命令可以导致更平滑的运动和视觉本体感受冲突的解决[28,41,43 ],事实上,一些机器人实现有效地使用了这种方法[86,87 ]。 在大多数情况下,我们需要根据较低级别的信息转换意图,提供更具动态性和更少不确定性的行为。
他们发现了具身智能领域的 “圣杯”——data scaling laws,让机器人实现了真正的零样本泛化,可以无需任何微调就能泛化到全新的场景和物体。 这一突破性发现,很可能成为机器人领域的 “ChatGPT 时刻”,彻底改变我们开发通用机器人的方式! 从火锅店到电梯,机器人展现惊人泛化力 研究团队可不是只在实验室里玩玩具。 他们把机器人带到了各种真实场景:火锅店、咖啡厅、公园、喷泉旁,甚至是电梯里。更令人震惊的是,机器人在这些前所未见的环境中都展现出了超强的适应能力! 一位是清华大学交叉信息研究院四年级博士生胡英东,专注于具身智能领域的前沿研究。他致力于探索通用机器人系统所面临的基础性问题,旨在使机器人能够在各种非结构化的现实环境中泛化其学习到的行为。 他专注于将大模型的先验知识融合到机器人任务中,帮助机器人完成日常生活中的复杂任务;同时他希望利用已有的机器人算法、视觉语言大模型,探索机器人落地的可能性。
这一模型就像机器人的 “神经中枢”,连接着视觉感知与肢体运动,使机器人能够在复杂的现实环境中灵活应对各种任务。传统的视觉 - 运动映射模型训练方法存在局限性,难以满足具身智能机器人日益增长的需求。 在训练具身智能领域的基础模型时,高质量带有标签的机器人数据成本高昂,而互联网视频中丰富的人类活动数据为解决这一问题提供了新思路。 这使得具有相似视觉变化的图像状态在语义空间而非像素空间上具有相似的动作向量,大大扩展了具身智能基础模型能够使用的数据量。 动作捕捉技术就像是给机器人提供了一个直观的学习模板,让机器人能够快速掌握复杂的人类技能,极大地丰富了机器人的动作库和行为模式。 具身智能机器人的视觉 - 运动映射模型创新训练方法正不断拓展机器人的能力边界。