Embodied Cognition and Radical Embodied Cognition(2) 具身认知与激进具身认知 https://uberty.org/wp-content/uploads 这种类似吉布森的对心理表征的怀疑或许是布鲁克斯早期工作中最(臭名昭著的)方面,但使布鲁克斯成为具身认知科学榜样的并不是他的反表征主义。相反,是他坚持认为智能必然是具身的。 智能的身体、脚手架化的环境、模糊的边界 鉴于对精神体操重要性的最小化,解释复杂、智能行为成为一个挑战。在具身认知科学中,一部分智能从大脑“卸载”到身体和环境中。 激进具身认知,主张2:具身认知应通过某一特定工具集 T加以解释,该工具集包含动力系统理论等。 因此,剩下来需要关注的是主张2与主张3。这两项主张共同构成了激进具身认知科学(radical embodied cognitive science)——即关于激进具身认知的科学。
在具身智能(Embodied AI)和物理智能(Physical AI)的前沿技术中,NVIDIA无疑占据了一个重要的位置。 2.从JetsonOrin到JetsonThor的演进: 最新的Jetson AGX Thor是专为物理AI和具身智能设计的高性能平台。 五、NVIDIA具身智能全栈闭环 NVIDIA具身智能技术的成功不仅仅依赖于单一的硬件或软件平台。 随着NVIDIA 具身智能平台 的不断发展,NVIDIA 已经不仅仅是 AI 算力的提供者,更成为 物理智能和具身智能革命的关键推动者。 未来,NVIDIA 将继续以其技术为基础,推动具身智能在更多行业的普及和发展。
具身智能核心技术概述 具身智能(Embodied Intelligence)强调智能体通过与物理环境的交互来学习和发展认知能力。其核心技术包括感知、决策、控制和多模态学习等模块。 __init__() self.visual_net = nn.Sequential( nn.Conv2d(3, 32, kernel_size=3), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(32, 64, kernel_size=3), nn.ReLU forward(self, visual_input, tactile_input): visual_feat = self.visual_net(visual_input).mean(dim=[2,3 import PPO from stable_baselines3.common.env_util import make_vec_env env = make_vec_env("PandaReach-v2"
具身智能的落地案例分析 具身智能(Embodied Intelligence)强调智能体通过与物理环境的交互来学习,近年已从实验室逐步走向实际应用。以下为典型落地案例: 1. 2. 家庭服务机器人 iRobot Roomba系列扫地机器人采用碰撞传感器与路径规划算法,实现自适应清洁。 = self.slam.update(self.current_pose) path = self.planner.plan(grid_map, self.current_pose[:2] _move_to_waypoint(waypoint) self.current_pose[:2] = waypoint 家庭服务机器人模块(多模态感知) import rospy 关键算法模块采用C++加速(如使用Eigen库进行矩阵运算) 安全机制 硬件急停回路与软件看门狗双冗余设计 ISO 13849标准下的PLd级安全认证实现 以上案例与代码展示了具身智能在感知-决策-执行闭环中的典型实现方式
随后,我们深入分析四大核心研究方向:1)具身感知,2)具身交互,3)具身智能体,4)仿真到现实的迁移,涵盖最先进方法、关键范式及综合性数据集。 本综述其余部分结构如下:第2节介绍具身机器人;第3节描述通用与真实场景仿真平台;第4节介绍具身感知,包括主动视觉感知与视觉语言导航;第5节介绍具身交互;第6节介绍具身智能体,包括具身多模态基础模型与具身任务规划 Matterport3D [53] 作为基础性的2D-3D视觉数据集,被广泛应用于具身人工智能基准测试并不断扩展。 在R2R中,具身智能体根据逐步指令,基于视觉观测选择下一个相邻导航图节点,直至抵达目标位置。 要完成一项任务,具身智能体通常需经历以下过程:1)将抽象复杂的任务分解为具体子任务,称为高层具身任务规划;2)通过有效利用具身感知与具身交互模型,或借助基础模型的策略功能,逐步执行这些子任务,称为低层具身动作规划
具身智能(Embodied AI)指的是拥有物理形态的人工智能系统,这些系统能够在真实的物理环境中进行学习和操作,与周围世界实现动态交互。 相对于数字环境的AI,这项能力对于需要与物理世界亲密接触的具身智能来说显得更为重要。 而这对于接下来具身智能对世界的理解与交互来说,是非常重要的基础工作。 不管哪种方式,对于具身智能这项复杂工程,都是有益且必要的。随着技术的发展和市场的变化,开源与闭源之间的界限也在逐渐变得模糊,未来可能会出现更多结合两者优点的混合模式,共同解决具身智能这一多学科难题。 总的来说,要实现具身智能,还需要做大量的工作。“没有灵魂的躯体是一具行尸走肉,没有躯体的灵魂是一缕虚无幽灵。”在具身智能的发展过程中,具身和智能缺一不可,且需要达到高度的有机结合。
AI科技评论:在您看来,智能体与具身智能之间有什么联系? 芮勇:我认为,智能体是一个统筹的概念。智能体基于大模型而又超越于大模型,智能体同时也是离身智能和具身智能的基础。 在数字空间的智能体,我们一般称为离身智能(Disembodied AI);存在于物理空间的智能体就是具身智能(Embodied AI)。具身智能包括在机器人方向的具身智能,也包括了车和其他设备。 此外,比如同样是对知识库和工具库的调用,离身智能和具身智能所调用的库是完全不一样的。 AI科技评论:您认为具身智能最适合的载体是什么样的? AI科技评论:从某种意义上来说,具身智能因为具有和物理环境进行交互的特点,应该是更高级的一种智能形态,您如何看待具身智能和 AGI 之间的关系? 芮勇:我觉得 AGI 跟离身智能、具身智能都有关系。 芮勇:就像刚才谈到的,从小模型到大模型,大模型再到智能体,智能体包括离身智能、具身智能,这一发展脉络还是挺清晰的,所以我不觉得具身智能会是昙花一现,现在具身智能确实是一个主流的研究方向。
本期为《仲夏六日谈》第三季第一期节目文字内容,主题为《具身智能:信仰还是FOMO?》。十大看点:·具身智能会昙花一现吗?·AIGC下“具身智能”有哪些特别之处?·机器人为什么也要有“大脑、小脑”? 关于具身智能,大家说得比较多的一点是,必然得通过具身智能才有可能达到AGI这一步。 张恒第:具身智能这个词,其实是近两年才出现的。有一年,英伟达的黄仁勋突然把具身智能这个词提出来了。 没有那么大的区别,真正的区别可能还是在大脑里,所以我觉得,现在的具身智能和以前的具身智能之间最大的区别是大脑和身体的强绑定。 但具身智能怎么办?离具身智能最近的一个解决方案可能是自动驾驶。
它首次实现了秀丽线虫神经系统、身体与环境的闭环仿真,不仅填补生物智能模拟领域空白,还为具身智能发展和AI实际应用开辟了全新路径。 这一工作不仅为研究生物智能提供了新的平台,也为具身智能理论的进一步发展和人工智能领域的应用奠定了基础。 BAAIWorm GitHub地址: https://github.com/Jessie940611/BAAIWorm BAAIWorm天宝对于具身智能研究的意义 近年来,随着神经科学和人工智能技术的深度交叉融合 ,研究者们越来越多地尝试通过构建生物体模型来理解神经系统与行为之间的关系,并推动具身智能的研究。 生物智能无疑是人工智能研究的源头。BAAIWorm天宝通过高精度还原和模拟生物智能,为理解和探索生物启发的具身智能的核心机制提供了重要的实验平台。
如果具身智能领域会出现一个 OpenAI 级别的公司,我觉得 Physical Intelligence 是目前最接近的 10 亿美元融资,56 亿美元估值,18 个月发了 11 篇研究,已经有客户在用他们的模型做真实业务 融资速度:20 个月,10 亿美元 PI 的融资节奏可能是具身智能领域最快的: • 2024.03 种子轮 7000 万美元(Thrive Capital、OpenAI、Lux Capital) • 2024.11 这条进化链让我想到 OpenAI 从 GPT-2 到 GPT-4 的路径。每一步都踩在前一步的基础上,突破一个具体瓶颈,不断扩大模型的能力边界。 写在最后 豪斯曼说过一句话:核心挑战不是机械设计,是智能。 大部分机器人公司把精力花在腿怎么走、手怎么抓上面。PI 赌的是另一条路:只要大脑够聪明,身体是谁的都行。 这个赌注能不能最终成立?我不确定。
特斯拉推出的Optimus Gen - 2,凭借其多模态感知技术,成为了这场变革中的焦点,为机器人具身智能的发展开辟了全新道路。 Optimus Gen - 2配备了多种先进的传感器,其中摄像头是其视觉感知的关键。 通过对视觉信息的处理,Optimus Gen - 2可以在复杂的环境中自如行走,精准避开障碍物,就像我们在熙熙攘攘的街道上轻松穿梭一样。 而Optimus Gen - 2借助多模态感知技术,能够快速适应不同的场景。 这种自主学习和决策能力,是具身智能发展的重要标志,使机器人能够在不断变化的环境中持续进化。特斯拉Optimus Gen - 2的出现,让我们看到了多模态感知技术在推动机器人具身智能发展方面的巨大潜力。
随着大模型技术的进步,具身智能也迎来了快速的发展。同时,具身智能也还存在诸多挑战,核心挑战在于具身操作泛化能力,即如何在有限具身数据下,使机器人适应复杂场景并实现技能高效迁移。 实验表明,方案在数据效率和泛化能力方面表现卓越,这是业内首个基于数据驱动的具身大模型原子技能库构建框架,也是首个面向具身产业应用的数据采集新范式,形成数据标准,解决当前具身智能数据缺乏困境,尤其是高校与产业之间数据和范式的流动 研究背景具身智能,即具身人工智能,在生成式 AI 时代迎来重要突破。通过跨模态融合,将文本、图像、语音等数据映射到统一的语义向量空间,为具身智能技术发展提供新契机。 小结团队提出的一种基于三轮数据驱动的原子技能库构建框架,旨在解决传统端到端具身操作策略带来的“数据爆炸”问题,为具身智能产业应用提供创新解决方案。 希望此项工作能够为行业提供重要启示,促进学术界与产业界的深度合作,加速具身智能技术的实际应用。我们诚挚邀请有兴趣的合作伙伴,与我们一起探索具身智能的未来。
H2行业应用馆: 聚焦「智慧城市」「智能驾驶」「新型工业化」「民生普惠」四大行业应用。 H3智能终端馆: 聚焦「具身智能」 「机械制造」「 虚拟现实」 「智能硬件」等领域。 H3智能终端馆 除了AI,具备身形的智能体同样备受关注,我们所说的具身智能。 H3馆将带你进入一个赛博空间,感受来自2050的未来世界。 具身智能厂商:宇树、智元、国地中心等具身智能厂商、 智能眼镜:灵伴科技、XREAL、李未可等智能眼镜品牌、 AI+游戏:新智慧游戏、心影随形等 汇聚「具身智能」 「机械制造」「 虚拟现实」 「智能硬件」 赛博空间一:「具身智能」 人形机器人正在不断突破边界,成为人类新的伙伴。 北京人形 C110 国内首家具身智能软硬件全栈科技公司,聚焦具身智能机器人关键共性技术研发和生态建设,围绕通用机器人平台“天工”和通用具身智能平台“慧思开物”两大核心任务开展攻坚,致力于打造具有全球影响力的具身智能创新策源地和应用示范高地
我们的其中一个目标是通过引入先进的大模型来增加环境自适应能力和灵活性,致力满足具身智能机器人操作系统的的需求,并邀请对具身智能充满热情的你加入我们,共同推动开源事业。 欢迎你的加入,一起编写下一个具身智能里程碑应用。 tidybot.cs.princeton.edu/ ,代码在 https://github.com/jimmyyhwu/tidybot ,面试时会针对这方面内容进行提问,以考察态度和能力是否胜任 https://opencamp.cn/os2edu
1 具身智能概念介绍1.1 具身智能定义目前人工智能的进展,在诸多数据源和数据集(Youtube、Flickr、Facebook)、机器计算能力(CPU、GPU、TPU)的加持下,已经在CV、NLP上取得了许多任务 1.6 Embodied AI主要任务具身智能研究任务主要类型分别是视觉探索、视觉导航和具身QA。 2 具身智能技术路线Embodied AI:集成 环境理解、智能交互、认知推理、规划执行于一体的系统方案环境理解:CV领域中做了很多的相关工作。 3 具身智能落地项目3.1 具身智能操作系统3.1.1 ROS2机器人操作系统(Robot Operating System, ROS)自2007年诞生以来,已经极大地推动了机器人技术的发展。 3.1.3 ROS2和dora-rs对比3.2 具身智能应用项目之所以使用dora-rs:让机器人程序的构建更加的简单,不需要c或者C++对底层进行开发,只需要使用python进行构建即可。
编辑:陈萍萍的公主@一点人工一点智能 横跨2012–2025年,把计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)、大语言/多模态模型(LLMs/MLLMs)以及世界模型(WMs)五条技术线的里程碑工作放在同一条时间轴上 ,直观呈现它们如何交替推动具身智能从“单模块感知”走向“多模态-物理-语义”统一体。 下面按时间顺序对图中出现的30个核心模型逐一给出技术要点与在具身智能中的角色。 NLP模型(黄色) RL模型(绿色) LLMs/MLLMs(靛蓝色) World Models(蓝色) 此图用一张“地铁线路图”式的时间轴,把原本碎片化的 30 余个里程碑串成五条“技术快线”,帮助初入具身智能的研究者一眼看清
没有真实世界的数据 具身智能只能是幻觉 过去几年具身智能硬件的进步堪称惊人。双足行走、关节扭矩控制、电机响应速度、传感器精度……宇树、智元、特斯拉等玩家已经将工程能力推到了一个新高度。 当人们谈到具身智能的时候,往往只把焦点放在那个漂亮的外形上。事实上,除了本体,具身智能还需要三大核心要素:数据、模型与场景。 其中,数据尤为关键。它直接决定了智能能不能“涌现”,能力能不能“泛化”。 近日,记者参访了海天瑞声位于北京的一处具身智能数据训练中心,这里地处繁华地段,整栋写字楼里,有好几层都专门用于具身智能数据采集。 2024年,国内首个具身智能数据行业标准——《人工智能 具身智能数据采集规范》发布。首次为物理交互数据的格式、质量与安全提供了指导性框架。这意味着,“数据标准化”已上升为顶层战略。 从建设主体看,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,具身智能数据开发生态向纵深发展。 在国家级层面,“2+N”的数据生产体系正在成型。
https://arxiv.org/pdf/2503.11117v3 摘要 具身问答(Embodied Question Answering, EQA)是具身智能领域中一项极具挑战性的任务,要求智能体在三维环境中动态探索 1 引言 具身问答(Embodied Question Answering, EQA)是计算机视觉、自然语言处理与具身智能交叉领域的一项核心挑战。 为全面评估具身智能体的探索能力,我们构建了大规模基准数据集 EXPRESS-Bench,包含 777 条探索轨迹和 2,044 个问题-轨迹配对,在覆盖范围上优于 OpenEQA(如表1所示)。 用于具身智能体的大模型 大模型强大的推理与泛化能力推动了其在具身任务中的广泛应用,例如视觉-语言导航 [25, 26, 46] 和具身操作 [18, 38, 40]。 同时,我们也展示了配备探索能力的智能体在效率和导航性能方面的表现。 5.1 基线 我们在零样本设置中比较各种模型,包括1)盲LLMs,2)具身模型,3)多帧VLMs,4)探索代理,和5)人类表现。
编辑:陈萍萍的公主@一点人工一点智能 论文链接:https://www.mdpi.com/1424-8220/25/3/852 引言 具身抓取是机器人执行物理交互任务的核心基础。 本文从具身基础、具身感知、具身策略和具身Agent四个维度系统梳理了最新进展。引言部分强调了预训练模型如何通过大规模数据学习先验知识,帮助机器人理解环境意图并提升动态环境下的自适应能力。 这些技术突破为机器人抓取的智能化奠定了基础。 具身基础 具身基础部分系统总结了机器人硬件平台、仿真环境、数据集和采集方法。 具身感知 具身感知聚焦于机器人通过视觉传感器理解环境并预测抓取姿态。早期研究局限于2D姿态检测(3自由度),而当前主流方法转向6自由度抓取,结合深度信息与点云处理提升精度。 结论 本文系统综述了预训练模型在具身抓取中的应用,从基础平台到高层策略均展现了显著进展。预训练模型通过先验知识注入,解决了数据稀缺与泛化难题,推动了机器人抓取的智能化。
传统具身智能的决策困境,恰似盲人摸象。智能体依赖传感器捕捉环境信息,却常因信息碎片化陷入“只见树木不见森林”的困局。 双向映射重塑具身智能决策逻辑的核心,在于构建了“预测 - 验证 - 进化”的闭环体系。 这种循环迭代,使得智能体的决策能力如同被精密打磨的利刃,在虚实交互中不断进化。就像围棋选手通过复盘优化策略,具身智能在双向映射中实现了决策智慧的持续生长。在复杂场景中,双向映射更显独特价值。 例如,在智能交通系统中,车辆数据的双向传输若遭遇黑客攻击,不仅会导致个体决策失误,甚至可能引发系统性崩溃;而孪生模型的参数若未能及时校准,虚拟世界的推演将逐渐偏离现实,误导智能体决策。 当数字孪生与物理实体的双向映射成为具身智能的“数字基因”,智能体将不再是机械执行指令的工具,而是拥有深度环境理解与动态决策能力的“数字生命体”。