Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 什么是世界模型在强化学习与智能体研究中,“世界模型”最早是由 Ha & Schmidhuber 在world models论文中提出:世界模型是通过学习,对环境的状态进行压缩表示,并预测这些状态之间如何随时间变化的模型 世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2.
由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型:世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界的世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型,然后在这个世界模型中学习如何行动训练策略。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。 总结 通过两篇文章简单介绍了世界模型,可以看到世界模型通往AGI的核心跃迁: 从“理解”到“生成” JEPA学习世界的抽象规律,在潜在空间中捕捉结构与因果。
为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。
世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。 所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…这篇论文最重要的结论就是,大型语言模型 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭
根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好 世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致,自由能还有更多的理论扩展及案例应用, 对反事实后果有信念的理论AI模型 通过想象产生焦虑的AI模型 现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理: 自由能公式3 参数学习 自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型 主动推理 与 信念-愿望-意图 (BDI) 复杂推理模型,信念的信念 Active inference on discrete state-spaces: A synthesis 图表:
机器之心报道 机器之心编辑部 现实世界版的 Genie-2? 最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。 继 World Labs(李飞飞)、谷歌 DeepMind 接连发布自己的世界模型研究之后,Meta FAIR 的 Yann LeCun 团队也加入了战场,也在同一周之内发布了导航世界模型(Navigation 上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划》。 只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。 然后,该模型根据智能体的视角生成下一个世界状态。
“大语言模型是基础,世界模型是途径,自主智能才是AI的终极奥义。 从语言到世界:AI理解的边界在延伸 如果说大语言模型让AI学会了理解语言,那么世界模型的出现,则意味着AI开始尝试理解世界。 Sora、V-JEPA与Genie,分别代表了世界模型演化的三个方向,生成世界、理解世界、参与世界。三者几乎出现在同一时间节点,共同组成了世界模型认知层面的突破。 这些系统共同指向一个趋势,世界模型正在从虚拟场景走向真实世界,从“认知世界”转向“执行世界”。 总之,世界模型是算法从符号空间步入物理现实的通道。大语言模型构建了AI的语义基础,世界模型打开了AI的行动途径,目标是智能的真正落地。
作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 这几年,还出现了许多其他的模型,每个竞争对手都提供了独到的功能和优点。本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。 本文最初发布于 Analytics Vidhya。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 这几年,还出现了许多其他的模型,每个竞争对手都提供了独到的功能和优点。以下是 ChatGPT 的竞争对手中几个最突出的模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型。
alphazero 代码实现: https://github.com/AppliedDataSciencePartners/DeepReinforcementLearning A replica of
积极的自我模型是一种功能状态,在有意识的意识水平下运作,并具有特定的因果作用。这种过程的运作产生了一种以自我为中心的、前瞻性的体验,这种体验是针对对象的,并允许与外部世界进行交互。 在这种方法中,就像获胜的假设模型一样,大脑利用一个生成模型,该模型具有一组关于什么可能导致内感受性感觉信号的先验信念。野兽机器方法突出了对具体化行动的意识体验的贡献,即有意地移动身体。 3.2.4生成纠缠 生成纠缠是一种试图通过诉诸大脑构建生成模型来解释意识的理论,该模型混合了关于世界状态、身体状态和我们反应性倾向的预测(Clark,2019;克拉克、弗里斯顿和威尔金森,2019年)。 根据生成纠缠模型,我们所体验的感受性是捕捉和预测感觉流中有用模式的首选潜在变量;也就是说,一个quale的体验是一个“我是这样感觉的”的假设它们源于深层的生成纠缠,这种纠缠将关于世界客观特征的信息与关于我们自己的生理状态 世界原因的生成模型的深度和广度,那些基于生成模型的预测通过一系列内感受和本体感受信息的持续变化,以及高级认知者模拟他们自己和他们自己的反应倾向的能力,都在意识的构成中起着关键作用。
OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解 这种模型在机器人领域(包括自动驾驶)中非常常见,它们通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成。 Sora的名称源于日文“空”(そらsora),以示其无限的创造潜力。 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。
编辑:润 好困 【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。 但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。 研究人员认为视频生成对于物理世界的意义就如同语言模型对于数字世界的意义。 ,为大型视觉模型、行为模型和世界模型引入了互联网规模的监督,从而可以提取动作、模拟环境交互和优化决策。 值得注意的是,在这种情况下,模型既可以作为世界模型,也可以作为行动策略。
让我们来看看一些不同类型的 DAO 和它们的贡献模式,这样你就可以在 web3 的世界里开始工作了! 赠款和项目资金 最突出的 DAO 类型之一,至少在资金方面,是投资 DAO。 Gitcoin 允许世界上任何一个人申请资助,只要该项目专注于公共产品(如开源软件、开发环境等)。