Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. 9万次增加到25.2万次;另外在训练阶段渐进增长分辨率和视频长度,从16帧256x256 到 64 帧 384x384。
由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型:世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界的世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型,然后在这个世界模型中学习如何行动训练策略。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。 总结 通过两篇文章简单介绍了世界模型,可以看到世界模型通往AGI的核心跃迁: 从“理解”到“生成” JEPA学习世界的抽象规律,在潜在空间中捕捉结构与因果。
模块中的交叉验证相关方法可以评估模型的泛化能力,能够有效避免过度拟合。 二,分类模型的评估 模型分类效果全部信息: confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果: accuracy 正确率。通用分类评估指标。 模型对某种类别的分类效果: precision 精确率,也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率,也叫查全率。模型识别出全部正样本的能力。 三,回归模型的评估 回归模型最常用的评估指标有: r2_score(r方,拟合优度,可决系数) explained_variance_score(解释方差得分) ? ? 留出法 为了解决过拟合问题,常见的方法将数据分为训练集和测试集,用训练集去训练模型的参数,用测试集去测试训练后模型的表现。
为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 deepmind.google/research/publications/60474/ [8] Imagen 3:https://deepmind.google/technologies/imagen-3/ [9]
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
乙说:“全能就是世界上任何事都能办到。请问:上帝能创造出一个对手来击败他自己吗?”如果说能,则上帝可以被对手击败,并非全能的;如果说不能,则说明上帝并非是全能的。 2. 9. 黄油猫悖论 黄油猫悖论(英文:Buttered cat paradox),是把两种民间常识组合而成的恶搞悖论,该常识为: (1) 猫在半空中跳下,永远用脚着陆。
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
[9e58334d97604224a8a034141f7648fe? [8f81e740337f4099a280da7f8a66f0e9? [fc8aab51ed8f4ca6bb9dd957a6d1153f? 3.4、合适的线程模型: I/O 多路复用模型同时监听客户端连接,多线程是需要上下文切换的,对于内存数据库来说这点很致命。 [892f2d2341844f449402d6087995fb0f? 4.5、脑裂 [f524f9f7a05e47dfb3583fe036d91cd3?
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。
我们如何推进世界模型世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。 Project Genie的工作原理Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用,允许用户亲身体验我们世界模型的沉浸式能力。 由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差,或在控制时经历较高延迟。 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。 基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型。
世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。 所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…这篇论文最重要的结论就是,大型语言模型 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭
DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,直接翻译为 维度扩展的 9 个相交模型,本文记录相关内容。 简介 DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,DE-9IM 模型是用于描述两个 二维几何对象(点、线、面) 之间的空间关系的一种模型 维度扩展九交模型(DE-9IM)是一种拓扑模型和标准,用于描述两个区域(二维中的两个几何图形,R2)的空间关系,在几何学、点集拓扑、地理空间拓扑、以及与计算机空间分析相关的领域。 空间关系 模型主要要描述的就是二维平面下的两个几何对象之间的空间关系。 DE-9IM 模型 DE-9IM 模型把几何对象分为 内部、边界、外部 三个部分,两个几何对象这三个部分两两之间的关系,就可以组合为一个3X3大小(就是 9 个值)的矩阵,这9个值的组合,就表示两个几何对象的空间关系
根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好 世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致,自由能还有更多的理论扩展及案例应用, 对反事实后果有信念的理论AI模型 通过想象产生焦虑的AI模型 现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理: 自由能公式3 参数学习 自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型 主动推理 与 信念-愿望-意图 (BDI) 复杂推理模型,信念的信念 Active inference on discrete state-spaces: A synthesis 图表:
github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 文章首发于我的个人博客: www.how2playlife.com 本文是微信公众号【Java技术江湖】的《走进JavaWeb技术世界
机器之心报道 机器之心编辑部 现实世界版的 Genie-2? 最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。 上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划》。 只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。 然后,该模型根据智能体的视角生成下一个世界状态。 下图 9 中包含了左右优先约束下的规划轨迹案例。 使用导航世界模型进行排序。NWM 可以增强目标条件导航中已有的导航策略。
github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 文章首发于我的个人博客: www.how2playlife.com 本文是微信公众号【Java技术江湖】的《走进JavaWeb技术世界