Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. 6. 总结本篇重点介绍了以 JEPA 系列 为代表的联合嵌入预测路线。这一流派强调:世界模型不必生成可见像素,而应在潜在空间中学习可预测、可泛化的高层结构,从而更高效地支撑理解、推理与规划。
由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型:世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界的世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型,然后在这个世界模型中学习如何行动训练策略。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。 总结 通过两篇文章简单介绍了世界模型,可以看到世界模型通往AGI的核心跃迁: 从“理解”到“生成” JEPA学习世界的抽象规律,在潜在空间中捕捉结构与因果。
为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 sima-generalist-ai-agent-for-3d-virtual-environments/ [5] 更通用的具身智能体的:https://arxiv.org/abs/2311.02462 [6]
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
它基于先进的扩散模型,能高保真地模拟复杂的移动网络环境,让网络优化告别现网实时交互,在虚拟世界中就能找到最优策略,为6G的智能进化铺平了道路。 摘要 随着6G时代的临近,移动网络正变得前所未有的复杂。 从OpenAI的视频生成模型Sora,到机器人和自动驾驶领域,世界模型已经展现出理解复杂世界并进行可控推演的强大能力,能够支持高保真的模拟、规划和实时决策。 通过将优化策略与网络配置输入到世界模型中,帮助模型准确学习“策略”与网络“世界状态”之间联合分布。 移动网络世界模型 = 模拟器? 相似,但不相同! 基于MobiWorld的节能优化效果 未来展望:构建更全面、高效的无线网络世界模型 尽管MobiWorld已经展现出巨大潜力,但这只是通往AI-native的6G网络的第一步。
这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。
在机器意识设计领域里,这是一种象征,一种潜能,一种非凡的洞察力,一种可以与源代码世界中万事万物交流的能力。” “这像是一个神话。” 托马斯道。 我以为没有记忆,她就不会知道我的存在,没有想到,这世界还真有类似于心灵感应一类的东西。
我们如何推进世界模型世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。 Project Genie的工作原理Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用,允许用户亲身体验我们世界模型的沉浸式能力。 由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差,或在控制时经历较高延迟。 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。 基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型。
redis 多线程架构 redis6之前的版本一直单线程方式解析命令、处理命令,这样的模式实现起来简单,但是无法使用多核CPU的优势,无法达到性能的极致;到了redis 6,redis6采用多线程模式来来读取和解析命令 ,但是命令的执行依然通过队列由主线程串行执行,多线程的好处是分离了命令的解析和命令执行,命令的解析有独立的IO线程进行,命令执行依旧有main线程执行,多线程增加了代码的复杂度 开启多线程模型 Redis.conf readQueryFromClient->processInputBuffer->processCommandAndResetClient->processCommand->call } } } //多线程模型初始化
他们是真正的建筑师,他们会模型化应用,各自负责提取组件,遵循格式和设计有效流。他们只是不会写代码。有时他们将太多的时 间花在了设计上,他们使用的是低效率的算法,废弃的功能,过时的库等等。 问题6:“无视模式” 当你进入一个已经拥有坚实基础的项目中,那么很可能它遵循某些规则和指引。因为通常情况下,开发人员要保证每个应用程序有一个约定,以使其易于阅读和理解。 总结 在编程世界中存在着许多问题。我们每个人都有着不同的技能,不同的能力和动力来源。我们应该互相沟通,共同解决问题,权衡利弊。学习是关键。自我发展应该永不止步。
世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 今年 6 月,Meta 发布 I-JEPA ,可以准确地分析和完成缺失的图像,被看做是探索世界模型的实践。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭
程序员世界常见的6个问题 我作为CTO已经有一段时间了。 他们是真正的建筑师,他们会模型化应用,各自负责提取组件,遵循格式和设计有效流。他们只是不会写代码。有时他们将太多的时间花在了设计上,他们使用的是低效率的算法,废弃的功能,过时的库等等。 问题6:“无视模式” 当你进入一个已经拥有坚实基础的项目中,那么很可能它遵循某些规则和指引。因为通常情况下,开发人员要保证每个应用程序有一个约定,以使其易于阅读和理解。 总结 在编程世界中存在着许多问题。我们每个人都有着不同的技能,不同的能力和动力来源。我们应该互相沟通,共同解决问题,权衡利弊。 学习是关键。自我发展应该永不止步。如果我们不这样做,就会归为坏程序员。
根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好 世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致,自由能还有更多的理论扩展及案例应用, 对反事实后果有信念的理论AI模型 通过想象产生焦虑的AI模型 现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理: 自由能公式3 参数学习 自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型 主动推理 与 信念-愿望-意图 (BDI) 复杂推理模型,信念的信念 Active inference on discrete state-spaces: A synthesis 图表:
机器之心报道 机器之心编辑部 现实世界版的 Genie-2? 最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。 上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划》。 只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。 然后,该模型根据智能体的视角生成下一个世界状态。 图 6 中的结果表明 NWM 输出的视频质量更高。 使用 NWM 执行规划 接下来的实验衡量了 NWM 执行导航的能力。 独立规划。实验表明,这个世界模型可以有效地独立执行目标导向的导航。
Thinkphp6(6)模型学习与知识总结(二) 上一次学习了模型,对模型有一点小认识,今天再来学习一下,我一开始是没有想到要学习模型,原因是CURD(增删改查)中很多可以用Db类在控制器中完成,其实模型有很多好东西的 COMMENT '删除时间', PRIMARY KEY (id) ) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8; 二、再建立一个模型 位字符型的数字以方便测试用的 public function numStr($num) { static $seed = array(0,1,2,3,4,5,6,7,8,9 第一步,你要在数据表中有一个字段是delete_time, 第二步要在模型中引入类:use think\model\concern\SoftDelete;, 第三步在模型中开启//开了软删除功能 ,这也是模型类的好处哦