Genie 3:世界模型的新前沿今天,某中心宣布了Genie 3,这是一个通用的世界模型,能够生成前所未有的多样性交互环境。 去年,某中心推出了首个基础世界模型Genie 1和Genie 2,它们可以为智能体生成新环境。同时,也在视频生成领域不断推动技术前沿,例如Veo 2和Veo 3模型,它们展现了对直觉物理学的深刻理解。 这些模型分别标志着世界模拟不同能力方面的进展。Genie 3是首个允许实时交互的世界模型,同时相较于Genie 2,它在一致性和真实感方面也有所提升。 局限性尽管Genie 3突破了世界模型的能力边界,但承认其当前的局限性也很重要:有限的操作空间:尽管可提示的世界事件允许广泛的环境干预,但这些干预不一定由智能体本身执行。 后续步骤某中心相信,Genie 3是世界模型的一个重要时刻,它们将开始对AI研究和生成式媒体的许多领域产生影响。为此,正在探索如何让更多测试者在未来能够使用Genie 3。
Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
就是Google发布的这个世界模型,Genie 3。 作为一个将近20年的游戏玩家和近10年的VR玩家,我看到这个视频的时候,心真的在怦怦跳。 Genie 3是一个世界模型 (World Model)。 对我而言,它更像是是一个创世引擎的雏形。 我们正站在一个新世界的入口,而Google,刚刚为我们推开了一丝门缝。 要理解Genie 3的颠覆性,我们必须先弄明白一个概念。 世界模型。 这个词听起来很玄乎,但我们可以用一个简单的比喻来理解。 比如说过去的视频生成模型,Sora,更像是一位电影导演。 我在一个世界模型里,走出了恐怖游轮的感觉。 而Genie 3最牛逼的地方,恰恰就是在这个要命的问题上取得了突破。 世界模型的可贵之处在于,它能在精妙的人类规则设计下,填充无穷无尽、合乎逻辑的动态细节。
2.4 空间智能流派:3D物理的“架构师”代表模型:World Labs(李飞飞团队)核心思路:相比 Sora 的 2D 像素补丁,Marble 模型强调 空间一致性。 它生成的不是“看起来像”的视频,而是可进入、可旋转、具有3D 几何结构的持久化世界。优势:提供三维推理能力,支持机器人导航、建筑设计等需要精确空间感的应用3. 论文的核心方案:提出了用于学习表示层次结构的预测世界模型的非生成架构2. 一种非对比的自我监督学习范式,它产生同时提供信息和可预测的表示。3. 论文方法V-JEPA 2相对比V-JEPA的在模型和数据上都做了扩展,数据从200w视频扩展到2200w,包含100万小时的互联网规模视频和100万张图像;模型参数也从3亿参数扩展到10亿参数;训练的迭代次数从 利用这个动作条件模型——V-JEPA 2-AC(3亿参数的Transform结构模型),通过在模型预测控制环内进行规划,来完成下游的机器人操作任务,达到规划和执行能力。
至于他是不是世界模型这个问题,OpenAI 的逻辑是:如果一个模型能通过看海量视频,自发地学会物体怎么动、光影怎么变、3D 空间怎么保持一致,那它就模拟了物理世界。 DreamerV3 是Google DeepMind 研发的第三代世界模型智能体。 前文中的V1-V3也是在潜在空间想象学习,但是世界模型是服务于在线RL,而不是替代环境的“模拟世界”。 World Labs 致力于构建能够感知、生成、推理并与3D世界互动的前沿世界模型。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。
为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。
Genie 3:世界模型的新前沿发布日期:2025年8月5日 作者:Jack Parker-Holder 和 Shlomi Fruchter今天我们宣布推出 Genie 3,这是一个通用世界模型,能够生成前所未有的多样化交互环境 我们还通过 Veo 2 和 Veo 3 模型继续推动视频生成的技术水平,这些模型表现出对直观物理的深刻理解。这些模型中的每一个都在世界模拟的不同能力方面取得了进展。 Genie 3 是我们的第一个允许实时交互的世界模型,同时与 Genie 2 相比,还提高了一致性和真实感。 局限性虽然 Genie 3 突破了世界模型的能力边界,但必须承认其当前的局限性:有限的动作空间:尽管可提示的世界事件允许广泛的环境干预,但它们不一定由智能体本身执行。 下一步我们相信 Genie 3 是世界模型的重要时刻,它们将开始对AI研究和生成媒体的许多领域产生影响。为此,我们正在探索如何将来向更多测试者提供 Genie 3。
7月27日,在2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型 1.0,并全面开源。 除3D世界模型外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。 对游戏开发者而言,混元3D世界模型极大简化了3D场景构建流程,只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整3D场景。 混元3D世界模型1.0的核心还在于其创新的「语意层次化3D场景表征及生成算法」。 与全球领先的开源模型相比,混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前SOTA的开源模型。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
新智元报道 编辑:Aeneas 【新智元导读】世界模型迎来高光时刻:谷歌还在闭源,中国团队已经把SOTA级世界模型全面开源了,LingBot-World正面硬刚Genie 3,彻底打破了全球垄断 蚂蚁灵波科技发布的LingBot-World,刚刚成为开源SOTA级的世界模型。 可以说,它已经全面对标了谷歌Genie 3,甚至在一些性能指标上超越了Genie 3! 全面对标Genie 3 在可交互性、生成质量、物理一致性和生成时长上,LingBot-World都能全面对标Genie 3。 可能你会问,为什么要对标Genie 3? 因此如果学术界和初创公司想训练一个高质量世界模型,门槛是极高的。 Genie 3仍处于闭源状态 但蚂蚁灵波的这次开源,直接就让大家拥有了SOTA级的物理仿真底座,根本无需从零造轮子。 另外,它还可以作为一个行动智能体,预测一系列模拟环境探索的动作,转换为相机轨迹,从而驱动后续的世界生成。 最后,通过大规模3D重建基础模型,我们还能将生成的视频序列进一步转化为高质量的场景点云。
我们展示了 DreamerV3,这是一种基于世界模型的通用且可扩展的算法,它在具有固定超参数的广泛领域中优于以前的方法。 这些领域包括连续和离散动作、视觉和低维输入、2D 和 3D 世界、不同的数据预算、奖励频率和奖励等级。我们观察到 DreamerV3 有利的扩展特性,更大的模型直接转化为更高的数据效率和最终性能。 我们展示了DreamerV3良好的扩展特性,其中增加模型尺寸会导致 到最终性能和数据效率的单调改进。 我们发现DreamerV3是第一个从零开始在《我的世界》收集钻石的算法 在没有人类数据或课程的情况下,解决人工智能领域的一个长期挑战。 阅读原文访问项目网站 相关推荐: code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代) 脑记忆产生和巩固建模研究总结(3假设3发现3创新符合13篇脑科学实验和假设) 代码
然后,在第3节到第6节中,我们给出了18个意外措施的定义,并展示了它们的相似性和差异性。特别是,我们确定的条件,使不同的惊喜措施实验难以区分。 2.主观世界模型:一个统一的生成模型 我们的目标是在一个共同的数学框架中研究不同形式的惊奇测度的理论性质。为了做到这一点,我们需要假设一个主体(例如,一个人类参与者或者一个动物)如何思考它的环境。 3. Surprise measures and indistinguishability 4. Probabilistic mismatch surprise measures 4.1. 然而,基于我们的理论分析,我们建议将困惑惊讶的测量进一步分为3个子类别(图5 i.“预测惊奇”量化了新观察结果的不可预测、不可预料或不太可能的程度。 根据不同的定义如何依赖于信念π(t),我们将它们分为三组概率失配、观察失配和信念失配意外测量(图3)。
有多少大模型的生态,是建立在Llama上的,大家都懂。 而这个开源之光,被全世界无数人盯着的大模型,Llama3,在时隔近9个月之后的今晚。 终于正式发布了。 甚至,Llama3自己的8B模型,效果都比Llama2的70B要好,这事就非常的特么离谱。 Llama3-8B直接给出了解法: 然后,运行。 这特么在Llama2中,基本是不可能的,只有专门的代码模型,才能搞定。 要知道,Llama3-8B,只是一个8B的通用大模型啊。。。 GPT4同样出错,享受跟Llama3-8B的同等待遇,还是没干出来。 但是Llama3-8B,干出来了。。。 太抽象了。。。 总结来说,Llama3这次,绝对是王炸级别的模型。 也可以当之无愧的说,就是最强的开源模型。 Meta再次证明了,自己才是那个"OpenAI",而那个OpenAI,只是个"CloseAI"。 世界不能没有Meta。
2025 年 9 月 2 日,腾讯混元团队正式推出世界模型系列最新力作 ——HunyuanWorld-Voyager(混元 Voyager)。 作为业界首个支持原生 3D 重建的超长漫游世界模型,其在斯坦福大学李飞飞团队主导的 WorldScore 基准测试中以 77.62 分的综合成绩问鼎榜首,刷新了视频生成与 3D 场景建模的技术天花板。 世界缓存闭环系统:利用 1.0 模型生成的 3D 点云作为初始缓存,结合实时更新的视频帧投影,形成 “生成 - 缓存 - 优化” 的闭环,使漫游范围突破传统限制,同时保证几何一致性。 长距离漫游表现:在 800 米场景测试中,场景连贯性得分 84.89 分,较 Genie3 等可交互视频模型提升 35%,证明其在开放世界生成中的技术优势。 四、开源生态加速:从技术创新到产业赋能作为混元 3D 世界模型系列的最新成员,Voyager 延续了腾讯混元的开源战略:全链路能力开放:模型代码、技术报告已在 GitHub 与 Hugging Face
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。 这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
1将这一定义应用于J-STD-001H的第8章(也就是题目中提及的“3页纸”),我们可以了解为了符合新的要求都需要做些什么。 通常这种缺陷体现为图3所示的组件出现与漏电有关的失效,这个组件已通过了ROSE测试。 图3中的组件对电镀通孔(PTH)连接器引脚使用了手工焊接操作,这一流程是整个工艺流程中唯一会留下大量离子残留物的操作,但只要用整个表面区域的平均数值,就不会检测到存在问题。 第3条注释是说在高温和湿度条件下,使用正常的操作电源对带电产品进行电气测试。在我看来,这是确定离子清洁度对现场操作影响的最重要测试。 WP-019B用28页篇幅来解释J-STD-001H中的3页内容,有力说明了清洁度的重要性。
令人难以置信的是,视频中,该网友为了制作奎爷的3D模型,巧妙的使用了《战神》新发布的照片模式,并搭配了照相测量法。 照相测量法,指的是拍摄数百甚至上千张物体的照片,然后利用这些素材将拍摄对象重建为近乎逼真的3D模型。目前,用户可以在MasterWorks VR等应用中欣赏到这一模型。 最后呈现出来的结果,就是逼真的奎爷3D模型,他仿佛就站在用户的正前方。 然而,这并不是奎爷第一次出现在VR世界中。 早在2014年的一次PSVR相关的展会上,索尼就推出了在VR中运行《战神3》的演示,这是在其研发测试期间顺带开发的。除此之外,最新版的《战神4》在最近几周,也推出了一款AR应用。
然而,让我们保持增益要求适中——比如说比单个垂直偶极子多3dB的增益。但是,我们也要继续实现我们的全球通联的目标。 假设我们可以挂3根导线,我们就可以制作一个漂亮的小三角寄生阵列,它可以完成我们需要的工作。 基本布局 对于40米和30米波段,导线垂直偶极子变得非常实用。 寄生排列可以在单个垂直元件的基础上获得约3dB的增益,并且无需计算和修剪相位系统即可实现15至16dB的前后比。如果这些好处足够,那么我们就可以继续。 因此,用作短路短截线的馈电线的长度有助于确定长度B,因为我们可能希望将线路直接引入位于3根导线中央的升高盒中。 第二,边长A决定了驱动元件的馈点阻抗。 在这种情况下,偶极子可以使用3/4英寸到1英寸不等的铝制管材组合。VHF版本的天线甚至可以更加紧凑。当天线距离地面几个波长时,低角度增益会显著增加,同时保持宽波束宽度,提供3个开关位置的全水平覆盖。
这些方法主要关注画面像不像真视频,却几乎不检验:不同摄像头视角之间是否几何对齐场景结构能否被稳定重建为3D/4D表示在生成的世界中,规划器能否“正常开车”人类是否认为生成的行为是安全、合理的这种评测的局限直接导致了能力割裂 评测任务包括:BEV地图分割3D目标检测与跟踪语义Occupancy预测某些视觉质量很高的模型,在下游任务上性能下降高达30–50%。数据分布的偏移与时序不稳定,比画面清晰度影响更大。 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。