搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
7 Papers & Radios | LeCun世界模型首次尝试；Meta开源文本音乐生成模型
机器之心 & ArXiv Weekly 参与：楚航、罗若天、梅洪源本周重要论文包括图灵奖得主 Yann LeCun 世界模型的首项研究，以及 Meta 开源的文本生成音乐模型 MusicGen。图灵奖得主 Yann LeCun 曾提出自监督 + 世界模型的解决方案，如今终于有了第一个实实在在的视觉模型 ——I-JEPA。推荐：LeCun 世界模型首项研究来了：自监督视觉，像人一样学习和推理，已开源。研究者在下表 3 中提供了开源指令模型的整体概述。推荐：四年了，基础开源模型没有真正进步，指令调优大模型评估惊人发现。 (from Alan Yuille) 7.
40040编辑于 2023-08-07
来自专栏前端javascript
Sora & 世界模型
Sora 是一个 AI 模型，可以从文本指令中创建真实和富有想象力的场景。我们正在教人工智能理解和模拟运动中的物理世界，目标是训练模型，帮助人们解决需要现实世界交互的问题。介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。我们还向一些视觉艺术家、设计师和电影制作人授予访问权限，以获得有关如何推进模型以对创意专业人士最有帮助的反馈。该模型不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。百度翻译带来的机遇与挑战从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
57110编辑于 2024-02-18
来自专栏多模态模型系列
浅谈世界模型（上篇）
（前段时间在看世界模型相关论文，规划一月初的文章，拖到了一月底...）在通往通用人工智能（AGI）的道路上，“世界模型”已成为核心战场。本文就浅谈下世界模型。由于篇幅较长，文章分为上下两篇：上篇：世界模型的概念与抽象建模路线心智模型：世界模型的哲学起点世界模型：从强化学习到通用建模联合嵌入流派：JEPA 系列下篇：世界模型的生成、行动与空间智能路线视频生成流派前言：什么是世界模型在深入技术细节前，我们必须先搞清：什么是世界模型？什么是世界模型在强化学习与智能体研究中，“世界模型”最早是由 Ha & Schmidhuber 在world models论文中提出:世界模型是通过学习，对环境的状态进行压缩表示，并预测这些状态之间如何随时间变化的模型世界模型不是VLA： VLA 倾向于端到端映射，往往缺乏对物理规律的深度建模，泛化性较弱。世界模型不是Planner：规划是基于世界模型的预测结果做出的，目前常用方案还是接入一个大模型做规划。2.
1.5K128编辑于 2026-01-30
来自专栏多模态模型系列
浅谈世界模型（下篇）
由于篇幅较长，文章分为上下两篇：上篇：世界模型的概念与抽象建模路线 ● 心智模型：世界模型的哲学起点 ● 世界模型：从强化学习到通用建模 ● 联合嵌入流派：JEPA 系列下篇：世界模型的生成、 Sora和JEPA的主要区别： JEPA 是“不生成世界的世界模型表征学习范式”，而 Sora 是“直接生成世界的生成式模型”。论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型，然后在这个世界模型中学习如何行动训练策略。 Marble ：多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。总结通过两篇文章简单介绍了世界模型，可以看到世界模型通往AGI的核心跃迁：从“理解”到“生成” JEPA学习世界的抽象规律，在潜在空间中捕捉结构与因果。
90931编辑于 2026-02-11
来自专栏AgenticAI
Google发布新世界模型Genie 2：大规模基础世界模型
为未来通用智能体生成无限多样化的培训环境今天我们介绍 Genie 2，这是一个基础世界模型，能够生成各种可控制动作、可玩的 3D 环境，用于训练和评估具身代理。基础世界模型的新兴能力到目前为止，世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中，我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型，这意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9]，在大型视频数据集上进行训练。 [5] 更通用的具身智能体的:https://arxiv.org/abs/2311.02462 [6] 建模狭窄的领域:https://danijar.com/project/dreamerv3/ [7]
47610编辑于 2025-03-18
来自专栏机器之心
7 Papers & Radios | 爆火论文打造《西部世界》雏形；OpenAI终结扩散模型
机器之心 & ArXiv Weekly 参与：楚航、罗若天、梅洪源本周主要论文包括 OpenAI 开源新模型代码，一步成图，1 秒 18 张；爆火论文打造《西部世界》雏形：25 个 AI 智能体，在虚拟小镇自由成长推荐：爆火论文打造《西部世界》雏形：25 个 AI 智能体，在虚拟小镇自由成长。 (from Diana Maynard) 7. Multi-step Jailbreaking Privacy Attacks on ChatGPT. (from Wei Fan) 8. (from Matti Pietikäinen, Li Liu) 7. (from Jonathon Shlens) 7. A Game-theoretic Framework for Federated Learning. (from Kai Chen) 8.
43420编辑于 2023-04-21
来自专栏CreateAMind
实现最小意识模型-4 自我模型和世界模型
3.2自我模型和世界模型我们在这里归类的模型都有一个共同的想法，那就是，对于一个有意识的事物来说，这个事物必须能够塑造它自己和它的世界:换句话说，有意识就是成为那种参与情境自我塑造的事物。根据IWMT的观点，意识是一个整合世界模型的过程。更确切地说，意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生；这些推论是以因果世界模型为条件的，而因果世界模型又是从生态位内的目标追求历史中训练出来的。这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合，以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件，特别是被引导到公开和隐蔽行动的轨迹中(Safron，2021a萨夫龙
65130编辑于 2023-11-01
来自专栏算法进阶
Sora为什么不是世界模型？
导语新年伊始，OpenAI Sora 横空出世，声称是“作为世界模拟的视频生成模型”（Video generation models as world simulators），让“世界模型”这一概念再次进入人们的视野那么什么是世界模型？Sora 到底是不是 world simulator 呢？南京大学人工智能学院教授俞扬近日撰文溯源了世界模型（world model）的概念，认为世界模型的核心作用是反事实推理，而 Sora 更多是视频工具，难以作为反事实推理的工具准确回答 what if 问题，但很少有文章来介绍世界模型。（OpenAI 发布文生视频模型 Sora，AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？
63810编辑于 2024-02-29
来自专栏学习笔记持续记录中...
处理模型数据（7）
Spring MVC提供了以下几种途径输出模型数据： ModelAndView 控制器处理方法的返回值是ModelAndView，则其既包含视图信息，也包含模型数据信息 // success.jsp 返回的目标页面 ; return modelAndView; } } Map&Model Spring MVC 在内部使用了一个org.springframework.ui.Model接口存储模型数据，具体步骤： 1）SpringMVC在调用方法前会创建一个隐含的数据模型，作为模型数据的存储容器，成为”隐含模型” 2）如果方法的入参类型为Map或Model，会将隐含模型的引用传递给这些入参。 3）在方法体内，可以通过这个入参对象访问到模型中的所有数据，也可以向模型中添加新的属性数据 Spring Web MVC 提供Model、Map或ModelMap让我们能去暴露渲染视图需要的模型数据。 @SessionAttributes 除了可以通过属性名指定需要放到会话中的属性处，还可以通过模型属性的对象类型指定哪些模型属性需要放到会话中 @SessionAttributes(types=User.class
50500发布于 2020-03-18
来自专栏新智元
从文字模型到世界模型！Meta新研究让AI Agent理解物理世界
这类似于构建一个「世界模型」，即AI Agent可以对外部世界产生它自己的内部理解方法，并能够让人类通过语言查询。这是一个长期的愿景和一个有挑战的领域，也是实现人工通用智能的重要一步。但现实是，即使是今天最先进的模型，在EQA方面也很难达到人类的表现水平。这也是为什么Meta同时发布了OpenEQA基准测试，让研究人员可以测试他们自己的模型，并了解它们与人类的表现相比如何。下方是LLM-Match打分的流程，通过问题和场景的输入，AI大模型会给出回答，该回答会去和人类的回答作对比，然后得到相应的分数。现阶段VLM的表现一般来说，AI Agent的视觉能力是借助于视觉+语言基础模型（VLM）。这个问题，模型基本上是随机猜测不同的房间，没有从视觉情景记忆中获得对空间的理解。这说明VLM其实是回归到文本中去捕捉关于世界的先验知识，以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
38910编辑于 2024-04-19
“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型
近年来，随着生成式AI技术的突破，世界模型（World Models）已成为自动驾驶与具身智能领域的核心研究方向。：有的模型纹理极其逼真，但几何完全错乱有的模型几何相对稳定，却频繁出现违反物理规律的行为不同论文使用不同指标，结果无法直接比较、结论难以复现WorldLens：一套全光谱世界模型评估框架为了系统性地填补这一评估空白闭环评测会放大模型缺陷在开环条件下，许多模型还能维持相对合理的轨迹；一旦进入闭环交互，微小的不一致会持续累积，最终导致任务失败。这说明，若世界模型目标服务于决策与控制，闭环评测必不可少。总结与展望当我们谈论“世界模型”时，我们期待的不仅是它能生成逼真的画面，更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出，标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
24910编辑于 2026-02-04
状态空间模型为视频世界模型解锁长期记忆
视频世界模型通过根据动作预测未来帧，为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期，特别是视频扩散模型的进步，在生成逼真的未来序列方面展现出了惊人的能力。所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择：分块状态空间模型扫描方案：这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列，而是采用了一种分块方案。研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型，包括Memory Maze和Minecraft，这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。定性结果（如补充图S1、S2、S3所示）表明，与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比，长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。例如，在迷宫数据集的推理任务中，他们的模型在长时间范围内保持了更好的一致性和准确性。同样，对于检索任务，长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
16510编辑于 2026-03-17
来自专栏大前端修炼手册
世界模型：让机器学会「脑补」
这就是世界模型（World Model）想解决的问题。到底什么是世界模型说白了，世界模型就是AI脑子里装的一个"物理世界模拟器"。传统的AI做决策，基本上是刺激-反应模式：看到什么，就做什么。这在围棋、下象棋这种完全信息博弈里够用了，但放到真实物理世界就抓瞎——现实世界太复杂了，你不可能穷举所有情况。世界模型的思路不一样：我先在脑子里建一个模型，大概知道这个世界是怎么运转的。没有世界模型的机器人就像一个不会"预判"的新手厨师，每一刀切下去之前都不知道食材会往哪边倒。有了世界模型，它可以在动手之前先"想象"一下：这个角度抓取的话，面包会不会被捏扁？世界是变化的，你的模型不能训完就锁死。机器人搬到新厨房了，碗放的位置变了，灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西？在线学习这块依然是个老大难问题。几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说：光靠语言模型走不到AGI，你必须有对物理世界的理解。
20110编辑于 2026-03-10
Project Genie：无限交互世界模型技术
我们如何推进世界模型世界模型模拟环境的动态变化，预测环境如何演变以及行为如何影响环境。 Project Genie的工作原理Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用，允许用户亲身体验我们世界模型的沉浸式能力。由于Genie 3是一个早期研究模型，存在几个已知的待改进领域：生成的世界可能看起来不完全逼真，或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差，或在控制时经历较高延迟。我们在8月宣布的Genie 3模型的部分能力（例如在探索过程中改变世界的可提示事件）尚未包含在此原型中。基于我们与可信测试者所做的工作，我们很高兴与最先进AI的用户分享这个原型，以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型。
10110编辑于 2026-04-15
来自专栏新智元
7nm世界最大芯片打造AI集群，解锁120万亿「大脑级」AI模型
今日，Cerebras 宣布世界首个「大脑级」AI 集群，能够训练120万亿参数模型，击败人脑百万亿个突触！突触，是神经网络的「桥梁」。人类大脑有大约 100 万亿个突触，860 亿个神经元。世界第一！192个AI集群，解锁万亿参数模型参数越多，人工智能模型就越复杂。谷歌在短短2年内将模型参数的数量提高了大约1000倍。参数的数量，所需的算力，都呈指数级增长。二、Cerebras MemoryX：启用百万亿参数模型这是一种一内存扩展技术，它使模型参数能够存储在芯片外，并有效地流式传输到 CS-2，实现同在芯片上那样的性能。良率更高 2021年，Cerebras推出了最新的Wafer Scale Engine 2（WSE-2）芯片，该芯片为超级计算任务而构建，具有破纪录的2.6万亿个晶体管和85万颗AI优化内核，采用台积电的7nm 而且，正是采用了台积电的7nm工艺，电路之间的宽度仅有七十亿分之一米。当有内核发生故障时，单独的故障内核并不影响芯片的使用。况且在台积电这样的晶圆代工厂中，很少会出现连续的内核缺陷。
55520发布于 2021-09-17
来自专栏不二小段
聊一聊 LLMs 和世界模型
世界模型算是比较前沿的研究，相较于其他 AI 话题，我觉得「世界模型」比较形而上，有点像是还没完全厘清的概念之争。所以这篇论文尝试用 Meta 自己的 LLama2 模型（而不是 GPT-4 模型）去证明「大语言模型就是世界模型」，或者说「大语言模型可以是世界模型」，就，有点意思了…这篇论文最重要的结论就是，大型语言模型什么是世界模型？要聊这个话题，首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合，它来源于人类对世界的体验和认知，后来才扩展到机器智能的领域。所以我会说，世界模型更像是一个概念游戏，因为世界模型强调感官、直觉、常识。前面已经说过了，「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」，如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」，即使不是成为「世界模型」的唯一方式，也在很大程度上消弭
2.7K00编辑于 2023-10-31
来自专栏企鹅号快讯
世界最奇葩的7款机器人
7.家用机器人当然，目前开发生产最多的还是“家用”机器人。最常见的是机器人清洁工，不过，最近市场上还出现了能做饭、看家、娱乐和操作家用电器的机器人。
80480发布于 2018-01-23
来自专栏机器学习算法与Python学习
Torch7模型训练
Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块，这里再次基础上再给出一些上Container、 Transfer Functions Layers和 Simple Layers模块的理解并在后面给出一些简单的模型训练方法。下述程序在itorch qtconsole下运行。上一篇博文讲到Module主要有四个函数(详细见Torch7搭建卷积神经网络详细教程)，但是注意以下几点：forward函数的input必须和backward的函数的input一致，否则梯度更新会有问题上述函数的具体使用方法可以看Torch7的官方API以及帮助文档。接下来仅介绍一些模型训练所需要的关键函数。将image包导入当前运行环境，随机生成一张1通道32x32的彩色图像，如下 ?
1K130发布于 2018-04-08
来自专栏CreateAMind
世界模型为什么效果好、自由能世界模型的理论高度和潜力（信息量大）
根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走，无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致，自由能还有更多的理论扩展及案例应用，对反事实后果有信念的理论AI模型通过想象产生焦虑的AI模型现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理：自由能公式3 参数学习自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型主动推理与信念-愿望-意图 (BDI) 复杂推理模型，信念的信念 Active inference on discrete state-spaces: A synthesis 图表：
44440编辑于 2023-10-06
来自专栏机器之心
LeCun团队新作：在世界模型中导航
机器之心报道机器之心编辑部现实世界版的 Genie-2？最近，世界模型（World Models）似乎成为了 AI 领域最热门的研究方向。上月中旬，该团队就已经发布了一篇世界模型相关研究成果，但那篇研究涉及的模型规模不大，环境也较为简单，参阅机器之心报道《LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划》。只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力，其能够在已知环境中按照轨迹行进，也能在未知环境中自己寻找前进道路，还能执行路径规划。然后，该模型根据智能体的视角生成下一个世界状态。最后，研究者通过测量与目标图像的 LPIPS 相似性来对每条轨迹的最终预测结果进行排序，结果如下图 7 所示。
26900编辑于 2025-02-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

7 Papers & Radios | LeCun世界模型首次尝试；Meta开源文本音乐生成模型

Sora & 世界模型

浅谈世界模型（上篇）

浅谈世界模型（下篇）

Google发布新世界模型Genie 2：大规模基础世界模型

7 Papers & Radios | 爆火论文打造《西部世界》雏形；OpenAI终结扩散模型

实现最小意识模型-4 自我模型和世界模型

Sora为什么不是世界模型？

处理模型数据（7）

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型

状态空间模型为视频世界模型解锁长期记忆

世界模型：让机器学会「脑补」

Project Genie：无限交互世界模型技术

7nm世界最大芯片打造AI集群，解锁120万亿「大脑级」AI模型

聊一聊 LLMs 和世界模型

世界最奇葩的7款机器人

Torch7模型训练

世界模型为什么效果好、自由能世界模型的理论高度和潜力（信息量大）

LeCun团队新作：在世界模型中导航

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐