搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏CreateAMind
实现最小意识模型-4 自我模型和世界模型
3.2自我模型和世界模型我们在这里归类的模型都有一个共同的想法，那就是，对于一个有意识的事物来说，这个事物必须能够塑造它自己和它的世界:换句话说，有意识就是成为那种参与情境自我塑造的事物。根据IWMT的观点，意识是一个整合世界模型的过程。更确切地说，意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生；这些推论是以因果世界模型为条件的，而因果世界模型又是从生态位内的目标追求历史中训练出来的。这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合，以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件，特别是被引导到公开和隐蔽行动的轨迹中(Safron，2021a萨夫龙
65130编辑于 2023-11-01
来自专栏机器之心
世界模型进入4D时代！单视角视频构建的自由视角4D世界来了
正如同李飞飞及其团队在「空间智能」模型中展现的革新一样，ReconDreamer 仅需要单视角输入视频，即可通过同时重建+生成构建逼真的 4D 世界，第一次实现了平移 6 米范围的高精度渲染，推动这一领域从静态跨越至动态由极佳科技领衔的 DriveDreamer4D 工作，通过利用预训练的世界模型扩展相机视角，一定程度上缓解了这些问题，但在大范围视野变化的渲染下仍有局限性。 DriveDreamer 是首个面向真实驾驶场景的世界模型，可以根据不同的控制条件生成自动驾驶周视视频，有效提升了 BEV 感知的性能；DriveDreamer-2 在此基础上，引入大语言模型，可以生成用户自定义的驾驶数据团队介绍本篇论文的牵头完成单位为极佳科技，是一家空间智能公司，致力于将视频生成提升到 4D 世界模型，赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力，实现 4D 空间中的交互和行动，极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。
56310编辑于 2025-02-14
来自专栏新智元
GPT-4不是世界模型，LeCun双手赞同！ACL力证LLM永远无法模拟世界
编辑：桃子乔杨【新智元导读】大模型是世界模型吗？UA微软等机构最新研究发现，GPT-4在复杂环境的模拟中，准确率甚至不及60%。对此，LeCun激动地表示，世界模型永远都不可能是LLM。一直以来，对LLM的支持观点之一，就是模型可以集成海量事实知识，作为通往「世界模拟器」的基础。虽然也有不少人提出反对，但没有真凭实据。那么，LLM可以作为世界模拟器吗？论文认为，尽管GPT-4这样的模型表现很惊艳，但如果没有进一步创新，它就不能成为可靠的世界模型。为了量化LLM的规划能力，作者提出了一个全新的基准测试——bytesized32-state-prediction，并在上面运行了GPT-4模型。 LeCun：世界模型不会是LLM。网友：也许吧。但这并不意味着LLM内部不存在某种（不准确的）世界模型。
24910编辑于 2024-06-17
来自专栏前端javascript
Sora & 世界模型
Sora 是一个 AI 模型，可以从文本指令中创建真实和富有想象力的场景。我们正在教人工智能理解和模拟运动中的物理世界，目标是训练模型，帮助人们解决需要现实世界交互的问题。介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。我们还向一些视觉艺术家、设计师和电影制作人授予访问权限，以获得有关如何推进模型以对创意专业人士最有帮助的反馈。该模型不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。百度翻译带来的机遇与挑战从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
57110编辑于 2024-02-18
来自专栏多模态模型系列
浅谈世界模型（上篇）
（前段时间在看世界模型相关论文，规划一月初的文章，拖到了一月底...）在通往通用人工智能（AGI）的道路上，“世界模型”已成为核心战场。本文就浅谈下世界模型。由于篇幅较长，文章分为上下两篇：上篇：世界模型的概念与抽象建模路线心智模型：世界模型的哲学起点世界模型：从强化学习到通用建模联合嵌入流派：JEPA 系列下篇：世界模型的生成、行动与空间智能路线视频生成流派前言：什么是世界模型在深入技术细节前，我们必须先搞清：什么是世界模型？这种构建和操作“心智模型”的能力是智能和意识的基础。通过这些模型，我们能够更好地理解和预测现实世界的运作方式，从而做出更合理的决策。心智模型的概念也是世界模型的哲学根源。4. （4）Y-Decoder（轻量文本解码器）训练时冻结，只在推理阶段使用，将预测的语义 embedding 转换为人类可理解的文本虽然在编码器上和VLM一样，也是基于潜空间对齐，但是VL-JEPA 的训练与传统
1.5K128编辑于 2026-01-30
来自专栏多模态模型系列
浅谈世界模型（下篇）
2.4 Dreamer4：完全离线学习与可扩展世界模型 Training Agents Inside of Scalable World Models（2025.09）论文地址：https://arxiv.org DreamerV4 的核心突破就在于可扩展性与离线学习能力。它首次实现了在不与环境发生任何实际交互的情况下，仅通过观看视频数据，在复杂的《我的世界》中完成挖掘钻石的任务。路径如下： online data → world model → imagination（rollout） → policy → online data 而V4的设计是完全离线学习，把世界模型当成世界本身（不用回到真实世界）主要贡献 DreamerV4 是首个在仅用离线视频数据下，在 Minecraft 中获取钻石的RL体系，不需真实环境交互。 4. 总结通过两篇文章简单介绍了世界模型，可以看到世界模型通往AGI的核心跃迁：从“理解”到“生成” JEPA学习世界的抽象规律，在潜在空间中捕捉结构与因果。
90931编辑于 2026-02-11
来自专栏AgenticAI
Google发布新世界模型Genie 2：大规模基础世界模型
从我们早期与 Atari 游戏的合作，到[1]AlphaGo[2]和AlphaStar[3]等突破性成果，再到我们与游戏开发者合作研究通用智能体[4]，游戏一直是我们研究的重心。基础世界模型的新兴能力到目前为止，世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中，我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型，这意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9]，在大型视频数据集上进行训练。 discover/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning/ [4]
47610编辑于 2025-03-18
来自专栏机器之心
CityDreamer4D: 下一个世界模型，何必是视频生成模型？
而在 3D 生成模型的世界里，这一问题根本不是问题 —— 它天然支持多视角一致性。基于这一洞察，南洋理工大学 S-Lab 的研究者们提出了一种全新的框架：CityDreamer4D。如果世界模型的终极目标是打造一个真实、可交互的虚拟城市，那么我们真的还需要依赖视频生成模型吗？这一进步伴随着 “元宇宙” 和 “世界模型” 等概念的兴起，推动了对更真实、更连贯虚拟世界的探索。其中，“世界模型” 致力于在生成的场景中融入物理世界的运行规律，为更具沉浸感的虚拟环境奠定基础。它打破了视频扩散模型的固有瓶颈，不仅仅是 “合成” 城市影像，而是直接建模城市场景背后的运行规律，打造一个真正无边界、可自由探索的 4D 世界。 CityDreamer4D 提供了一种原生 3D 的世界模型，为 4D 城市生成提供了全新的解决方案。
46710编辑于 2025-02-03
来自专栏CreateAMind
主观世界模型的3类4组18个惊奇的理论分析
2.主观世界模型:一个统一的生成模型我们的目标是在一个共同的数学框架中研究不同形式的惊奇测度的理论性质。为了做到这一点，我们需要假设一个主体(例如，一个人类参与者或者一个动物)如何思考它的环境。 Surprise measures and indistinguishability 4. Probabilistic mismatch surprise measures 4.1. 然后，我们展示了这些度量在理论上如何相互关联，更重要的是，在什么条件下它们是彼此的严格递增函数(即，它们在实验上变得不可区分——图4和表2)。我们的结果确定了这样的条件，在这种条件下，观察不匹配惊奇测量的行为与自适应学习最佳的概率不匹配惊奇测量的行为相同(参见图4B，命题1和推论1)；这种见解可以在未来的适应性行为网络模型中加以利用。例如，对于除均匀分布以外的任何先验边缘分布，SBF和SSh1都是可区分的(图4B)，但是，在实践中，对于几乎均匀的先验，这种区别很难检测到。
38410编辑于 2023-10-09
来自专栏机器之心
GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升
比如在 GSM8K、MATH 这样的高难度数学任务的数据集中，包括 GPT-4 和 PaLM-2 在内的专有模型已取得显著成果。在这方面，开源大模型还有相当的提升空间。在生成修正数据时，他们使用了多个 LLM（包括 LLaMA 和 GPT 系列模型）来收集不准确的推理路径（即最终答案不正确），然后使用 GPT-4 作为「修正器」，为这些不准确的推理路径生成修正。这种不理解会导致在推理过程中出现错误，因此需要「世界模型」的帮助，因为「世界模型」对现实世界的逻辑和规则具有先验意识。从这个角度来看，本文中 LEMA 框架可以看成是采用了 GPT-4 作为「世界模型」，教导更小的模型遵守这些逻辑和规则，而不仅仅是模仿 step-by-step 的行为。这里 P_c 包含 4 个带注释的错误修正示例，以指导修正器模型应该在生成的修正中包含什么类型的信息。具体来讲，带注释的修正包含以下三类信息：错误步骤：原始推理路径中哪一步出错了。
50440编辑于 2023-11-07
来自专栏新智元
GPT-4只是AGI的火花？LLM终将退场，世界模型才是未来
也许大语言模型不是最终答案，一个理解世界的模型才是未来的方向。在人类的认知之中，似乎早已习惯将通用人工智能（AGI）设定为人工智能的终极形态和发展的最终目标。文章中将AGI大致定义为一个「能够理解世界的模型」，而不仅仅是「描述世界的模型」。他认为，人类要想真正达到AGI的世界，就需要建立一个「能够质疑自身现实、能够自我探究的系统」。比如这个众所周知的例子，2016年，狭义人工智能AlphaGo在围棋比赛中以 4 比 1 的大比分击败世界冠军李世石，就是一个很好的例子。这意味着，我们所需的AGI是一个与经验一致且能做到准确预测的世界模型。错误地将性能等同于能力，意味着GPT-4生成的是对世界的摘要性描述认为是对真实世界的理解。这与人工智能模型训练的数据有关。
52530编辑于 2023-09-09
来自专栏算法进阶
Sora为什么不是世界模型？
导语新年伊始，OpenAI Sora 横空出世，声称是“作为世界模拟的视频生成模型”（Video generation models as world simulators），让“世界模型”这一概念再次进入人们的视野那么什么是世界模型？Sora 到底是不是 world simulator 呢？南京大学人工智能学院教授俞扬近日撰文溯源了世界模型（world model）的概念，认为世界模型的核心作用是反事实推理，而 Sora 更多是视频工具，难以作为反事实推理的工具准确回答 what if 问题，但很少有文章来介绍世界模型。（OpenAI 发布文生视频模型 Sora，AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？
63810编辑于 2024-02-29
来自专栏新智元
从文字模型到世界模型！Meta新研究让AI Agent理解物理世界
这类似于构建一个「世界模型」，即AI Agent可以对外部世界产生它自己的内部理解方法，并能够让人类通过语言查询。这是一个长期的愿景和一个有挑战的领域，也是实现人工通用智能的重要一步。但现实是，即使是今天最先进的模型，在EQA方面也很难达到人类的表现水平。这也是为什么Meta同时发布了OpenEQA基准测试，让研究人员可以测试他们自己的模型，并了解它们与人类的表现相比如何。现阶段VLM的表现一般来说，AI Agent的视觉能力是借助于视觉+语言基础模型（VLM）。研究员使用OpenEQA来评估了几种最先进的VLM，发现即使是性能最好的模型（如GPT-4V达到48.5%），与人类的表现（85.9%）之间也存在着显著差距。这个问题，模型基本上是随机猜测不同的房间，没有从视觉情景记忆中获得对空间的理解。这说明VLM其实是回归到文本中去捕捉关于世界的先验知识，以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
38910编辑于 2024-04-19
“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型
从文本直接生成驾驶视频，到可控的4D动态场景合成，当前模型已经能够产出视觉上足以“以假乱真”的驾驶画面。然而，一个根本性问题长期被行业忽视：这些“看起来很真实”的生成内容，真的“像一个世界”吗？重建（Reconstruction）——能否还原一个4D世界？如果一个模型真正理解了空间结构，那么从它生成的视频应能重建出稳定的4D场景。 WorldLens 将生成视频重建为 4D Gaussian Field，并评估：原视角重建精度与真实世界的几何差异新视角合成质量一个普遍现象是出现大量 “悬浮物”（floaters）——在新视角下暴露出不连续几何与时序稳定性是“共同瓶颈”深度不一致性较大的模型，在4D重建中往往产生大量悬浮碎片；重建不稳定的模型，在闭环驾驶中也更容易失败。几何与时序一致性是贯穿多个评估维度的基础前提。它为未来研究指出了明确方向：从帧级真实走向对象级、时序级与几何级真实从单视角生成走向多视角与4D一致性建模从离线合成走向闭环交互与行为可执行性验证在世界模型逐渐成为自动驾驶与具身智能核心组件的今天，如何评估
24910编辑于 2026-02-04
状态空间模型为视频世界模型解锁长期记忆
视频世界模型通过根据动作预测未来帧，为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期，特别是视频扩散模型的进步，在生成逼真的未来序列方面展现出了惊人的能力。所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择：分块状态空间模型扫描方案：这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列，而是采用了一种分块方案。研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型，包括Memory Maze和Minecraft，这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。定性结果（如补充图S1、S2、S3所示）表明，与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比，长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。例如，在迷宫数据集的推理任务中，他们的模型在长时间范围内保持了更好的一致性和准确性。同样，对于检索任务，长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
16510编辑于 2026-03-17
来自专栏机器之心
VerseCrafter：给视频世界模型装上4D方向盘，精准运镜控物
视频世界模型领域又迎来了新的突破！复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter，这是一个通过显式 4D 几何控制（4D Geometric Control）实现的动态逼真视频世界模型。然而，现有的视频模型往往面临一个核心困境：视频是在 2D 平面上播放的，但真实世界是 4D（3D 空间 + 时间）的。数据集：VerseControl4D 训练这样一个 4D 世界模型，最大的瓶颈在于数据 —— 我们去哪里找大量带有精确 4D 标注（相机参数 + 多物体 3D 轨迹）的真实世界视频？这一数据集的构建，填补了真实世界 4D 几何控制数据的空白，为模型的训练提供了坚实的基础。
22010编辑于 2026-01-22
来自专栏Michael阿明学习之路
4. 训练模型
线性模型正则化 4. 早期停止法（Early Stopping）本文为《机器学习实战：基于Scikit-Learn和TensorFlow》的读书笔记。中文翻译参考 1. (100,1) y = 4+3*X+np.random.randn(100,1) plt.plot(X,y,"b.") plt.axis([0,2,0,15]) ? 上图显示训练集和测试集在数据不断增加的情况下，曲线趋于稳定，同时误差都非常大，欠拟合欠拟合，添加样本是没用的，需要更复杂的模型或更好的特征模型的泛化误差由三个不同误差的和决定：偏差：模型假设不贴合，高偏差的模型最容易出现欠拟合方差：模型对训练数据的微小变化较为敏感，多自由度的模型更容易有高的方差（如高阶多项式），会导致过拟合不可约误差：数据噪声，可进行数据清洗 3. ElasticNet(alpha=0.1, l1_ratio=0.5) elastic_net.fit(X, y) elastic_net.predict([[1.5]]) # array([4.99822842]) 4.
59940发布于 2021-02-19
来自专栏大前端修炼手册
世界模型：让机器学会「脑补」
这就是世界模型（World Model）想解决的问题。到底什么是世界模型说白了，世界模型就是AI脑子里装的一个"物理世界模拟器"。传统的AI做决策，基本上是刺激-反应模式：看到什么，就做什么。这在围棋、下象棋这种完全信息博弈里够用了，但放到真实物理世界就抓瞎——现实世界太复杂了，你不可能穷举所有情况。世界模型的思路不一样：我先在脑子里建一个模型，大概知道这个世界是怎么运转的。没有世界模型的机器人就像一个不会"预判"的新手厨师，每一刀切下去之前都不知道食材会往哪边倒。有了世界模型，它可以在动手之前先"想象"一下：这个角度抓取的话，面包会不会被捏扁？世界是变化的，你的模型不能训完就锁死。机器人搬到新厨房了，碗放的位置变了，灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西？在线学习这块依然是个老大难问题。几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说：光靠语言模型走不到AGI，你必须有对物理世界的理解。
20110编辑于 2026-03-10
来自专栏CU技术社区
4·23 世界读书日｜聊聊底层逻辑
4.23，世界读书日在朋友圈里，这个日子被大家过成了“我今年看过300本书”的炫耀日。但实际上读一流的书，才是人生最大的捷径。世界读书日，小编想推荐《肖申克的救赎》一书，这是一个关于“自由”与“希望”的故事，这是一个与“黑暗”抗争，与“光明”重逢的故事。安全开发生命周期在服务器开发的每个阶段，提供IT弹性架构需要安全意识和规范，这个过程被称为安全开发生命周期(SDL)模型。在这个模型中，安全不是事后才想到的，而是整个服务器设计过程中不可或缺的一部分。
85340发布于 2020-05-06
Project Genie：无限交互世界模型技术
Project Genie：尝试无限、可交互的世界2026年1月29日 · 4分钟阅读美国某机构的AI Ultra订阅用户可以尝试Project Genie，这是一个实验性研究原型，允许用户创建和探索世界我们如何推进世界模型世界模型模拟环境的动态变化，预测环境如何演变以及行为如何影响环境。由于Genie 3是一个早期研究模型，存在几个已知的待改进领域：生成的世界可能看起来不完全逼真，或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差，或在控制时经历较高延迟。我们在8月宣布的Genie 3模型的部分能力（例如在探索过程中改变世界的可提示事件）尚未包含在此原型中。基于我们与可信测试者所做的工作，我们很高兴与最先进AI的用户分享这个原型，以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型。
10110编辑于 2026-04-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

实现最小意识模型-4 自我模型和世界模型

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

GPT-4不是世界模型，LeCun双手赞同！ACL力证LLM永远无法模拟世界

Sora & 世界模型

浅谈世界模型（上篇）

浅谈世界模型（下篇）

Google发布新世界模型Genie 2：大规模基础世界模型

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

主观世界模型的3类4组18个惊奇的理论分析

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

GPT-4只是AGI的火花？LLM终将退场，世界模型才是未来

Sora为什么不是世界模型？

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型

状态空间模型为视频世界模型解锁长期记忆

VerseCrafter：给视频世界模型装上4D方向盘，精准运镜控物

4. 训练模型

世界模型：让机器学会「脑补」

4·23 世界读书日｜聊聊底层逻辑

Project Genie：无限交互世界模型技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐