首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型

    57110编辑于 2024-02-18
  • 来自专栏java达人

    源代码世界8—复活

    “也许在意识的世界里,本来就没有所谓的重力,一切只是意识的羁绊罢了。”托马斯问关河洲,“你能做到吗?” 关河洲摇了摇头:“这孩子本来就没有太多的思想和知识的负担吧。” “我的孩子,也许就做不到。” 想不到他们也会来这虚拟世界。” 托马斯自言自语道。 “丛林师傅是从来就是不支持把人类意识传送到源代码世界的,他们认为,我们的思想无非就是因缘而起,对境而生罢了,不必费心追逐什么东西。”关河洲道。 “我猜想应该是在这些师傅死去的一刹那,有人强行将他们的意识吸入到这个世界的。” “因缘而起,对境而生。” 德兰把这句话小声说了一遍,透过这暗红色,他仿佛看到丛林里一个僧人在抽搐,挣扎,顿时毛骨悚然。

    56020发布于 2019-05-14
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    (前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. 模型经过监督微调后,在8个视频分类和8个视频检索数据集的平均性能上超过了CLIP、SigLIP2等专门模型

    1.5K128编辑于 2026-01-30
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 2402.15391 2024年12月Genie2: https://deepmind.google/blog/genie-2-a-large-scale-foundation-world-model/ 2025年8月 它将这些变化归类为 8 到 16 种“潜在动作”(Latent Actions)。虽然模型不知道这些动作叫“跳”或“走”,但它可以去识别出这些动作的模式。 3. 1.2.3 Genie3:电影级画质与实时交互 2025 年 8 月,Google DeepMind 发布了 Genie 3,进化的更高清、更流畅、更持久、更可控。

    91131编辑于 2026-02-11
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 ://danijar.com/project/dreamerv3/ [7] Genie 1:https://deepmind.google/research/publications/60474/ [8]

    47610编辑于 2025-03-18
  • 来自专栏CreateAMind

    实现最小意识模型-4 自我模型世界模型

    3.2自我模型世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙

    65130编辑于 2023-11-01
  • 来自专栏硬核项目经理的专栏

    【Laravel系列8】走出 Laravel 的世界

    走出 Laravel 的世界 还记得这个系列的第一篇文章是什么吗?当时我们写的是《进入Laravel的世界》。照理说,学习完了,日常应用更得心应手了,我们为啥又要走出呢? 在开始的时候,我们走进 Laravel 的世界。从头到尾并没有很深入的讲解每一个功能的使用,这些内容讲的教程太多了,通常我们只是简单地介绍一个功能的使用,然后就开始分析它的源码。 现在的 PHP8 引入了 JIT ,配合 OPCache ,再加上多台机器分布式部署的话,其实性能也不差。 服务容器、门面、模型它们的实现过程其实都很复杂,但是呈现给我们的确实是优雅的感觉,变量命名规范、代码层次清晰等等,就不一一列举了。

    1.9K30编辑于 2023-03-03
  • 来自专栏算法进阶

    Sora为什么不是世界模型

    导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

    63810编辑于 2024-02-29
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • 来自专栏Python与算法之美

    8模型的训练

    根据问题特点选择适当的估计器estimater模型: 分类(SVC,KNN,LR,NaiveBayes,...) 回归(Lasso,ElasticNet,SVR,...) 一,分类模型的训练 ? ? ? ? ? ? ? ? ? 二,回归模型的训练 ? ? ? ? ? ? ? ? 三,聚类模型的训练 KMeans算法的基本思想如下: 随机选择K个点作为初始质心 While 簇发生变化或小于最大迭代次数: 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 ? 四,降维模型的训练 PCA主成分分析(Principal Components Analysis)是最常使用的降维算法,其基本思想如下: 将原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合 可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。 ?

    82031发布于 2020-07-17
  • 来自专栏最新技术

    世界8大区块链友好国

    技术释放了国家监管解决方案的潜力,并且可以立即从世界任何地方进入您的钱包。 丹麦和瑞典都保持着对世界100%的数字化的计划。 由于比特币不受资本收益的影响,丹麦顺利进行着区块链的交易,80%的交易已是电子化的,并且他们正在与其瑞典邻居一样,开发数字唯一e-krone标志。 DubaiCoin(迪拜币DBIX)虽然不是最出色的,但自2016年2月份起就一直在运营,目前交易价格约为8美元。比关注硬币性能更重要的是,阿联酋是一个比世界其他地方更早接受区块链技术的采用者。 全球8大区块链友好国进行的最后修改:2017年12月8日,Meredith Denbow

    2.5K100发布于 2018-04-04
  • “看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型

    近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。

    24910编辑于 2026-02-04
  • 状态空间模型为视频世界模型解锁长期记忆

    视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。

    16510编辑于 2026-03-17
  • 来自专栏大前端修炼手册

    世界模型:让机器学会「脑补」

    这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。

    20110编辑于 2026-03-10
  • Project Genie:无限交互世界模型技术

    我们如何推进世界模型世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。 Project Genie的工作原理Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用,允许用户亲身体验我们世界模型的沉浸式能力。 由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差,或在控制时经历较高延迟。 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。 基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型

    10110编辑于 2026-04-15
  • 来自专栏不二小段

    聊一聊 LLMs 和世界模型

    世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。 所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…这篇论文最重要的结论就是,大型语言模型 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭

    2.7K00编辑于 2023-10-31
  • 来自专栏CreateAMind

    世界模型为什么效果好、自由能世界模型的理论高度和潜力(信息量大)

    根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好 世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致,自由能还有更多的理论扩展及案例应用, 对反事实后果有信念的理论AI模型 通过想象产生焦虑的AI模型 现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理: 自由能公式3 参数学习 自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型 主动推理 与 信念-愿望-意图 (BDI) 复杂推理模型,信念的信念 Active inference on discrete state-spaces: A synthesis 图表:

    44440编辑于 2023-10-06
  • 来自专栏机器之心

    LeCun团队新作:在世界模型中导航

    机器之心报道 机器之心编辑部 现实世界版的 Genie-2? 最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。 上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划》。 只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。 然后,该模型根据智能体的视角生成下一个世界状态。 研究者在下图 8 中提供了一些定性案例。相较于域内(上图 3),模型崩溃得更快并且在生成想象环境的遍历时还会产生幻觉路径。

    26900编辑于 2025-02-14
  • 来自专栏数据猿

    世界模型,大语言模型之后的第二场革命

    “大语言模型是基础,世界模型是途径,自主智能才是AI的终极奥义。 从语言到世界:AI理解的边界在延伸 如果说大语言模型让AI学会了理解语言,那么世界模型的出现,则意味着AI开始尝试理解世界。 Sora、V-JEPA与Genie,分别代表了世界模型演化的三个方向,生成世界、理解世界、参与世界。三者几乎出现在同一时间节点,共同组成了世界模型认知层面的突破。 今年8月,DeepMind发布Genie 3,允许从自然语言直接生成三维、可操作的虚拟世界,用户能实时控制角色,与环境交互并观察反馈。 总之,世界模型是算法从符号空间步入物理现实的通道。大语言模型构建了AI的语义基础,世界模型打开了AI的行动途径,目标是智能的真正落地。

    55510编辑于 2025-10-21
  • 来自专栏数据派THU

    ChatGPT 与世界:对话式 AI 模型对比

    作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 这几年,还出现了许多其他的模型,每个竞争对手都提供了独到的功能和优点。本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。 本文最初发布于 Analytics Vidhya。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 这几年,还出现了许多其他的模型,每个竞争对手都提供了独到的功能和优点。以下是 ChatGPT 的竞争对手中几个最突出的模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型

    53410编辑于 2023-05-11
领券