首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 灯光 Genie 2 模型点和定向照明。 反射 Genie 2 模拟反射、绽放和彩色灯光。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。

    47610编辑于 2025-03-18
  • 来自专栏最高权限比特流

    网络世界漫步——绪论之网络分层模型2

    计算机网络的体系结构 计算机网络的体系结构无外乎有两种,一种是五层协议栈,另外一种是七层ISO OSI参考模型。 至于七层的模型,大家感兴趣的就自己看看,我就不在这里误导你了。 对于如何分层,这里面涉及到到的东西就不是我能够解释了得了——利益、市场、成本各种因素,相当复杂。我们暂时还是关注技术上的内容。

    59820发布于 2019-02-21
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型

    57110编辑于 2024-02-18
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. 论文的核心方案:提出了用于学习表示层次结构的预测世界模型的非生成架构2. 一种非对比的自我监督学习范式,它产生同时提供信息和可预测的表示。3. 作者通过预训练的V-JEPA 2模型再完成下游任务,例如动作分类、物体识别、动作预测以及通过将模型与大型语言模型骨干对齐来进行视频问答,达到理解世界和预测世界能力。 主要贡献V-JEPA 2 不仅是一个更强的视频表示学习模型,更是一种通用世界模型的具体实例。 首先通在超过百万小时视频上学习 latent 表示的预测性结构,训练统一的大规模自监督视频世界模型;然后将V-JEPA 2 与大语言模型对齐后,从理解到语义推理和规划;最后在机器人上引导规划与零样本机器人控制

    1.5K128编辑于 2026-01-30
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 2. 物理真实性 早期模型的生成画面容易违背基本物理规律,缺乏对世界动态和因果关系的深层理解。 Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 论文方案 Dreamer2的核心创新就是引入了离散潜变量(Categorical Latents),使世界模型能够更准确地模拟不连续的物理变化。 2. RTFM: 实时帧模型 这是一项实时的生成式世界模型技术。它允许用户在浏览器中交互式探索生成的 3D 环境,保证了视觉的连贯性和物理的稳定性。

    90931编辑于 2026-02-11
  • 来自专栏CreateAMind

    实现最小意识模型-4 自我模型世界模型

    3.2自我模型世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙

    65130编辑于 2023-11-01
  • 来自专栏新智元

    扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

    此外,在图像空间中操作还有一个好处是,扩散世界模型能够成为环境的即插即用替代品,更方便地深入分析世界模型和智能体行为。 整个训练过程包括收集真实世界中的数据,用这些数据来训练世界模型,然后让智能体在世界模型中进行训练,类似于在一个虚拟的环境中进行练习一样,也可以称之为「想象中的训练」(imagination)。 然后通过一个高斯扰动核到清洁数据样本,在一步之内解析地到达正向过程的任何时间τ;由于核是可微的,得分匹配简化为一个去噪得分匹配目标(denoising score matching),这时目标变成了一个简单的L2重建损失 用于世界建模的扩散模型 世界模型需要一个条件生成模型来模拟环境的动态,即给定过去的状态和动作,预测下一个状态的概率分布,可以看作是部分可观察马尔可夫决策过程(POMDP),通过在历史数据上训练一个条件生成模型 在测试中,智能体在开始真正玩游戏之前,只能在游戏中尝试100,000次动作,大概相当于人类玩2个小时的游戏时间,而其他无限尝试的游戏智能体通常会尝试5亿次动作,多了500倍。

    28600编辑于 2025-02-14
  • 来自专栏算法进阶

    Sora为什么不是世界模型

    导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

    63810编辑于 2024-02-29
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 (2)主动EQA,在这个任务中,AI Agent必须在环境中采取行动来收集必要的信息并回答问题。 OpenEQA还配备了LLM-Match,这是一种用于评分开放词汇答案的自动评估指标。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • 来自专栏NLP/KG

    开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界

    “开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界” 图片 1.国内Llama2最新下载地址 本仓库中的代码示例主要是基于Hugging Face版本参数进行调用,我们提供了脚本将 /FlagAlpha 2.2.1模型下载 Meta官方Llama2模型 Llama2预训练模型包含7B、13B和70B三个版本。 /Llama-2-70b-hf 模型下载 Chat Llama2-7B-Chat meta-llama/Llama-2-7b-chat-hf 模型下载 Chat Llama2-13B-Chat 的中文微调模型 我们基于中文指令数据集对Llama2-Chat模型进行了微调,使得Llama2模型有着更强的中文对话能力。 Llama2模型进行提问。

    3.5K42编辑于 2023-10-11
  • “看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型

    近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。

    24910编辑于 2026-02-04
  • 状态空间模型为视频世界模型解锁长期记忆

    视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。

    16510编辑于 2026-03-17
  • 来自专栏大前端修炼手册

    世界模型:让机器学会「脑补」

    这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 Google DeepMind做的Genie更有意思——给它一张图片,它能生成一个可交互的2D游戏世界。你按方向键,画面就会像真的游戏一样响应。 说明当前的模型学到的是"看起来像"而不是"真的懂"物理。这是像素级建模的固有缺陷,光靠看视频,很难真正理解重力和碰撞。 3D理解还在早期。 现在大多数世界模型还在2D像素空间里折腾。 写于2026年2月。如果半年后回头看这篇文章觉得说的都是废话了,说明这个领域发展得够快。 推荐阅读 用 AI 写 Android 需求:少踩坑的实战心得 聊聊2026年Android开发会是什么样

    20110编辑于 2026-03-10
  • 来自专栏深度学习与python

    复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型

    至今一年多的时间过去,在 6 月 6 日举行的 CCF 大模型论坛上,复旦大学计算机学院教授邱锡鹏教授坦诚道,当时发布的 MOSS 技术框架是 GPT-2 时代的架构,比较与后面出现的 LLaMA 等模型架构相比 现在的大语言模型具有世界知识,第一步是由人类来完成的。人类观察世界、总结知识,用语言写下来。大模型通过模仿学习的方式,把知识学到模型里面,并且通过语言的方式与世界进行交互。 注意的是,与世界交互时不一定限于自然语言。 “我们最终希望达到所谓的‘世界模型’,即让模型本身和世界进行交互,观察世界、理解世界,并进行相应的决策。”邱锡鹏教授说道。 “我们要赋予大语言模型感知能力、增强它的决策规划能力,以及让它拥有更好的记忆、更好地使用工具等等,需要其通过不断和现实世界进行交互来学习。MOSS 2 希望围绕着这方面去做研究。”邱锡鹏教授表示。 对齐 邱锡鹏教授透露,MOSS 2 模型训练阶段没有做过多的价值对齐,因为人类价值是非常多样化的。团队选择的是推断时对齐。

    39810编辑于 2024-06-17
  • Project Genie:无限交互世界模型技术

    我们如何推进世界模型世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。 2. 世界探索你的世界是一个可导航的环境,等待被探索。当你移动时,Project Genie会根据你采取的行动实时生成前方的路径。你还可以在穿越世界时调整相机。3. 由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差,或在控制时经历较高延迟。 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。 基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型

    9710编辑于 2026-04-15
  • 来自专栏不二小段

    聊一聊 LLMs 和世界模型

    简单理解,世界模型是一个还未实现的目标,大语言模型则是通过训练大量文本语料得到的相对成熟的模型(比如 GPT-4 和 LLama2)。 所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…这篇论文最重要的结论就是,大型语言模型 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭

    2.7K00编辑于 2023-10-31
  • 来自专栏全栈程序员必看

    武侠世界2-健壮性

    前几周就获得的武侠世界2的源代码,一直没有时间表去看。从网上搞来的武侠世界2的源代码,能编译通过,大的问题没有,小问题还是挺多。其它的细节,大家其实可以在网上搜索一下。 下面的游戏运行的截图: 我还把角色升到2级呢,废话少说,直奔主题。 1、在windows下代码的健壮性 打开World.sln,工程的main函数在World.cpp里面。 include <crtdbg.h> using namespace std; void main() { int * c = new int[5]; c[0]=1; c[1]=2; 2、在linux下代码的健壮性 看到上面的代码,这只是在windows下运行才会这样,那样在linux下武侠世界又是怎样做的呢?根据我过往的经验,我搜索一下程序有关信号的代码,果然,给我搜索到了。 { DumpStack("ExceptionHandler::Handler"); exit(0); } ExceptionHandler g_ExceptionHandler; 但是在武侠世界

    81710编辑于 2022-07-21
  • 来自专栏新智元

    谷歌10秒视频生成模型世界记录!LLM终结扩散模型,效果碾压顶流Gen-2

    新智元报道 编辑:编辑部 【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2,还可进行音频生成,风格转化。 回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。 另外,与领先模型不同的是,VideoPoet并非基于扩散模型,而是多模态大模型,便可拥有T2V、V2A等能力,或将成为未来视频生成的主流。 网友看后纷纷「震惊」刷屏。 不如,接下来可以先看一波体验。 如下,首先从模型中生成2秒钟的动画片段,然后在没有任何文本引导的情况下尝试预测音频。这样就能从一个模型中生成视频和音频。 每个模态周围都有边界token,任务token表示要执行的任务类型 三大优势 概括来说,VideoPoet比起Gen-2等视频生成模型,具备以下三大优势。

    69210编辑于 2023-12-20
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    选择模型2

    选择模型 fd_set结构可以把多个套接字连在一起,形成一个套接字集合 typedef struct fd_set{ u_int fd_count;//下面数组的大小 SOCKET fd_array[FD_SETSIZE struct timeval{ long tv_sec;//指示等待多少秒 long tv_usec;//指示等待多少毫秒 }timeval; 应用举例 1 初始化fdSocket集合,添加监听套接字句柄 2 当有事件发生的时候,select函数移除fRead中没有未决IO操作的句柄,然后返回 3 比较原来的fdSocket集合,与select处理过的fdRead集合,确定哪些套接字有未决IO并处理这些IO 4 回到2进行选择 1 CInitSock theSock;//初始化winsock库 2 int main() 3 { 4 USHORT nPort=4567;//此服务器监听的端口号 5 / ); 15 return 0; 16 } 17 //进入监听模式 18 ::listen(sListen,5); 19 20 //select模型处理过程

    738100发布于 2018-01-17
  • 来自专栏全栈程序员必看

    武侠世界2-try catch思考

    1、 把错误处理和真正的工作分开来;   2、 代码更易组织,更清晰,复杂的工作任务更容易实现;   3、 毫无疑问,更安全了,不至于由于一些小的疏忽而使程序意外崩溃了;   4、 由于C+ 5、 还有一个重要的原因就是,由于目前需要开发的软件产品总是变得越来越复杂、越来越庞大,如果系统中没有一个可靠的异常处理模型,那必定是一件十分糟糕的局面。 直到在武侠世界源码里面看到下面的一些代码: 在World的main函数里 有 __ENTER_FUNCTION __LEAVE_FUNCTION 这两个宏的定义是 #define __ENTER_FUNCTION 下面是武侠世界World的主循环函数 void ServerManager::Loop( ) { __ENTER_FUNCTION while( IsActive() ) { BOOL ret = NULL) { fwrite( szTemp, 1, strlen(szTemp), f ) ; fwrite( "\r\n", 1, 2, f ) ; fclose(f) ; }

    50910编辑于 2022-07-22
领券