pli=1 于是,你决定学习一下这个事情——谷歌发布基础世界模型! 11B参数,能生成可交互虚拟世界 前言 谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。 pli=1 这篇来自 Google DeepMind 的论文介绍了一个 11B 基础世界名为 Genie 的模型,根据 2d 平台游戏的未标记互联网视频进行训练。 Genie 模型还针对机器人视频进行了训练,作为机器人中潜在世界模型应用的概念验证。 可玩世界的基础模型? 近年来,生成式人工智能取得了重大进展,使模型能够跨各种媒介生成创意内容。 但它并不止于此,我们甚至可以步入草图等人类设计的创作 加入模型之后 生成虚拟世界的未来 动作视频上训练了一个较小的 2.5B 模型。
机器之心报道 机器之心编辑部 一键生成可玩游戏世界。 Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。 Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。 我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。 在这个假设基础上,谷歌针对机器人视频训练了一个 Genie 模型,作为机器人领域潜在世界模型应用的概念验证。 定性结果 谷歌展示了在 Platformers 数据集上训练的 Genie 11B 参数模型和在 Robotics 数据集上训练的较小模型的定性实验结果。 或许有一天,Genie 可以被用作训练多任务智能体的基础世界模型。在图 14 中,作者展示了该模型已经可以用于在给定起始帧的全新 RL 环境中生成不同的轨迹。
Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 什么是世界模型在强化学习与智能体研究中,“世界模型”最早是由 Ha & Schmidhuber 在world models论文中提出:世界模型是通过学习,对环境的状态进行压缩表示,并预测这些状态之间如何随时间变化的模型 世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2.
今天我们要聊的是JDK 11 —— 一个让Java社区热情高涨的大更新。不论你是刚入Java世界的小白,还是身经百战的Java老兵,这次的更新都值得你细细品味。让我们一起探索JDK 11的奥秘吧! 正文 一、JDK 11概览 JDK 11,作为Java长期支持的版本之一,带来了许多激动人心的改进和新特性。从增强的安全性能到新的APIs,JDK 11的升级,无疑是Java发展史上的一大步。 ZGC: 高性能垃圾回收器 ZGC(Z Garbage Collector)是JDK 11中最闪耀的星。它是一款可伸缩的低延迟垃圾回收器,旨在减少应用程序的停顿时间。 提供了一个现代的、功能丰富的API来满足当今世界的HTTP通讯需求。 功能亮点: 支持HTTP/2 更好的异步编程支持 WebSocket集成 3. Lambda表达式的局部变量语法 Lambda表达式在JDK 11中得到了增强,你现在可以在lambda参数中使用var关键字,使代码更加简洁易读。
由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型:世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界的世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 2024年openai刚推出sora,DeepMind马上提出了一个11B的基础世界模型Genie1。 论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型,然后在这个世界模型中学习如何行动训练策略。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。
为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
[每周 Postgres 世界动态] 本文全网唯一源地址 产品新闻 信息来源:网址基础上整理。 PostgreSQL Anomymizer 发布新版本0.10,提出了新引擎和全新文档。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
最近看了极客时间——《现代C++实战三十讲》中的内存模型与Atomic一节,感觉对C++的内存模型理解还不是很清楚,看了后面的参考文献以及看了一些好的博客,算是基本了解了,根据参考文献整合一下。 Thread-1: Thread-2: x = 100; // A std::cout << x; // B C++11 C++11的内存模型共有6种,分四类。其中一致性的减弱会伴随着性能的增强。 参考链接 【1】C++11中的内存模型上篇 – 内存模型基础 【2】C++11中的内存模型下篇 – C++11支持的几种内存模型 【3】理解 C++ 的 Memory Order 【4】如何理解 C++ 11 的六种 memory order 【5】《现代C++实战三十讲》中的内存模型与Atomic
大数据文摘作品 转载具体要求见文末 选文|Aileen 翻译|王愫 房欣如 校对|丁力 ◆ ◆ ◆ 世界上的执法人员都在用半自动技术去做那些我们觉得太危险,太无聊,或者做不到的事。 机器人多格重26磅,高11英寸, 还配备有9毫米格洛克手枪。它由以色列General机器人有限公司与警方反恐单位联合设计。 南韩和北朝鲜之间的“非军事区”恐怕是世界上最不名副其实的了,这里有南韩日夜坚守的半自动攻击舰队。 ◆ ◆ ◆ 11希腊难民救生机器人 ? 希腊最近开始在莱斯沃斯岛海岸部署一种救生机器人,来救助冒险横跨地中海而来的叙利亚难民。难民船往往动力不足,严重超载,并且没有配备足够的救生衣。 原文链接:https://www.wired.com/2016/07/11-police-robots-patrolling-around-world/
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
个人认为,内存模型表达为“内存顺序模型”可能更加贴切一点。 2011年发布的C11/C++11 ISO Standard为我们带来了memory order的支持, 引用C++11里的一段描述: The memory model means that C++ code C11/C++11使用memory order来描述memory model, 而用来联系memory order的是atomic变量, atomic操作可以用load()和release()语义来描述 C11/C++11内存模型 C/C++11标准中提供了6种memory order,来描述内存模型[6]: enum memory_order { memory_order_relaxed, - Frank Birbacher [ACCU 2017] C++11中的内存模型下篇 - C++11支持的几种内存模型 memory ordering, Gavin's blog c++11 内存模型解读
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 :有的模型纹理极其逼真,但几何完全错乱有的模型几何相对稳定,却频繁出现违反物理规律的行为不同论文使用不同指标,结果无法直接比较、结论难以复现WorldLens:一套全光谱世界模型评估框架为了系统性地填补这一评估空白 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 研究人员在具有挑战性的数据集上评估了他们的长上下文状态空间视频世界模型,包括Memory Maze和Minecraft,这些数据集专门设计用于通过空间检索和推理任务来测试长期记忆能力。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 文章首发于我的个人博客: www.how2playlife.com 本文是微信公众号【Java技术江湖】的《走进JavaWeb技术世界 测试要尽可能地小,执行速度快;11. 不要硬性规定数据文件的路径;12. 使用文档生成器做测试文档。 8 大单元测试框架 ?
github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 文章首发于我的个人博客: www.how2playlife.com 本文是微信公众号【Java技术江湖】的《走进JavaWeb技术世界 测试要尽可能地小,执行速度快; 11. 不要硬性规定数据文件的路径; 12. 使用文档生成器做测试文档。
作者|GrahamCharlton [1] @ Econsultancy 编译|Fay 校对|朱潇男 欢迎来到我们每周的数字世界最佳市场营销数据盘点[2]。 本周我们盘点了APP狂热症、数字广告投放花费、世界各国人民的网上购物行为习惯,以及“莎士比亚的讽刺语”。 世界各国人民的网上购物和浏览行为习惯 ContentSquare的一份调查报告揭示了世界各地人们的网络行为习惯差异。
这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。