Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. 论文方法V-JEPA 2相对比V-JEPA的在模型和数据上都做了扩展,数据从200w视频扩展到2200w,包含100万小时的互联网规模视频和100万张图像;模型参数也从3亿参数扩展到10亿参数;训练的迭代次数从
由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型:世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界的世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 2025年10月推出 Sora 2,OpenAI 表示其正迎来“GPT‑3.5 式突破”。 一分钟记忆: 模型可以保持长达 10-60 秒 的稳定连贯交互,这比 Genie 1 的几秒钟有了巨大提升。 3. 空间智能流派:从 2D 到可交互 3D 世界 World Labs 是李飞飞在2024年创立的初创公司,成立后迅速爆红,短短四个月内估值便突破 10 亿美元,晋升为独角兽企业。
基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 Genie 2 可以生成长达一分钟的一致世界,大多数示例持续 10-20 秒。 操作控件 Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
SceneKit_入门05_照相机 SceneKit_入门06_行为动画 SceneKit_入门07_几何体 SceneKit_入门08_材质 SceneKit_入门09_物理身体 SceneKit_入门10 _物理世界 SceneKit_入门11_粒子系统 SceneKit_入门12_物理行为 SceneKit_入门13_骨骼动画 SceneKit_中级01_模型之间的过渡动画 SceneKit_ 力的使用 SceneKit_中级06_场景的切换 SceneKit_中级07_动态修改属性 SceneKit_中级08_阴影详解 SceneKit_中级09_碰撞检测 SceneKit_中级10 我没有深究它,今天我们就详细的了解一下,这个物理世界到底是什啥玩意! 模拟运行的速度(默认值为1) @property(nonatomic) CGFloat speed; 用法: 如果你想要增加或者减小模拟运行的速度,可以调节这个属性,但是会影响模拟的物理世界的真实性
才疏学浅,结合那篇帖子,接下来我试着解释一下算法是什么,又是哪10个算法正在主导我们的世界。 什么是算法? 那么又是哪10个计算机算法造就了我们今天的生活呢?请看下面的表单,排名不分先后: 1. 傅立叶变换和快速傅立叶变换 这两种算法简单,但却相当强大,整个数字世界都离不开它们,其功能是实现时间域函数与频率域函数之间的相互转化。能看到这篇文章,也是托这些算法的福。 只要能以“图”模型表示的问题,都能用这个算法找到“图”中两个节点间的最短距离。 虽然如今有很多更好的方法来解决最短路径问题,但代克思托演算法的稳定性仍无法取代。 4. 10. 随机数生成算法 到如今,计算机还没有办法生成“正真的”随机数,但伪随机数生成算法就足够了。
那么又是哪10个计算机算法造就了我们今天的生活呢?请看下面的表单,排名不分先后: 1. 归并排序(MERGE SORT),快速排序(QUICK SORT)和堆积排序(HEAP SORT) ? 傅立叶变换和快速傅立叶变换 这两种算法简单,但却相当强大,整个数字世界都离不开它们,其功能是实现时间域函数与频率域函数之间的相互转化。能看到这篇文章,也是托这些算法的福。 只要能以“图”模型表示的问题,都能用这个算法找到“图”中两个节点间的最短距离。 虽然如今有很多更好的方法来解决最短路径问题,但代克思托演算法的稳定性仍无法取代。 4. RSA非对称加密算法 ? 10. 随机数生成算法 到如今,计算机还没有办法生成“真正的”随机数,但伪随机数生成算法就足够了。
那么又是哪10个计算机算法造就了我们今天的生活呢?请看下面的表单,排名不分先后: 1. 傅立叶变换和快速傅立叶变换 这两种算法简单,但却相当强大,整个数字世界都离不开它们,其功能是实现时间域函数与频率域函数之间的相互转化。能看到这篇文章,也是托这些算法的福。 只要能以“图”模型表示的问题,都能用这个算法找到“图”中两个节点间的最短距离。 虽然如今有很多更好的方法来解决最短路径问题,但代克思托演算法的稳定性仍无法取代。 4. 10. 随机数生成算法 到如今,计算机还没有办法生成“真正的”随机数,但伪随机数生成算法就足够了。
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 那么什么是世界模型?Sora 到底是不是 world simulator 呢? 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 答:绿色 [空间理解] 问:这个房间可以容纳10个人吗? 答:可以 [物体状态识别] 问:塑料水瓶是开着的吗? 答:不是 [功能推理] 问:我可以用铅笔在什么东西上写? 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
新智元报道 编辑:编辑部 【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2,还可进行音频生成,风格转化。 ://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html 最令人惊叹的是,VideoPoet一次能够生成10 另外,与领先模型不同的是,VideoPoet并非基于扩散模型,而是多模态大模型,便可拥有T2V、V2A等能力,或将成为未来视频生成的主流。 网友看后纷纷「震惊」刷屏。 不如,接下来可以先看一波体验。 相比起其他模型,谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中,而不依赖针对各个任务分别训练的专用组件。 ,VideoPoet一次就可以生成长达10秒的视频。
内存模型 主存储器与工作存储器 主存储器 方法区(Method Area) 方法区用于存储类的信息, 常量, 静态变量, 即时编译器编译后的代码. 栈(Java Virtual Machine Stacks) 代表着Java方法执行的内存模型, 每个方法执行时都会创建一个栈帧来存储方法的变量表, 操作数栈, 动态链接方法, 返回值, 返回地址等信息
---- 新智元报道 来源:Facebook AI 编辑:LQ,LZY 【新智元导读】一个主要以欧美家庭图片为训练内容的识别系统碰到「尼泊尔」家庭图片时,可能就识别不出,而无需标记、10亿参数的 AI模型SEER表现惊人,它「一视同仁」,认得出美国厨房,也认得出尼泊尔厨房。 SEER给出的结果令人兴奋,自监督学习让人工智能更好地为世界各地的人服务。 ? Dollar Street数据集——世界不同国家和地区不同收入的家庭 例如下面这张来自尼泊尔一个家庭的图,SEER的识别结果是:调料、药、碗、水果、社交饮酒 监督学习模型的识别结果是:清洗设备、厨房洗涤盆 这表明,用于训练SEER的自监督方法可能会对建立人工智能系统的努力产生巨大影响,这种系统不仅能有效地服务富人,而且能有效地服务整个世界。
搜索超参数空间以优化超参数需要明确以下方面: 估计器 超参数空间 交叉验证方案 打分函数 搜寻或采样方法(网格搜索法或随机搜索法) 优化模型的常见方法包括 网格搜索法,随机搜索法,模型特定交叉验证, 三, 模型特定交叉验证 一些特定的模型,sklearn构建了一些内部含有交叉验证优化机制的估计器。 它们主要是在linear_model模块。 四, 信息准则优化 模型选择主要由两个思路。 解释性框架:好的模型应该是最能解释现有数据的模型。可以用似然函数来度量模型对数据集描述能力。 预测性框架:好的模型应该是最能预测结果的模型。 通常模型参数越多越复杂,越容易出现过拟合。 所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。 AIC(赤池信息准则)和BIC(贝叶斯信息准则)对模型的选择提供了一种判据。 AIC信息准则选择AIC最大的模型。 BIC信息准则选择BIC最大的模型。
[每周 Postgres 世界动态] 本文全网唯一源地址 产品新闻 信息来源:网址基础上整理。
李飞飞的World Labs官宣10亿美元新融资,估值冲破50亿美金——从10亿到50亿,这家公司只用了不到2年。 Anthropic达到同等估值花了25个月,而World Labs更快。 前夜与黎明之间,横亘着一道40年未解的"莫拉维克悖论":让AI下棋容易,让它像1岁婴儿般感知物理世界却很难。世界模型,正是跨越这道鸿沟的桥梁。 一、LLM的致命盲区:为什么语言模型无法"脚踏实地"? 当前的大语言模型(LLM)和多模态大模型(MLLM)在数字世界所向披靡,却在物理世界频频碰壁。根源在于一个根本性的认知断层:它们擅长符号推理,却缺乏物理常识。 二、技术深析:世界模型的三大架构路线与融合范式 世界模型并非单一路径,而是呈现出明显的技术谱系分化。根据IEEE综述论文的梳理,当前主流架构可分为三大流派: 1. 领域专用加速器(DSA):TPU、FPGA与CGRA架构针对世界模型的矩阵运算与注意力机制优化,推理延迟降至10毫秒级,满足实时控制需求。
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 人类偏好(Human Preference)——算法指标之外的真实判断构建了包含 26,808 条样本的 WorldLens-26K 人工评测数据集,涵盖:对世界真实感、物理合理性的评分(1-10分)对应的自然语言解释人类往往能综合察觉出算法指标未能捕捉的 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。
视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 通过将帧分组(例如,每组5帧,帧窗口大小为10),组内的帧保持双向性,同时也能关注前一组中的帧。这在优化计算负载的同时,实现了有效的感受野。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。
这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。