首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CreateAMind

    实现最小意识模型-5 世界自我反应

    积极的自我模型是一种功能状态,在有意识的意识水平下运作,并具有特定的因果作用。这种过程的运作产生了一种以自我为中心的、前瞻性的体验,这种体验是针对对象的,并允许与外部世界进行交互。 在这种方法中,就像获胜的假设模型一样,大脑利用一个生成模型,该模型具有一组关于什么可能导致内感受性感觉信号的先验信念。野兽机器方法突出了对具体化行动的意识体验的贡献,即有意地移动身体。 3.2.4生成纠缠 生成纠缠是一种试图通过诉诸大脑构建生成模型来解释意识的理论,该模型混合了关于世界状态、身体状态和我们反应性倾向的预测(Clark,2019;克拉克、弗里斯顿和威尔金森,2019年)。 根据生成纠缠模型,我们所体验的感受性是捕捉和预测感觉流中有用模式的首选潜在变量;也就是说,一个quale的体验是一个“我是这样感觉的”的假设它们源于深层的生成纠缠,这种纠缠将关于世界客观特征的信息与关于我们自己的生理状态 世界原因的生成模型的深度和广度,那些基于生成模型的预测通过一系列内感受和本体感受信息的持续变化,以及高级认知者模拟他们自己和他们自己的反应倾向的能力,都在意识的构成中起着关键作用。

    42420编辑于 2023-11-01
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得有关如何推进模型以对创意专业人士最有帮助的反馈。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型

    57110编辑于 2024-02-18
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    (前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? 虽然当时的模型比较原型,但是奠定了后续多年world model 研究主线思路。5. id=BZ5a1r-kVsf背景和问题如果说Ha的论文是证明世界模型是有用的,LeCun就是在追问那世界模型应该长什么样。

    1.5K128编辑于 2026-01-30
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    由于篇幅较长,文章分为上下两篇: 上篇:世界模型的概念与抽象建模路线 ● 心智模型世界模型的哲学起点 ● 世界模型:从强化学习到通用建模 ● 联合嵌入流派:JEPA 系列 下篇:世界模型的生成、 Sora和JEPA的主要区别: JEPA 是“不生成世界世界模型表征学习范式”,而 Sora 是“直接生成世界的生成式模型”。 论文方案 Dreamer核心思路是学习一个能够生成逼真未来场景的隐变量世界模型,然后在这个世界模型中学习如何行动训练策略。 Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。 总结 通过两篇文章简单介绍了世界模型,可以看到世界模型通往AGI的核心跃迁: 从“理解”到“生成” JEPA学习世界的抽象规律,在潜在空间中捕捉结构与因果。

    91131编辑于 2026-02-11
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    然而,训练更通用的具身智能体的[5]传统瓶颈在于缺乏足够丰富和多样化的训练环境。 正如我们所展示的,Genie 2 可以让未来的智能体在无限的新世界中接受训练和评估。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。 通用智能体:https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/ [5]

    47610编辑于 2025-03-18
  • 来自专栏CreateAMind

    实现最小意识模型-4 自我模型世界模型

    3.2自我模型世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙

    65130编辑于 2023-11-01
  • 来自专栏用户7344545的专栏

    改变世界5大算法

    周末了,今天来轻松概念性总结分享一下改变世界5大算法,当然足以改变世界的算法远不止这5个。 QR分解算法在现在火热的人工智能领域更是基础算法之一,有此有其是改变世界的算法并不夸张。 本文分享自微信公众号 -嵌入式客栈(embInn),作者:逸珺,严禁商用,违法必究,更多内容请关注

    2K10发布于 2020-06-02
  • 来自专栏机器学习与统计学

    世界上最强大的开源模型,GLM-5实测,本地部署,Ollama免费提供云端模型

    模型春晚 2.0 世界上最强大的开源大模型来了 没想到最先来的是 GLM-5,师承 DeepSeek,股价大涨 40% 正如前面推测的一样,它就是 GLM-5 本文只说三件事: 简介 本地部署/压缩 Claude Opus 4.5、Gemini 3 Pro、GPT-5.2 站一起了 Artificial Analysis 的测评数据,GLM-5 是目前世界上最领先的开源模型,分数逼近 Claude /glm-5 3、Ollama 免费云端模型 + 一键配置到 Claude Code、Codex、OpenCode、OpenClaw! -5:cloud Ollama 命令更新了 Ollama 近期重大更新:图片生成、Claude Code 兼容、一键启动 Agent OpenClaw 免费玩 ,Ollama 提供云模型支持,这可能是目前最简单的安装 、配置教程 GLM-5 绝对是个值得尝试的国产大模型,我后续将在OpenCode中替换掉K2.5,深度感受一下 制作不易,如果这篇文章觉得对你有用,可否点个关注。

    5K10编辑于 2026-03-02
  • 来自专栏算法进阶

    Sora为什么不是世界模型

    导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

    63810编辑于 2024-02-29
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。 这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • “看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型

    近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。 WorldLens 将评估分解为 5 个核心方面,涵盖 24 个可解释维度:生成(Generation)——不只是“好看”突破传统视频生成评测,从多个层面拆解生成质量:对象真实性:使用分类器判断生成的车辆 闭环评测会放大模型缺陷在开环条件下,许多模型还能维持相对合理的轨迹;一旦进入闭环交互,微小的不一致会持续累积,最终导致任务失败。这说明,若世界模型目标服务于决策与控制,闭环评测必不可少。 总结与展望当我们谈论“世界模型”时,我们期待的不仅是它能生成逼真的画面,更是它能够建模一个具有几何一致性、物理合理性、行为可执行性的动态世界。 WorldLens 的提出,标志着世界模型评估从感知驱动迈向认知与功能驱动的新阶段。

    24910编辑于 2026-02-04
  • 状态空间模型为视频世界模型解锁长期记忆

    视频世界模型通过根据动作预测未来帧,为人工智能在动态环境中进行规划和推理开辟了广阔前景。近期,特别是视频扩散模型的进步,在生成逼真的未来序列方面展现出了惊人的能力。 所提出的长上下文状态空间视频世界模型包含了几个关键的设计选择:分块状态空间模型扫描方案:这是其设计的核心。他们没有用一次状态空间模型扫描来处理整个视频序列,而是采用了一种分块方案。 通过将帧分组(例如,每组5帧,帧窗口大小为10),组内的帧保持双向性,同时也能关注前一组中的帧。这在优化计算负载的同时,实现了有效的感受野。 定性结果(如补充图S1、S2、S3所示)表明,与仅依赖因果注意力甚至没有帧局部注意力的Mamba2相比,长上下文状态空间视频世界模型能够在更长的时间跨度内生成更连贯、更准确的序列。 例如,在迷宫数据集的推理任务中,他们的模型在长时间范围内保持了更好的一致性和准确性。同样,对于检索任务,长上下文状态空间视频世界模型也显示出从遥远的过去帧中回忆和利用信息的能力得到了提升。

    16510编辑于 2026-03-17
  • 来自专栏大前端修炼手册

    世界模型:让机器学会「脑补」

    这就是世界模型(World Model)想解决的问题。 到底什么是世界模型 说白了,世界模型就是AI脑子里装的一个"物理世界模拟器"。 传统的AI做决策,基本上是刺激-反应模式:看到什么,就做什么。 这在围棋、下象棋这种完全信息博弈里够用了,但放到真实物理世界就抓瞎——现实世界太复杂了,你不可能穷举所有情况。 世界模型的思路不一样:我先在脑子里建一个模型,大概知道这个世界是怎么运转的。 没有世界模型的机器人就像一个不会"预判"的新手厨师,每一刀切下去之前都不知道食材会往哪边倒。有了世界模型,它可以在动手之前先"想象"一下:这个角度抓取的话,面包会不会被捏扁? 世界是变化的,你的模型不能训完就锁死。机器人搬到新厨房了,碗放的位置变了,灶台的火力不一样了。怎么让世界模型持续学习、增量更新而不忘掉之前学过的东西?在线学习这块依然是个老大难问题。 几个值得关注的声音 LeCun对世界模型的执念是出了名的。他在各种场合反复说:光靠语言模型走不到AGI,你必须有对物理世界的理解。

    20110编辑于 2026-03-10
  • Project Genie:无限交互世界模型技术

    我们如何推进世界模型世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。 Project Genie的工作原理Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用,允许用户亲身体验我们世界模型的沉浸式能力。 由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。角色有时可控性较差,或在控制时经历较高延迟。 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。 基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型

    10110编辑于 2026-04-15
  • 来自专栏AgenticAI

    Claude Sonnet4.5发布,号称世界最强编程模型,超越gpt-5-codex

    就在DeepSeek V3.2发布后不久,北京时间9月30日凌晨,敌对Anthropic发布Claude Sonnet 4.5,号称世界最强编程模型,上演一场狙击表演! 回到Sonnet 4.5本身,可以看到4.5在Terminal Bench进入50%分位,在agentic tool use的bench上更是有一个质的飞跃,从71来到了98,不会是蒸馏的gpt-5吧? 再一个就是Computer Use上也是质的飞跃,从44迈入61.4,好想看看gpt-5在该榜单表现… Claude Code赢来升级,还带来VS Code扩展,可以通过检查点功能进行回退。

    33510编辑于 2025-11-26
  • 来自专栏不二小段

    聊一聊 LLMs 和世界模型

    世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。 所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…这篇论文最重要的结论就是,大型语言模型 什么是世界模型?要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。 所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。 前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭

    2.7K00编辑于 2023-10-31
  • 来自专栏媒矿工厂

    Verizon: 5G重新定义世界

    演讲主题是“5G重新定义我们的世界”。 Vestberg首先介绍了5G的一些特点,包括超高带宽、超低延迟、支持万物互联、超高速移动(500km/h)状况下的良好网络状态、高能源效率等。 接着Vestberg分享了5G给我们生活各方面带来的变化。 游戏和体育赛事 5G的强大功能支持更多身临其境的方式让球迷直接从体育场或在家中观看比赛并与之互动。 5G的低延迟功能还可以为团队提供实时分析,使他们能够从最近的比赛中立即学习。 在文化方面,通过高带宽5G驱动的AR / VR,全世界博物馆中保存的历史文物可以提供给全世界的学生。 智慧城市 随着城市变得更加智能和紧密联系,5G功能可以推动新的创新,使生活更高效,更便捷。 例如,Skyward的航空开发中心利用Verizon的5G超宽带安全地管理其无人机并融入社区。凭借5G的超低延迟,安全性和容量,Skyward团队可以远程协调无人机机队,交付包裹等。

    43020发布于 2021-02-08
  • 来自专栏博文视点Broadview

    畅行HTML5游戏世界——Egret引擎

    2015年,HTML5游戏异常火爆,从最初的单机小游戏,到后来的中重度网络游戏如雨后春笋般涌现。随着市场需求的增多,越来越多的开发者投入到HTML5游戏开发行业中来。 在HTML5和移动游戏强大的发展趋势下,Egret引擎应运而生,Egret 引擎专注于移动设备上的HTML5 游戏开发,为HTML5 游戏开发者提供了无可比拟的快捷开发游戏的方式。 跨平台 Egret 本身是用来开发HTML5 页面游戏的,但Egret 引擎早已考虑了广大开发者制作原生游戏的需求,因此提供了Android Support 和iOS Support,使得原本只能在HTML5 环境运行的游戏可以通过简单的步骤生成原生游戏,这种方式底层是用Egret Runtime 一样的机制,因此,打包为原生之后,性能也较HTML5 会有极大的提升。 相 关 图 书 《Egret—HTML5游戏开发指南》 Egret精粹 白鹭引擎诚意之作 全面系统 海量案例 张鑫磊 等 著

    4K10发布于 2020-06-11
  • 来自专栏腾讯云开发者社区头条

    5G 网络将会怎样改变世界

    基于此,腾讯云开发者社区联手知乎科技,从知乎超过 10000 条 5G 相关问答中精选内容落地社区专题「 共探 5G 」。 本文为相关“ 5G 网络将会怎样改变世界?”的精华问答分享。 前一段时间自己一直在做某市的5G试点项目,对5G的无线接入网相关技术有了更深入的认识。 到了5G时代,接入网又发生了很大的变化。 在5G网络中,接入网不再是由BBU、RRU、天线这些东西组成了。 二、5G承载网 有同学就问,5G不仅仅只在接入网有变化,在即将到来的5G时代,5G的承载网和传送网会是个什么样子,会采用什么黑科技? 业界有一句话,就是承载先行。 网元功能软件与硬件实体资源分离 注意了,虚拟化平台不等于5G核心网。也就是说,并不是只有5G才能用虚拟化平台。也不是用了虚拟化平台,就是5G。

    2.3K1615发布于 2019-12-06
  • 来自专栏CreateAMind

    世界模型为什么效果好、自由能世界模型的理论高度和潜力(信息量大)

    根据上两篇文章介绍 DeepMind Dreamer 系列为什么效果这么好 世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。 10 分钟内适应扰动或快速翻身站立 dreamer系列的世界模型动力优化与自由能一致,自由能还有更多的理论扩展及案例应用, 对反事实后果有信念的理论AI模型 通过想象产生焦虑的AI模型 现介绍如下几篇论文的精华图表 Bayesian model reduction 参考如下公式梳理: 自由能公式3 参数学习 自由能公式2 EFE 自由能公式1 VFE Sophisticated Inference 复杂情感推理模型 主动推理 与 信念-愿望-意图 (BDI) 复杂推理模型,信念的信念 Active inference on discrete state-spaces: A synthesis 图表:

    44440编辑于 2023-10-06
领券