首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。

    47510编辑于 2025-03-18
  • 来自专栏数据派THU

    ChatGPT 与世界:对话式 AI 模型对比

    来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。   作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型。 : https://www.analyticsvidhya.com/blog/2023/03/chatgpt-vs-the-world-a-comparison-of-conversational-ai-models

    53410编辑于 2023-05-11
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 (2)主动EQA,在这个任务中,AI Agent必须在环境中采取行动来收集必要的信息并回答问题。 OpenEQA还配备了LLM-Match,这是一种用于评分开放词汇答案的自动评估指标。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • 来自专栏山行AI

    聊聊火出圈的世界AI模型——Sora

    在2024年2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。 这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora案例和提示词 一个聚合Sora案例和prompt的网站:https://cn.videosora.ai 为什么称Sora为世界模型? Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。

    1.4K10编辑于 2024-02-26
  • 来自专栏最高权限比特流

    网络世界漫步——绪论之网络分层模型2

    计算机网络的体系结构 计算机网络的体系结构无外乎有两种,一种是五层协议栈,另外一种是七层ISO OSI参考模型。 至于七层的模型,大家感兴趣的就自己看看,我就不在这里误导你了。 对于如何分层,这里面涉及到到的东西就不是我能够解释了得了——利益、市场、成本各种因素,相当复杂。我们暂时还是关注技术上的内容。

    59820发布于 2019-02-21
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型ai掀起的科技革命时代已经到来,需要去拥抱gpt和sora带来的变化!

    57110编辑于 2024-02-18
  • 开源AI模型与虚拟世界构建技术前沿

    我们将为您带来最新的开源AI模型、工具和研究进展。人们正在创造酷炫的东西,我们想与您分享。闲话少叙,下面是我们的常驻专家 deepfates 对本周AI领域的直率见解。 添加了拖拽标记功能,让您能在图片中控制物体(例如关上一张微波炉图片的门);Sketch2scene是一个大型的、类似鲁布·戈德堡机械的项目,它通过数个模型将粗略草图转化为完全可玩的游戏世界,而且它确实可行 演示研究动态从草图到可玩的3D游戏世界Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。 该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。 您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了注册!

    19510编辑于 2025-12-21
  • 来自专栏新智元

    Runway官宣下场通用世界模型!解决视频AI最大难题,竟靠AI模拟世界

    新智元报道 编辑:编辑部 【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 Runway官方今天突然官宣,我们要做通用世界模型(General World Model),用Gen AI来模拟整个世界! 通用世界模型 (GWM) 我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。 世界模型是一种对环境有着内部理解的AI系统。 在Runway看来,像Gen-2这样的视频生成系统,可以被看作是通用世界模型的非常初步和有限的版本。 为了能生成逼真的短视频,Gen-2需要某种程度上理解物理和动态。 世界模型到底是什么? 对于现在的AI系统是否能够理解我们生活的这个世界,现在人类还所知甚少。 图灵巨头LeCun不断讽刺现在的LLM,说他看起来上天文下知地理,但是连3岁小孩的理解能力都没有。

    48110编辑于 2023-12-12
  • 来自专栏新智元

    LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA

    新智元报道 编辑:桃子 好困 【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 起因是,网友挖出前几天LeCun参加WGS峰会上发表的观点:「在AI视频方面,我们不知道该怎么做」。 在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。 它们选取了Kinetics-400和Something-Something-v2两个数据集,通过调整用于训练的标注样本比例(分别为5%,10%和50%),观察模型在处理视频时的效能。 从长远来看,在未来应用中,V-JEPA强大情境理解力,对开发具身AI技术以及未来增强现实(AR)眼镜有着重大意义。 现在想想,如果苹果Vision Pro能够得到「世界模型」的加持,更加无敌了。 网友讨论 显然,LeCun对生成式AI并不看好。 「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。

    39010编辑于 2024-02-26
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    世界模型不是VLA: VLA 倾向于端到端映射,往往缺乏对物理规律的深度建模,泛化性较弱。世界模型不是Planner:规划是基于世界模型的预测结果做出的,目前常用方案还是接入一个大模型做规划。2. Lecun在论文中指出动物和人类展现出的学习能力和对世界的理解远远超过了当前的AI。生物能在有限数据下快速学习复杂技能,能有常识地进行推理与规划;能根据观察而不是纯监督大量试错来构建世界知识。 但是现有的AI技术的核心局限包括:缺乏稳定且全面的世界模型;学习依赖外部监督和强化学习试验次数极高;现有表示和策略学习系统难以实现长期规划和抽象推理。 作者通过预训练的V-JEPA 2模型再完成下游任务,例如动作分类、物体识别、动作预测以及通过将模型与大型语言模型骨干对齐来进行视频问答,达到理解世界和预测世界能力。 主要贡献V-JEPA 2 不仅是一个更强的视频表示学习模型,更是一种通用世界模型的具体实例。

    1.5K128编辑于 2026-01-30
  • 来自专栏机器之心

    怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键​

    2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身 今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。 使用的损失函数是预测 及其目标 z_y 之间的平方 L2 距离: 学习用于表征学习的图像世界模型 如前所述,学习等差数列表征和学习世界模型是密切相关的问题。 如表 2 所示,增强越强,学习强世界模型就越容易。在更广泛的增强方案中,这一趋势仍在继续。 如果变换很复杂,预测器就需要更大的能力来应用它,意味着能力成为了学习图像世界模型的关键因素。 如上表 2 ,深度预测器意味着能在更广泛的增强上学习到强大的世界模型,这也是 IWM 取得成功的关键。因此,预测能力是强大世界模型的关键组成部分。

    47510编辑于 2024-03-07
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    2. 物理真实性 早期模型的生成画面容易违背基本物理规律,缺乏对世界动态和因果关系的深层理解。 Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 从第一人称视角探索森林、地下城到城市,AI 能够实时模拟视角转动、景深变化和复杂的 3D 空间结构。 2. 2. RTFM: 实时帧模型 这是一项实时的生成式世界模型技术。它允许用户在浏览器中交互式探索生成的 3D 环境,保证了视觉的连贯性和物理的稳定性。 未来的世界模型可能融合各家之长:既能理解抽象规律,又能生成动态场景,还能支持智能体在其中安全高效地学习交互策略。 至少世界模型已从概念走向实践,成为快速演进的AI基础设施。

    90731编辑于 2026-02-11
  • 来自专栏小巫技术博客

    模型 MCP:开启 AI 与现实世界的无缝交互革命

    MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开源协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成,用来在大模型和数据源之间建立安全双向的链接 它通过标准化协议解决了大模型与外部世界的交互难题,催生了一个全新的生态系统: • 开发者:专注于构建标准化的 MCP 服务器,降低工具开发门槛。 随着 OpenAI、微软等巨头的加入,以及开源社区的蓬勃发展,MCP 有望推动 AI 从实验室走向更广阔的现实世界,最终实现 "万物互联,智联世界" 的愿景。 附录 支持MCP的Client端 更多支持MCP的客户端参考:https://modelcontextprotocol.io/clients 参考连接 • MCP官方文档[2] • https://mcp.so /download [2] MCP官方文档: https://modelcontextprotocol.io/introduction

    59210编辑于 2025-06-16
  • 来自专栏量子位

    中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了

    仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。 不到一个月的时间里,最大英文和中文AI单体模型的纪录分别被刷新。 一、以研究机构为主导 无论是开发ELMo的Allen研究所、还是开发GPT-2的OpenAI(当时还未引入微软投资)都不是以盈利为目标。 且这一阶段的超大NLP模型都是开源的,得到了开源社区的各种复现与改进。 ELMo有超过40个非官方实现,GPT-2也被国内开发者引入,用于中文处理。 当AI模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战: 1、即使是最强大的GPU,也不再可能将模型参数拟合到单卡的显存中; 2、如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际 而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。

    47920发布于 2021-10-20
  • 来自专栏AI早知道

    AI早知道】腾讯混元世界模型1.5上线,小米发布新一代MoE大模型MiMo-V2-Flash,Meta拥抱竞品AI

    腾讯发布混元世界模型1.5腾讯发布混元世界模型1.5,这是国内首个开放的实时互动体验平台。用户通过文字或图片即可快速生成互动世界,并能像玩游戏一样实时探索AI场景。 技术解析:这一模型具备实时交互生成、高质量内容生成和高效推理三大核心能力,代表了多模态AI在虚拟世界构建方面的最新进展,为游戏、教育、虚拟社交等领域提供了新的可能性。 小米发布新一代MoE大模型MiMo-V2-Flash小米发布了新一代MoE(混合专家)大模型MiMo-V2-Flash,这一发布表明传统硬件厂商在AI模型领域的持续投入。 腾讯大模型架构重磅升级:成立AI Infra与Data部门腾讯在大模型领域进行了重要架构升级,成立AI Infra与Data部门,构建大模型训练推理全链路竞争力。 爱诗科技与阿里云签署全面合作协议双方将在AI视频生成领域展开深度合作,涵盖模型、算力、产品、生态及商业等多个层面,共同推动AI视频技术发展。

    29200编辑于 2025-12-17
  • 第八章 AI模型质量-2

    这种方法有助于确保模型在实际应用场景中能够满足预期要求。 端到端的黑盒测试实施比较简单,主要包括以下几个关键步骤: 1.确定算法指标。 2.设计测试场景、收集样本。 3.测试及结果分析。 第一,一个AI算法对应的业务功能背后可能是有一系列的AI算法模型串联起来的,当端到端的指标不达标的时候,比较难定位问题的根因。 快速找到算法瓶颈点,通过建立漏斗模型,我们可以快速的看到哪一层的算法是我们的重点优化对象。 2. 发现算法存在明显的场景偏见。 首先,我们选择一个输入序列,例如 [1, 2, 3, 4, 5],并计算其平均值。在这个例子中,average([1, 2, 3, 4, 5]) 应该返回 3。 AI模型的蜕变测试 在深度神经网络(DNN)的上下文中,蜕变测试可以用于评估模型的性能和鲁棒性。由于深度学习模型通常是黑盒系统,很难直接从模型结构中推断其行为。

    63600编辑于 2025-04-15
  • 来自专栏大数据杂货铺

    Edge2AI之CDSW 实验和模型

    在本次实验中,您将在 CDSW 中运行实验,选择产生最佳实验结果的模型并将该模型部署到生产环境中。 实验总结 实验 1 - CDSW:训练模型。 实验 2 - 部署模型。 /cloudera-labs/edge2ai-workshop 现在您的项目已经创建,单击Open Workbench并启动 Python3 会话: 修改Docker的PIP安装默认源路径,在CDSW 第 5 步:重新运行实验几次 返回 Workbench 并再运行 2 次实验,并为 NumTrees 和 NumDepth 尝试不同的值。 实验 2 - CDSW:部署模型 第 1 步:检查程序cdsw.iot_model.py 打开您在上一个实验中创建的项目并在 Workbench 中检查该文件。 第 2 步:部署模型 从项目的主页中,选择“模型”按钮。

    2K30编辑于 2022-04-27
  • 来自专栏新智元

    英伟达MIT黑科技 :用AI生成模型快速构建虚拟世界

    ---- 新智元报道 来源:Venturebeat 编辑:大明 【新智元导读】英伟达与MIT合作推出视频合成AI新技术,直接用现实视频生成逼真的虚拟世界。 英伟达的研究人员打造出一个新的AI生成模型,可以使用来自YouTube等来源的真实视频创建虚拟环境,这可能影响游戏开发和人工智能的未来。 左上为输入,其余为不同模型的输出,右下为英伟达和MIT最新模型vid2vid的输出 “想象一下,如果你能在电子游戏中扮演自己的角色。 “英伟达长期以来一直致力于图形处理技术,因此我们非常高兴能够将图形技术带入AI时代,并使用AI技术生成图形,我们可以从现实世界的视频中了解事物的运作方式,然后根据学到的知识,合成出逼真的、基于实际内容的虚拟图像 英伟达在此基础上与加州大学伯克利分校的AI研究人员合作,打造了Pix2PixHD系统作为回应。 今年早些时候,加州大学伯克利分校的研究人员还制作了能够跳舞、翻转以及其他20种复杂动作的模型

    79620发布于 2018-12-26
  • 来自专栏CreateAMind

    实现最小意识模型-4 自我模型世界模型

    3.2自我模型世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙

    65130编辑于 2023-11-01
  • #大模型探秘–AI感知世界:从对话到掌控的交互革命

    模型探秘–AI 感知世界:从对话到掌控的交互革命 引言 在当今科技飞速发展的时代,AI模型正以前所未有的速度改变着我们与世界交互的方式。 本文将深入探讨AI模型与外界交互的几个重要方面,包括大模型训练数据集、ChatGPT等对话应用、知识库和长上下文、FunctionCall、ToolUse和MCP以及环境融合(AI操作操作系统、浏览器 、ToolUse和MCP (一)FunctionCall的定义和工作原理 FunctionCall是OpenAI在2023年6月13日推出的革命性功能,允许开发者通过自然语言指令触发预定义函数,实现大模型与现实世界系统的交互 它可以被比喻为“AI扩展坞”,作为一种AI模型的标准化接入协议,能够显著简化模型之间的集成。 结论 AI模型与外界的交互是一个多维度、多层次的过程,从训练数据集的构建到各种应用场景的实现,每一个环节都展现了AI模型的强大能力和无限潜力。

    32510编辑于 2025-11-24
领券