来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型。 : https://www.analyticsvidhya.com/blog/2023/03/chatgpt-vs-the-world-a-comparison-of-conversational-ai-models
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 答:绿色 [空间理解] 问:这个房间可以容纳10个人吗? 答:可以 [物体状态识别] 问:塑料水瓶是开着的吗? 答:不是 [功能推理] 问:我可以用铅笔在什么东西上写? 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
---- 新智元报道 来源:Facebook AI 编辑:LQ,LZY 【新智元导读】一个主要以欧美家庭图片为训练内容的识别系统碰到「尼泊尔」家庭图片时,可能就识别不出,而无需标记、10亿参数的 AI模型SEER表现惊人,它「一视同仁」,认得出美国厨房,也认得出尼泊尔厨房。 SEER给出的结果令人兴奋,自监督学习让人工智能更好地为世界各地的人服务。 ? Dollar Street数据集——世界不同国家和地区不同收入的家庭 例如下面这张来自尼泊尔一个家庭的图,SEER的识别结果是:调料、药、碗、水果、社交饮酒 监督学习模型的识别结果是:清洗设备、厨房洗涤盆 图源:Facebook AI Blog 下面这张照片显示了印度的一条小街道。SEER的识别结果是:自行车、街景、垃圾、菜地 监督学习模型的识别结果是:水果树、家、自行车、宠物、房顶 ? ?
前夜与黎明之间,横亘着一道40年未解的"莫拉维克悖论":让AI下棋容易,让它像1岁婴儿般感知物理世界却很难。世界模型,正是跨越这道鸿沟的桥梁。 一、LLM的致命盲区:为什么语言模型无法"脚踏实地"? 亚马逊仓储系统通过物理AI优化,客户交付速度提升25%,机器人行驶效率再优化10%,站点事故率降低15%。这类任务规则明确,容错率高,是当前渗透率最高的领域。 这一阶段要求AI理解材质、形状与力学特性,世界模型提供的虚拟训练环境使数据采集成本降低90%。 第三级:理解人类(终极战场) 家庭场景是物理AI的"圣杯"。 领域专用加速器(DSA):TPU、FPGA与CGRA架构针对世界模型的矩阵运算与注意力机制优化,推理延迟降至10毫秒级,满足实时控制需求。 当世界模型解决了物理常识的表示问题,当Real-Sim-Real闭环填平了数据鸿沟,当MLLM-WM融合架构打通了感知-认知-行动的闭环,物理AI才能真正跨越"前夜"。
这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora案例和提示词 一个聚合Sora案例和prompt的网站:https://cn.videosora.ai 为什么称Sora为世界大模型? Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。
Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。 ai掀起的科技革命时代已经到来,需要去拥抱gpt和sora带来的变化!
我们将为您带来最新的开源AI模型、工具和研究进展。人们正在创造酷炫的东西,我们想与您分享。闲话少叙,下面是我们的常驻专家 deepfates 对本周AI领域的直率见解。 演示研究动态从草图到可玩的3D游戏世界Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。 该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。 在物体周围绘制边界框,模型就会让您控制它们的运动和位置。这项技术让我们向完全交互式的AI生成内容又迈进了一步。预计未来会有更多关于在视频空间中为概念分配标记的研究。 您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了注册!
新智元报道 编辑:编辑部 【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 Runway官方今天突然官宣,我们要做通用世界模型(General World Model),用Gen AI来模拟整个世界! 通用世界模型 (GWM) 我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。 世界模型是一种对环境有着内部理解的AI系统。 针对Runway的这个世界模型宣言,从小了讲,我们可以把它翻译为: 现在我们的AI生视频系统,生成的视频会有很多匪夷所思的内容,比如这样: 这样, 甚至是这样: 就像LLM会产生幻觉,信口胡诌一些不存在的内容一样 世界模型到底是什么? 对于现在的AI系统是否能够理解我们生活的这个世界,现在人类还所知甚少。 图灵巨头LeCun不断讽刺现在的LLM,说他看起来上天文下知地理,但是连3岁小孩的理解能力都没有。
新智元报道 编辑:桃子 好困 【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 起因是,网友挖出前几天LeCun参加WGS峰会上发表的观点:「在AI视频方面,我们不知道该怎么做」。 在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。 它们选取了Kinetics-400和Something-Something-v2两个数据集,通过调整用于训练的标注样本比例(分别为5%,10%和50%),观察模型在处理视频时的效能。 不过,这种高级别的动作识别对于短视频片段(几秒到10秒钟)效果很好。 因此,下一步研究另一个重点是,如何让模型在更长的时间跨度上进行规划和预测。 网友讨论 显然,LeCun对生成式AI并不看好。 「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。
下面就这 10 个灵魂拷问,分享一些我自己的观点。 做不做基础大模型? 如果做基础大模型,需要上亿美金的前期投入,如何融到这么多资,如何招到靠谱的算法、数据和 infra 团队? 但这样的模型推理成本会很高,就像现在 GPT-4 读一篇论文要 10 美金,只有高净值客户和探索科学前沿的场景才消费得起。 如果真的解决了所有这些问题,头号玩家或者西部世界将不再是梦想。这也正是做技术的好机会:这波 AI 浪潮将更多地有技术驱动,而不仅是由产品和商务驱动。 在充满了 AGI Agent 的世界中,每个人都需要完成从独立贡献者到团队贡献者的转变,带领一批 AGI Agent 协作完成任务。 大模型胡说八道的问题可以解决吗? 我认为,基于大模型构建的个性化助手应该形成一个社交网络,就像斯坦福搞的 generative agents 一样,能够在虚拟世界中自主交互和行动。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 Lecun在论文中指出动物和人类展现出的学习能力和对世界的理解远远超过了当前的AI。生物能在有限数据下快速学习复杂技能,能有常识地进行推理与规划;能根据观察而不是纯监督大量试错来构建世界知识。 但是现有的AI技术的核心局限包括:缺乏稳定且全面的世界模型;学习依赖外部监督和强化学习试验次数极高;现有表示和策略学习系统难以实现长期规划和抽象推理。 论文方法V-JEPA 2相对比V-JEPA的在模型和数据上都做了扩展,数据从200w视频扩展到2200w,包含100万小时的互联网规模视频和100万张图像;模型参数也从3亿参数扩展到10亿参数;训练的迭代次数从
机器之心报道 机器之心编辑部 Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 那么,面对视觉任务,世界模型如何获得自回归模型一般的性能? 最近,Lecun 发布了自己关于「世界模型」的新论文《在视觉表征学习中学习和利用世界模型》,刚好解释了这个问题。 2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身 今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。 研究者发现,对变换不变的世界模型在线性评估中表现更好,而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。
2025年10月推出 Sora 2,OpenAI 表示其正迎来“GPT‑3.5 式突破”。 Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 一分钟记忆: 模型可以保持长达 10-60 秒 的稳定连贯交互,这比 Genie 1 的几秒钟有了巨大提升。 3. 空间智能流派:从 2D 到可交互 3D 世界 World Labs 是李飞飞在2024年创立的初创公司,成立后迅速爆红,短短四个月内估值便突破 10 亿美元,晋升为独角兽企业。 未来的世界模型可能融合各家之长:既能理解抽象规律,又能生成动态场景,还能支持智能体在其中安全高效地学习交互策略。 至少世界模型已从概念走向实践,成为快速演进的AI基础设施。
基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。 Genie 2 可以生成长达一分钟的一致世界,大多数示例持续 10-20 秒。 操作控件 Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。 经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开源协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成,用来在大模型和数据源之间建立安全双向的链接 总结 MCP 的出现标志着 AI 从 "单机智能" 向 "网络智能" 的跃迁。 它通过标准化协议解决了大模型与外部世界的交互难题,催生了一个全新的生态系统: • 开发者:专注于构建标准化的 MCP 服务器,降低工具开发门槛。 正如 HTTP 协议重塑了互联网,MCP 或许正在成为 AI 时代的基础设施。 随着 OpenAI、微软等巨头的加入,以及开源社区的蓬勃发展,MCP 有望推动 AI 从实验室走向更广阔的现实世界,最终实现 "万物互联,智联世界" 的愿景。
仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。 不到一个月的时间里,最大英文和中文AI单体模型的纪录分别被刷新。 今年国内科技公司也开始了类似研究,中文AI模型“源1.0”便是国内硬件公司的一次突破—— 成就中文领域最大NLP模型,更一度刷新参数最多的大模型纪录。 三、巨头与研究机构或巨头之间相互合作 拥有技术的OpenAI由于难以承受高昂成本,引入了微软10亿美元投资。依靠海量的硬件与数据集资源,1750亿参数的GPT-3于去年问世。 大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI巨量模型既然不“闭门造车”,那如何走向合作? 而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。
---- 新智元报道 来源:Venturebeat 编辑:大明 【新智元导读】英伟达与MIT合作推出视频合成AI新技术,直接用现实视频生成逼真的虚拟世界。 英伟达的研究人员打造出一个新的AI生成模型,可以使用来自YouTube等来源的真实视频创建虚拟环境,这可能影响游戏开发和人工智能的未来。 左上为输入,其余为不同模型的输出,右下为英伟达和MIT最新模型vid2vid的输出 “想象一下,如果你能在电子游戏中扮演自己的角色。 “英伟达长期以来一直致力于图形处理技术,因此我们非常高兴能够将图形技术带入AI时代,并使用AI技术生成图形,我们可以从现实世界的视频中了解事物的运作方式,然后根据学到的知识,合成出逼真的、基于实际内容的虚拟图像 英伟达在此基础上与加州大学伯克利分校的AI研究人员合作,打造了Pix2PixHD系统作为回应。 今年早些时候,加州大学伯克利分校的研究人员还制作了能够跳舞、翻转以及其他20种复杂动作的模型。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
---- 新智元报道 作者:木青、克雷格 【新智元导读】最近,13岁的男孩发明了胰腺癌深度学习系统(PCDLS)工具,可以准确地检测到胰腺位置,成功率高达98.9%;10岁女孩开发出了世界上第一款 “00后”正在用AI抛弃同龄人以及90后、80后、70后…… 今天的故事主人公是一个13岁的男孩Rishab Jain和一个10岁的女孩Samaira Mehta。 在硅谷长大的Samaira Mehta是一位只有10岁的女孩,虽然只有10岁,但已经是一家名为Coder Bunnyz公司的创始人兼CEO。 “世界上有超过10亿的孩子,这些孩子都可以学习编程。” 发明世界上第一款AI棋盘游戏,拒绝谷歌给offer 故事还没完。 Mehta表示,Coder Mindz是世界上第一款AI棋盘游戏。Coder Mindz售价34.85美元,已于本月正式推出并在美国亚马逊售卖。
大模型探秘–AI 感知世界:从对话到掌控的交互革命 引言 在当今科技飞速发展的时代,AI大模型正以前所未有的速度改变着我们与世界交互的方式。 本文将深入探讨AI大模型与外界交互的几个重要方面,包括大模型训练数据集、ChatGPT等对话应用、知识库和长上下文、FunctionCall、ToolUse和MCP以及环境融合(AI操作操作系统、浏览器 、ToolUse和MCP (一)FunctionCall的定义和工作原理 FunctionCall是OpenAI在2023年6月13日推出的革命性功能,允许开发者通过自然语言指令触发预定义函数,实现大模型与现实世界系统的交互 它可以被比喻为“AI扩展坞”,作为一种AI模型的标准化接入协议,能够显著简化模型之间的集成。 结论 AI大模型与外界的交互是一个多维度、多层次的过程,从训练数据集的构建到各种应用场景的实现,每一个环节都展现了AI大模型的强大能力和无限潜力。