来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型。 : https://www.analyticsvidhya.com/blog/2023/03/chatgpt-vs-the-world-a-comparison-of-conversational-ai-models
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora案例和提示词 一个聚合Sora案例和prompt的网站:https://cn.videosora.ai 为什么称Sora为世界大模型? Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。
Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型。 ai掀起的科技革命时代已经到来,需要去拥抱gpt和sora带来的变化!
我们将为您带来最新的开源AI模型、工具和研究进展。人们正在创造酷炫的东西,我们想与您分享。闲话少叙,下面是我们的常驻专家 deepfates 对本周AI领域的直率见解。 演示研究动态从草图到可玩的3D游戏世界Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。 该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。 在物体周围绘制边界框,模型就会让您控制它们的运动和位置。这项技术让我们向完全交互式的AI生成内容又迈进了一步。预计未来会有更多关于在视频空间中为概念分配标记的研究。 您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了注册!
新智元报道 编辑:编辑部 【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 Runway官方今天突然官宣,我们要做通用世界模型(General World Model),用Gen AI来模拟整个世界! 通用世界模型 (GWM) 我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。 世界模型是一种对环境有着内部理解的AI系统。 针对Runway的这个世界模型宣言,从小了讲,我们可以把它翻译为: 现在我们的AI生视频系统,生成的视频会有很多匪夷所思的内容,比如这样: 这样, 甚至是这样: 就像LLM会产生幻觉,信口胡诌一些不存在的内容一样 世界模型到底是什么? 对于现在的AI系统是否能够理解我们生活的这个世界,现在人类还所知甚少。 图灵巨头LeCun不断讽刺现在的LLM,说他看起来上天文下知地理,但是连3岁小孩的理解能力都没有。
新智元报道 编辑:桃子 好困 【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 起因是,网友挖出前几天LeCun参加WGS峰会上发表的观点:「在AI视频方面,我们不知道该怎么做」。 在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。 V-JEPA:非生成式模型 与生成式AI模型Sora完全不同,V-JEPA是一种「非生成式模型」。 它通过预测视频中被隐藏或缺失部分,在一种抽象空间的表示来进行学习。 从长远来看,在未来应用中,V-JEPA强大情境理解力,对开发具身AI技术以及未来增强现实(AR)眼镜有着重大意义。 现在想想,如果苹果Vision Pro能够得到「世界模型」的加持,更加无敌了。 网友讨论 显然,LeCun对生成式AI并不看好。 「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。
机器之心报道 机器之心编辑部 Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 那么,面对视觉任务,世界模型如何获得自回归模型一般的性能? 最近,Lecun 发布了自己关于「世界模型」的新论文《在视觉表征学习中学习和利用世界模型》,刚好解释了这个问题。 2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身 今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。 研究者发现,对变换不变的世界模型在线性评估中表现更好,而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。
(前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型:世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 前言:什么是世界模型在深入技术细节前,我们必须先搞清:什么是世界模型? Lecun在论文中指出动物和人类展现出的学习能力和对世界的理解远远超过了当前的AI。生物能在有限数据下快速学习复杂技能,能有常识地进行推理与规划;能根据观察而不是纯监督大量试错来构建世界知识。 但是现有的AI技术的核心局限包括:缺乏稳定且全面的世界模型;学习依赖外部监督和强化学习试验次数极高;现有表示和策略学习系统难以实现长期规划和抽象推理。
Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 从第一人称视角探索森林、地下城到城市,AI 能够实时模拟视角转动、景深变化和复杂的 3D 空间结构。 2. Dreamer 核心是基于深度强化学习算法,它的目标是让 AI 机器人或智能体通过在大脑中模拟来学习。 官网地址:https://www.worldlabs.ai/blog Wold Labs的主要技术成果: 1. 未来的世界模型可能融合各家之长:既能理解抽象规律,又能生成动态场景,还能支持智能体在其中安全高效地学习交互策略。 至少世界模型已从概念走向实践,成为快速演进的AI基础设施。
基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。
MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开源协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成,用来在大模型和数据源之间建立安全双向的链接 总结 MCP 的出现标志着 AI 从 "单机智能" 向 "网络智能" 的跃迁。 它通过标准化协议解决了大模型与外部世界的交互难题,催生了一个全新的生态系统: • 开发者:专注于构建标准化的 MCP 服务器,降低工具开发门槛。 正如 HTTP 协议重塑了互联网,MCP 或许正在成为 AI 时代的基础设施。 随着 OpenAI、微软等巨头的加入,以及开源社区的蓬勃发展,MCP 有望推动 AI 从实验室走向更广阔的现实世界,最终实现 "万物互联,智联世界" 的愿景。
边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI 超大AI模型训练成本太高hold不住?连市值万亿的公司都开始寻求合作了。 仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。 不到一个月的时间里,最大英文和中文AI单体模型的纪录分别被刷新。 今年国内科技公司也开始了类似研究,中文AI模型“源1.0”便是国内硬件公司的一次突破—— 成就中文领域最大NLP模型,更一度刷新参数最多的大模型纪录。 大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI巨量模型既然不“闭门造车”,那如何走向合作? 而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。
---- 新智元报道 来源:Venturebeat 编辑:大明 【新智元导读】英伟达与MIT合作推出视频合成AI新技术,直接用现实视频生成逼真的虚拟世界。 英伟达的研究人员打造出一个新的AI生成模型,可以使用来自YouTube等来源的真实视频创建虚拟环境,这可能影响游戏开发和人工智能的未来。 左上为输入,其余为不同模型的输出,右下为英伟达和MIT最新模型vid2vid的输出 “想象一下,如果你能在电子游戏中扮演自己的角色。 “英伟达长期以来一直致力于图形处理技术,因此我们非常高兴能够将图形技术带入AI时代,并使用AI技术生成图形,我们可以从现实世界的视频中了解事物的运作方式,然后根据学到的知识,合成出逼真的、基于实际内容的虚拟图像 英伟达在此基础上与加州大学伯克利分校的AI研究人员合作,打造了Pix2PixHD系统作为回应。 今年早些时候,加州大学伯克利分校的研究人员还制作了能够跳舞、翻转以及其他20种复杂动作的模型。
大模型探秘–AI 感知世界:从对话到掌控的交互革命 引言 在当今科技飞速发展的时代,AI大模型正以前所未有的速度改变着我们与世界交互的方式。 本文将深入探讨AI大模型与外界交互的几个重要方面,包括大模型训练数据集、ChatGPT等对话应用、知识库和长上下文、FunctionCall、ToolUse和MCP以及环境融合(AI操作操作系统、浏览器 、ToolUse和MCP (一)FunctionCall的定义和工作原理 FunctionCall是OpenAI在2023年6月13日推出的革命性功能,允许开发者通过自然语言指令触发预定义函数,实现大模型与现实世界系统的交互 它可以被比喻为“AI扩展坞”,作为一种AI模型的标准化接入协议,能够显著简化模型之间的集成。 结论 AI大模型与外界的交互是一个多维度、多层次的过程,从训练数据集的构建到各种应用场景的实现,每一个环节都展现了AI大模型的强大能力和无限潜力。
3.2自我模型和世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙
AI模型部署方法 在AI深度学习模型的训练中,一般会用Python语言实现,原因是其灵活、可读性强。但在AI模型实际部署中,主要会用到C++,原因在于其语言自身的高效性。 AI模型部署框架 模型部署常见的推理框架有:ONNX、NCNN、OpenVINO、 TensorRT、Mediapipe。 MediaPipe 还有助于将机器学习技术部署到各种不同硬件平台上的演示和应用程序中,为移动、桌面/云、web和物联网设备构建世界级ML解决方案和应用程序。 3. AI模型部署平台 AI 模型部署是将训练好的 AI 模型应用到实际场景中的过程。 以下是一些常见的 AI 模型部署平台: 云端部署 云端部署是最流行的 AI 模型部署方式之一,通常使用云计算平台来托管模型和处理请求。
在人工智能技术蓬勃发展的当下,DeepFig作为全球AI领域的新锐力量,正以令人惊叹的速度崛起,挑战人工智能的前沿性难题。 DeepFig专注于研究世界领先的通用人工智能底层模型与技术,仅用半天时间便已整合多个百亿级参数大模型,包括deepfig-llm通用大语言模型、deepfig-coder代码大模型、deepfig-flash 大模型以及deepfig plus等。 这些模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。与其他AI模型相比,DeepFig在技术架构、应用场景和性能表现上都具有独特优势。 与谷歌DeepMind依赖于云端千卡集群的解决方案不同,DeepFig通过模型小型化大幅降低算力需求,通过网络结构优化降低数据依赖,为家庭服务、养老医疗等民生领域提供了更优解决方案。!
今日,Cerebras 宣布世界首个「大脑级」AI 集群,能够训练120万亿参数模型,击败人脑百万亿个突触! 突触,是神经网络的「桥梁」。 人类大脑有大约 100 万亿个突触,860 亿个神经元。 而现在,Cerebras 宣布了「第一个大脑级 AI 解决方案」! 一个可以支持 120 万亿参数 AI 模型的单一系统,击败了人脑万亿个突触。 相比之下,最大的AI硬件集群大约占人类大脑规模的 1%,约 1 万亿个突触(参数)。 Cerebras 可以通过单个CS-2系统(85万个内核)实现首创! 世界第一! 192个AI集群,解锁万亿参数模型 参数越多,人工智能模型就越复杂。 谷歌在短短2年内将模型参数的数量提高了大约1000倍。 参数的数量,所需的算力,都呈指数级增长。 二、Cerebras MemoryX:启用百万亿参数模型 这是一种一内存扩展技术,它使模型参数能够存储在芯片外,并有效地流式传输到 CS-2,实现同在芯片上那样的性能。
导语 新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野 南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题 ,但很少有文章来介绍世界模型。 什么是世界模型 当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。 (OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?