首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据派THU

    ChatGPT 与世界:对话式 AI 模型对比

    来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。   作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 GPT-3 在 ChatGPT 的竞争对手中,GPT-3(Generative Pre-trained Transformer 3)可能是最著名的。 GPT-3 是 OpenAI 开发的一种语言模型,它生成的自然语言文本几乎和人类编写的文本一样。凭借其庞大的语言模式数据库,GPT-3 还可以将文本翻译成不同的语言,以及汇总复杂的信息。

    53410编辑于 2023-05-11
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。 这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • 来自专栏山行AI

    聊聊火出圈的世界AI模型——Sora

    这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora案例和提示词 一个聚合Sora案例和prompt的网站:https://cn.videosora.ai 为什么称Sora为世界模型? Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型世界的记忆和理解 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。

    1.4K10编辑于 2024-02-26
  • Genie 3:交互式世界模型的新前沿

    Genie 3世界模型的新前沿今天,某中心宣布了Genie 3,这是一个通用的世界模型,能够生成前所未有的多样性交互环境。 这项工作推动了世界模型的发展,这是一种能够利用其对世界的理解来模拟其各个方面的AI系统,使智能体能够预测环境将如何演化以及其行动将如何影响环境。 世界模型也是通往通用人工智能(AGI)道路上的关键垫脚石,因为它们使得在丰富的模拟环境的无限课程中训练AI智能体成为可能。 这些模型分别标志着世界模拟不同能力方面的进展。Genie 3是首个允许实时交互的世界模型,同时相较于Genie 2,它在一致性和真实感方面也有所提升。 后续步骤某中心相信,Genie 3世界模型的一个重要时刻,它们将开始对AI研究和生成式媒体的许多领域产生影响。为此,正在探索如何让更多测试者在未来能够使用Genie 3

    28710编辑于 2026-01-09
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型ai掀起的科技革命时代已经到来,需要去拥抱gpt和sora带来的变化!

    57110编辑于 2024-02-18
  • 开源AI模型与虚拟世界构建技术前沿

    我们将为您带来最新的开源AI模型、工具和研究进展。人们正在创造酷炫的东西,我们想与您分享。闲话少叙,下面是我们的常驻专家 deepfates 对本周AI领域的直率见解。 演示研究动态从草图到可玩的3D游戏世界Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。 该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。 在物体周围绘制边界框,模型就会让您控制它们的运动和位置。这项技术让我们向完全交互式的AI生成内容又迈进了一步。预计未来会有更多关于在视频空间中为概念分配标记的研究。 您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了注册!

    19510编辑于 2025-12-21
  • 来自专栏新智元

    Runway官宣下场通用世界模型!解决视频AI最大难题,竟靠AI模拟世界

    新智元报道 编辑:编辑部 【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 Runway官方今天突然官宣,我们要做通用世界模型(General World Model),用Gen AI来模拟整个世界! 通用世界模型 (GWM) 我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。 世界模型是一种对环境有着内部理解的AI系统。 针对Runway的这个世界模型宣言,从小了讲,我们可以把它翻译为: 现在我们的AI生视频系统,生成的视频会有很多匪夷所思的内容,比如这样: 这样, 甚至是这样: 就像LLM会产生幻觉,信口胡诌一些不存在的内容一样 世界模型到底是什么? 对于现在的AI系统是否能够理解我们生活的这个世界,现在人类还所知甚少。 图灵巨头LeCun不断讽刺现在的LLM,说他看起来上天文下知地理,但是连3岁小孩的理解能力都没有。

    48110编辑于 2023-12-12
  • 来自专栏新智元

    世界最强医疗模型百川M3发布:AI医疗,奇点已至

    新智元报道 编辑:艾伦 【新智元导读】百川发布并开源全球最强医疗模型 Baichuan-M3,各项指标均已 SOTA!同时 M3 也超越了人类医生的平均水平。 百川智能发布并开源了新一代医疗增强大语言模型 Baichuan-M3。 在百川创始人王小川看来,这绝非仅仅是模型参数的升级,更是一次对「AI 医疗」的重新定义。 它考核的是 AI「会不会回答问题」。 但在百川看来,这远远不够。 临床如战场,医生面对的是动态的、混乱的、信息不全的真实世界。 医疗模型必须要能够带着诊疗目标,完整的收集患者信息。 百川证明了,通过对医疗决策过程的深度建模,大模型可以走出「聊天机器人」的舒适区,进入严肃、严谨且充满敬畏的临床世界。 技术是冰冷的,但医疗永远关乎人性的温度。 参考资料: 百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力 百小应网页端:https://ying.baichuan-ai.com/chat 开源链接: Hugging Face 地址

    47010编辑于 2026-01-26
  • 来自专栏机器之心

    谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

    Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。 消息发布后,好评与震惊如潮水般涌现。 Genie 2:划时代的世界模型 Genie 2 是一个基础世界模型(foundation world model),有能力生成无限多种可控制动作、可玩的 3D 环境,而这些 3D 环境又可用于训练和评估具身智能体 World Labs 的单图生成 3D 场景的效果演示 从这个描述看,李飞飞的研究项目似乎更接近真正的世界模型一些。 其可生成丰富多样的 3D 世界。 Genie 2 是一个世界模型,这就意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 在世界模型中行动的 AI 智能体 通过使用 Genie 2 快速为 AI 智能体创建丰富多样的环境,研究人员还可以生成智能体在训练期间未见过的评估任务。

    41100编辑于 2025-02-14
  • Google重磅上线通用世界模型Genie 3 - 此即未来。

    要理解Genie 3的颠覆性,我们必须先弄明白一个概念。 世界模型。 这个词听起来很玄乎,但我们可以用一个简单的比喻来理解。 比如说过去的视频生成模型,Sora,更像是一位电影导演。 当你按下手柄的按键,它会根据这个世界的规则,实时地计算并渲染出接下来会发生什么。 这就是Genie 3和Sora、Veo3之类的AI视频产品最本质的区别。 在探索世界模型的同时,另一条AI视频的路线也在狂飙突进,代表作大家肯定都知道了,就是Veo。 Veo把分辨率直接干到了4K级别,生成的画面也极其通用和逼真,可以说是现在最牛逼的AI视频模型了。 但它的本质,依然是AI视频模型,没有交互。 它只负责把画质和真实感这条路走到极致。 然后,就是今天,主角Genie 3登场了。 它像一个集大成者,终于解决了前辈们无法调和的矛盾。 我在一个世界模型里,走出了恐怖游轮的感觉。 而Genie 3最牛逼的地方,恰恰就是在这个要命的问题上取得了突破。

    53210编辑于 2025-08-08
  • 来自专栏新智元

    LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA

    新智元报道 编辑:桃子 好困 【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 起因是,网友挖出前几天LeCun参加WGS峰会上发表的观点:「在AI视频方面,我们不知道该怎么做」。 在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。 为了确保结果的可靠性,在每种比例下进行了3次独立的测试,并计算出了平均值和标准偏差。 从长远来看,在未来应用中,V-JEPA强大情境理解力,对开发具身AI技术以及未来增强现实(AR)眼镜有着重大意义。 现在想想,如果苹果Vision Pro能够得到「世界模型」的加持,更加无敌了。 网友讨论 显然,LeCun对生成式AI并不看好。 「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。

    39010编辑于 2024-02-26
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    它生成的不是“看起来像”的视频,而是可进入、可旋转、具有3D 几何结构的持久化世界。优势:提供三维推理能力,支持机器人导航、建筑设计等需要精确空间感的应用3. Lecun在论文中指出动物和人类展现出的学习能力和对世界的理解远远超过了当前的AI。生物能在有限数据下快速学习复杂技能,能有常识地进行推理与规划;能根据观察而不是纯监督大量试错来构建世界知识。 但是现有的AI技术的核心局限包括:缺乏稳定且全面的世界模型;学习依赖外部监督和强化学习试验次数极高;现有表示和策略学习系统难以实现长期规划和抽象推理。 论文的核心方案:提出了用于学习表示层次结构的预测世界模型的非生成架构2. 一种非对比的自我监督学习范式,它产生同时提供信息和可预测的表示。3. 利用这个动作条件模型——V-JEPA 2-AC(3亿参数的Transform结构模型),通过在模型预测控制环内进行规划,来完成下游的机器人操作任务,达到规划和执行能力。

    1.5K128编辑于 2026-01-30
  • 来自专栏机器之心

    怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键​

    机器之心报道 机器之心编辑部 Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身 今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。 在图 3 中,展示了预测器微调与编码器微调相比的效率。 表征学习的主要目标之一是获得可用于各种任务的表征。 如表 8 所示,当 IWM 学习一个不变的世界模型时,其表现类似于对比学习方法,如 MoCov3,在线性探测中与 MIM 或其他基于 JEPA 的方法相比有显著的性能提升。

    47510编辑于 2024-03-07
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 从第一人称视角探索森林、地下城到城市,AI 能够实时模拟视角转动、景深变化和复杂的 3D 空间结构。 2. Marble :多模态 3D 世界生成模型 Marble 是 World Labs 推出的第一个多模态世界模型。 它能够将当前尖端的 3D Gaussian Splatting (3DGS) 技术原生集成到 Web 开发环境中,极大降低了在网页上渲染高质量 3D AI 内容的门槛。 未来的世界模型可能融合各家之长:既能理解抽象规律,又能生成动态场景,还能支持智能体在其中安全高效地学习交互策略。 至少世界模型已从概念走向实践,成为快速演进的AI基础设施。

    90831编辑于 2026-02-11
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    为未来通用智能体生成无限多样化的培训环境 今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 Genie 2 可以生成种类繁多的丰富 3D 世界。 Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。 对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。 这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。

    47610编辑于 2025-03-18
  • 来自专栏小巫技术博客

    模型 MCP:开启 AI 与现实世界的无缝交互革命

    MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开源协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成,用来在大模型和数据源之间建立安全双向的链接 Cline 配置MCP Server 示例配置 配置内容(json): {   "mcpServers": {     "fetch": {       "command": "python3",       总结 MCP 的出现标志着 AI 从 "单机智能" 向 "网络智能" 的跃迁。 它通过标准化协议解决了大模型与外部世界的交互难题,催生了一个全新的生态系统: • 开发者:专注于构建标准化的 MCP 服务器,降低工具开发门槛。 随着 OpenAI、微软等巨头的加入,以及开源社区的蓬勃发展,MCP 有望推动 AI 从实验室走向更广阔的现实世界,最终实现 "万物互联,智联世界" 的愿景。

    59210编辑于 2025-06-16
  • 来自专栏量子位

    中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了

    仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。 不到一个月的时间里,最大英文和中文AI单体模型的纪录分别被刷新。 △ 近年来NLP模型参数呈指数级上涨(图片来自微软) 而GPT-3出现后,虽然有Switch Transformer等万亿参数混合模型出现,但单体模型增长速度已经明显放缓。 今年国内科技公司也开始了类似研究,中文AI模型“源1.0”便是国内硬件公司的一次突破—— 成就中文领域最大NLP模型,更一度刷新参数最多的大模型纪录。 中英AI模型互有胜负 训练成本趋高,技术趋同,为何各家公司还是选择独自研究,不寻求合作? 我们从GPT-3身上或许可见一斑。 而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。

    47920发布于 2021-10-20
  • 来自专栏韩曙亮的移动开发专栏

    AI模型】Meta Llama 3模型 ( Llama 3模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3模型 ; 一 、Meta Llama 3模型安装 1、Llama 3模型简介 Llama 3模型 是 Meta 公司 发布的 大模型 , Meta 公司 就是 Facebook ; Llama 3模型 Llama3模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3模型使用 1、Llama 3模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3模型离线使用 Llama 3模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3模型 在 断网后也可以使用 , 下面是断开网络后

    1.7K12编辑于 2024-08-09
  • 来自专栏网络安全技术点滴分享

    Genie 3世界模型的新前沿 - 实时交互环境生成技术突破

    Genie 3世界模型的新前沿发布日期:2025年8月5日 作者:Jack Parker-Holder 和 Shlomi Fruchter今天我们宣布推出 Genie 3,这是一个通用世界模型,能够生成前所未有的多样化交互环境 世界模型也是通往AGI(人工通用智能)的关键垫脚石,因为它们可以在丰富的模拟环境的无限课程中训练AI智能体。 我们还通过 Veo 2 和 Veo 3 模型继续推动视频生成的技术水平,这些模型表现出对直观物理的深刻理解。这些模型中的每一个都在世界模拟的不同能力方面取得了进展。 Genie 3 是我们的第一个允许实时交互的世界模型,同时与 Genie 2 相比,还提高了一致性和真实感。 下一步我们相信 Genie 3世界模型的重要时刻,它们将开始对AI研究和生成媒体的许多领域产生影响。为此,我们正在探索如何将来向更多测试者提供 Genie 3

    37200编辑于 2025-09-05
  • 来自专栏腾讯开源的专栏

    腾讯混元3D世界模型正式发布并开源

    7月27日,在2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型 1.0,并全面开源。 除3D世界模型外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。 对游戏开发者而言,混元3D世界模型极大简化了3D场景构建流程,只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整3D场景。 混元3D世界模型1.0的核心还在于其创新的「语意层次化3D场景表征及生成算法」。 与全球领先的开源模型相比,混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前SOTA的开源模型

    2K60编辑于 2025-07-29
领券