首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据派THU

    ChatGPT 与世界:对话式 AI 模型对比

    来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。   作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 简介 作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。 它是一个分布式的机器学习框架,可以在多台机器上训练大型模型。这有助于开发更复杂、更先进的语言模型。 : https://www.analyticsvidhya.com/blog/2023/03/chatgpt-vs-the-world-a-comparison-of-conversational-ai-models

    53410编辑于 2023-05-11
  • 来自专栏新智元

    从文字模型世界模型!Meta新研究让AI Agent理解物理世界

    这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。 这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。 EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。 下方是LLM-Match打分的流程,通过问题和场景的输入,AI模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。 现阶段VLM的表现 一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。 这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。 这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

    38910编辑于 2024-04-19
  • 来自专栏山行AI

    聊聊火出圈的世界AI模型——Sora

    这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。 Sora案例和提示词 一个聚合Sora案例和prompt的网站:https://cn.videosora.ai 为什么称Sora为世界模型? Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。 世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型世界的记忆和理解 Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。

    1.4K10编辑于 2024-02-26
  • 来自专栏前端javascript

    Sora & 世界模型

    Sora 是一个 AI 模型,可以从文本指令中创建真实和富有想象力的场景。 我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。 该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。 百度翻译 带来的机遇与挑战 从官方的解释和成效上来看sora可以模拟一个虚拟的世界模型ai掀起的科技革命时代已经到来,需要去拥抱gpt和sora带来的变化!

    57110编辑于 2024-02-18
  • 开源AI模型与虚拟世界构建技术前沿

    Replicate Intelligence #11发布于 2024年8月16日,作者:deepfates欢迎阅读每周简报!我们将为您带来最新的开源AI模型、工具和研究进展。 演示研究动态从草图到可玩的3D游戏世界Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。 该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。 在物体周围绘制边界框,模型就会让您控制它们的运动和位置。这项技术让我们向完全交互式的AI生成内容又迈进了一步。预计未来会有更多关于在视频空间中为概念分配标记的研究。 您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了注册!

    19510编辑于 2025-12-21
  • 来自专栏新智元

    Runway官宣下场通用世界模型!解决视频AI最大难题,竟靠AI模拟世界

    新智元报道 编辑:编辑部 【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 Runway官方今天突然官宣,我们要做通用世界模型(General World Model),用Gen AI来模拟整个世界! 通用世界模型 (GWM) 我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。 世界模型是一种对环境有着内部理解的AI系统。 针对Runway的这个世界模型宣言,从小了讲,我们可以把它翻译为: 现在我们的AI生视频系统,生成的视频会有很多匪夷所思的内容,比如这样: 这样, 甚至是这样: 就像LLM会产生幻觉,信口胡诌一些不存在的内容一样 世界模型到底是什么? 对于现在的AI系统是否能够理解我们生活的这个世界,现在人类还所知甚少。 图灵巨头LeCun不断讽刺现在的LLM,说他看起来上天文下知地理,但是连3岁小孩的理解能力都没有。

    48110编辑于 2023-12-12
  • 来自专栏新智元

    LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA

    新智元报道 编辑:桃子 好困 【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 起因是,网友挖出前几天LeCun参加WGS峰会上发表的观点:「在AI视频方面,我们不知道该怎么做」。 在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。 V-JEPA:非生成式模型 与生成式AI模型Sora完全不同,V-JEPA是一种「非生成式模型」。 它通过预测视频中被隐藏或缺失部分,在一种抽象空间的表示来进行学习。 从长远来看,在未来应用中,V-JEPA强大情境理解力,对开发具身AI技术以及未来增强现实(AR)眼镜有着重大意义。 现在想想,如果苹果Vision Pro能够得到「世界模型」的加持,更加无敌了。 网友讨论 显然,LeCun对生成式AI并不看好。 「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。

    39010编辑于 2024-02-26
  • 来自专栏java达人

    源代码世界8—复活

    “也许在意识的世界里,本来就没有所谓的重力,一切只是意识的羁绊罢了。”托马斯问关河洲,“你能做到吗?” 关河洲摇了摇头:“这孩子本来就没有太多的思想和知识的负担吧。” “我的孩子,也许就做不到。” 想不到他们也会来这虚拟世界。” 托马斯自言自语道。 “丛林师傅是从来就是不支持把人类意识传送到源代码世界的,他们认为,我们的思想无非就是因缘而起,对境而生罢了,不必费心追逐什么东西。”关河洲道。 “我猜想应该是在这些师傅死去的一刹那,有人强行将他们的意识吸入到这个世界的。” “因缘而起,对境而生。” 德兰把这句话小声说了一遍,透过这暗红色,他仿佛看到丛林里一个僧人在抽搐,挣扎,顿时毛骨悚然。

    56020发布于 2019-05-14
  • 来自专栏token的技术分享

    基于.NET8AI模型管理

    AIDotNet API AIDotNet API 是一款强大的人工智能模型管理系统,其主要目的是为了实现多种AI模型的统一管理和使用。 通过AIDotNet API,用户可以轻松地管理和使用众多AI模型,而且AIDotNet API兼容OpenAI的接口格式,使得使用更加方便。 此外,AIDotNet API还支持多种AI模型,包括OpenAI、星火大模型、Claudia、智谱AI、Ollama、通义千问(阿里云)、AzureOpenAI以及腾讯混元大模型,满足了用户对各种AI 基于.NET Core 8实现使用EntityFrameworkCore对于数据库操作。基于MiniApis提供WebAPI服务。 ) 星火大模型(支持function) Claudia 智谱AI Ollama 通义千问(阿里云) AzureOpenAI(支持function) 腾讯混元大模型 支持数据库 SqlServer 配置类型

    36010编辑于 2024-05-28
  • 来自专栏多模态模型系列

    浅谈世界模型(上篇)

    (前段时间在看世界模型相关论文,规划一月初的文章,拖到了一月底...)在通往通用人工智能(AGI)的道路上,“世界模型”已成为核心战场。本文就浅谈下世界模型。 由于篇幅较长,文章分为上下两篇:上篇:世界模型的概念与抽象建模路线心智模型世界模型的哲学起点世界模型:从强化学习到通用建模联合嵌入流派:JEPA 系列下篇:世界模型的生成、行动与空间智能路线视频生成流派 Lecun在论文中指出动物和人类展现出的学习能力和对世界的理解远远超过了当前的AI。生物能在有限数据下快速学习复杂技能,能有常识地进行推理与规划;能根据观察而不是纯监督大量试错来构建世界知识。 但是现有的AI技术的核心局限包括:缺乏稳定且全面的世界模型;学习依赖外部监督和强化学习试验次数极高;现有表示和策略学习系统难以实现长期规划和抽象推理。 模型经过监督微调后,在8个视频分类和8个视频检索数据集的平均性能上超过了CLIP、SigLIP2等专门模型

    1.5K128编辑于 2026-01-30
  • 来自专栏机器之心

    怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键​

    机器之心报道 机器之心编辑部 Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身 今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。 如表 8 所示,当 IWM 学习一个不变的世界模型时,其表现类似于对比学习方法,如 MoCov3,在线性探测中与 MIM 或其他基于 JEPA 的方法相比有显著的性能提升。 通过改变世界模型的等变性,IWM 能够在对比学习方法和 MIM 之间有属于自己的位置,如图 4 和表 8 所示, 和 是 IWM 光谱的两个极端。

    47510编辑于 2024-03-07
  • 来自专栏多模态模型系列

    浅谈世界模型(下篇)

    它将这些变化归类为 8 到 16 种“潜在动作”(Latent Actions)。虽然模型不知道这些动作叫“跳”或“走”,但它可以去识别出这些动作的模式。 3. Genie2是一个大规模基础世界模型(Foundation World Model),Genie 1 主要局限于 2D 平台游戏,而 Genie 2 它将 AI 生成的交互性从简单的 2D 平面提升到了复杂的 1.2.3 Genie3:电影级画质与实时交互 2025 年 8 月,Google DeepMind 发布了 Genie 3,进化的更高清、更流畅、更持久、更可控。 Dreamer 核心是基于深度强化学习算法,它的目标是让 AI 机器人或智能体通过在大脑中模拟来学习。 未来的世界模型可能融合各家之长:既能理解抽象规律,又能生成动态场景,还能支持智能体在其中安全高效地学习交互策略。 至少世界模型已从概念走向实践,成为快速演进的AI基础设施。

    90831编辑于 2026-02-11
  • 来自专栏AgenticAI

    Google发布新世界模型Genie 2:大规模基础世界模型

    基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。 基础世界模型的新兴能力 到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。 对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。 这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。 扩散世界模型 Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。

    47610编辑于 2025-03-18
  • 来自专栏小巫技术博客

    模型 MCP:开启 AI 与现实世界的无缝交互革命

    MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开源协议,旨在实现大型语言模型(LLM)与外部数据源和工具的无缝集成,用来在大模型和数据源之间建立安全双向的链接 总结 MCP 的出现标志着 AI 从 "单机智能" 向 "网络智能" 的跃迁。 它通过标准化协议解决了大模型与外部世界的交互难题,催生了一个全新的生态系统: • 开发者:专注于构建标准化的 MCP 服务器,降低工具开发门槛。 正如 HTTP 协议重塑了互联网,MCP 或许正在成为 AI 时代的基础设施。 随着 OpenAI、微软等巨头的加入,以及开源社区的蓬勃发展,MCP 有望推动 AI 从实验室走向更广阔的现实世界,最终实现 "万物互联,智联世界" 的愿景。

    59210编辑于 2025-06-16
  • 来自专栏量子位

    中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了

    仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。 不到一个月的时间里,最大英文和中文AI单体模型的纪录分别被刷新。 今年国内科技公司也开始了类似研究,中文AI模型“源1.0”便是国内硬件公司的一次突破—— 成就中文领域最大NLP模型,更一度刷新参数最多的大模型纪录。 大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI巨量模型既然不“闭门造车”,那如何走向合作? 而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。 17-billion-parameter-language-model-by-microsoft/ [3]https://mp.weixin.qq.com/s/0SE3rv3MdDzbqwAVFtSe8Q

    47920发布于 2021-10-20
  • 来自专栏新智元

    英伟达MIT黑科技 :用AI生成模型快速构建虚拟世界

    ---- 新智元报道 来源:Venturebeat 编辑:大明 【新智元导读】英伟达与MIT合作推出视频合成AI新技术,直接用现实视频生成逼真的虚拟世界。 英伟达的研究人员打造出一个新的AI生成模型,可以使用来自YouTube等来源的真实视频创建虚拟环境,这可能影响游戏开发和人工智能的未来。 左上为输入,其余为不同模型的输出,右下为英伟达和MIT最新模型vid2vid的输出 “想象一下,如果你能在电子游戏中扮演自己的角色。 “英伟达长期以来一直致力于图形处理技术,因此我们非常高兴能够将图形技术带入AI时代,并使用AI技术生成图形,我们可以从现实世界的视频中了解事物的运作方式,然后根据学到的知识,合成出逼真的、基于实际内容的虚拟图像 英伟达在此基础上与加州大学伯克利分校的AI研究人员合作,打造了Pix2PixHD系统作为回应。 今年早些时候,加州大学伯克利分校的研究人员还制作了能够跳舞、翻转以及其他20种复杂动作的模型

    79620发布于 2018-12-26
  • 来自专栏CreateAMind

    实现最小意识模型-4 自我模型世界模型

    3.2自我模型世界模型 我们在这里归类的模型都有一个共同的想法,那就是,对于一个有意识的事物来说,这个事物必须能够塑造它自己和它的世界:换句话说,有意识就是成为那种参与情境自我塑造的事物。 根据IWMT的观点,意识是一个整合世界模型的过程。 更确切地说,意识将对应于正在进行的关于被体现的主体的可能感觉状态的推论或预测的产生;这些推论是以因果世界模型为条件的,而因果世界模型又是从生态位内的目标追求历史中训练出来的。 这一理论的前提是认知系统被赋予了特定的世界建模能力。这些世界模型具有空间、时间和因果的一致性。 更复杂的自我模型和各种形式的“有意识的接触”被提出来要求与额叶皮质耦合,以便这些估计以具有更大时间深度和反事实丰富性的因果世界模型为条件,特别是被引导到公开和隐蔽行动的轨迹中(Safron,2021a萨夫龙

    65130编辑于 2023-11-01
  • #大模型探秘–AI感知世界:从对话到掌控的交互革命

    模型探秘–AI 感知世界:从对话到掌控的交互革命 引言 在当今科技飞速发展的时代,AI模型正以前所未有的速度改变着我们与世界交互的方式。 本文将深入探讨AI模型与外界交互的几个重要方面,包括大模型训练数据集、ChatGPT等对话应用、知识库和长上下文、FunctionCall、ToolUse和MCP以及环境融合(AI操作操作系统、浏览器 、ToolUse和MCP (一)FunctionCall的定义和工作原理 FunctionCall是OpenAI在2023年6月13日推出的革命性功能,允许开发者通过自然语言指令触发预定义函数,实现大模型与现实世界系统的交互 它可以被比喻为“AI扩展坞”,作为一种AI模型的标准化接入协议,能够显著简化模型之间的集成。 结论 AI模型与外界的交互是一个多维度、多层次的过程,从训练数据集的构建到各种应用场景的实现,每一个环节都展现了AI模型的强大能力和无限潜力。

    32510编辑于 2025-11-24
  • 来自专栏C++开发学习交流

    AI模型AI模型部署概述

    AI模型部署方法 在AI深度学习模型的训练中,一般会用Python语言实现,原因是其灵活、可读性强。但在AI模型实际部署中,主要会用到C++,原因在于其语言自身的高效性。 OpenVINO在模型部署前,首先会对模型进行优化,模型优化器会对模型的拓扑结构进行优化,去掉不需要的层,对相同的运算进行融合、合并以加快运算效率,减少内存拷贝;FP16、INT8量化也可以在保证精度损失很小的前提下减小模型体积 MediaPipe 还有助于将机器学习技术部署到各种不同硬件平台上的演示和应用程序中,为移动、桌面/云、web和物联网设备构建世界级ML解决方案和应用程序。 3. AI模型部署平台 AI 模型部署是将训练好的 AI 模型应用到实际场景中的过程。 以下是一些常见的 AI 模型部署平台: 云端部署 云端部署是最流行的 AI 模型部署方式之一,通常使用云计算平台来托管模型和处理请求。

    1.8K10编辑于 2024-07-24
  • 来自专栏硬核项目经理的专栏

    【Laravel系列8】走出 Laravel 的世界

    走出 Laravel 的世界 还记得这个系列的第一篇文章是什么吗?当时我们写的是《进入Laravel的世界》。照理说,学习完了,日常应用更得心应手了,我们为啥又要走出呢? 在开始的时候,我们走进 Laravel 的世界。从头到尾并没有很深入的讲解每一个功能的使用,这些内容讲的教程太多了,通常我们只是简单地介绍一个功能的使用,然后就开始分析它的源码。 现在的 PHP8 引入了 JIT ,配合 OPCache ,再加上多台机器分布式部署的话,其实性能也不差。 服务容器、门面、模型它们的实现过程其实都很复杂,但是呈现给我们的确实是优雅的感觉,变量命名规范、代码层次清晰等等,就不一一列举了。

    1.9K30编辑于 2023-03-03
领券