首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NewBeeNLP

    模型涌现能力 (Emergent Abilities of LLM)

    Emergent Abilities Definition 本文中对LLM的emergent abilities的定义为: 在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent ) 下表给出了模型出现emergent ablities的规模统计 4. 4.3 Another view of emergence 虽然模型的规模与模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。 4.4 Directions for future work 作者为未来研究模型中的emergent abilitie提供了一些方向。 Further model scaling: 继续增加模型的规模探究模型的表现的提升。

    1.5K31编辑于 2023-08-29
  • 来自专栏算法进阶

    GPT模型涌现能力的概述

    我们针对这些在小模型上没有出现,但是在模型上出现的不可预测的能力——“涌现能力”做了一些归纳和总结,分别简要介绍了涌现能力的定义、常见的激发手段和具体的分类和任务。 对于大规模语言模型涌现能力,在 Jason Wei 等人的工作中[4]的工作中,给出的定义: 在小模型中没有表现出来,但是在模型中变现出来的能力"(An ability is emergent if 基于普通提示的涌现能力 通过 prompt 激发模型能力的方法最早在GPT3[5]的论文中提出提示范式的部分加以介绍:给定一个提示(例如一段自然语言指令),模型能够在不更新参数的情况下给出回复。 优秀的上下文学习能力 大规模的语言模型展现出了优秀的上下文学习能力(In-context learning)。这种能力并非模型专属,但是模型的足够强大的上下文学习能力是之后各种涌现能力激发的基础。 四、涌现能力是海市蜃楼? 在斯坦福大学最新的工作[19]中指出,模型涌现能力来自于其不连续的评价指标,这种不连续的评价指标导致了模型性能在到达一定程度后出现“大幅提升”。

    1.2K20编辑于 2023-08-28
  • 来自专栏新智元

    谷歌找到模型能力涌现机制

    ---- 新智元报道   编辑:桃子 【新智元导读】模型涌现能力如何理解?谷歌的最新论文研究了语言模型中的上下文学习,是如何受到语义先验和输入-标签映射影响。 前段时间,OpenAI整出了神操作,竟让GPT-4去解释GPT-2的行为。 对于大型语言模型展现出的涌现能力,其具体的运作方式,就像一个黑箱,无人知晓。 网友表示,这对模型新的涌现能力很有见解。 AI「黑箱」怎么破? 一般来说,模型能够在上下文中学习,有以下2个因素: 一种是使用预先训练的语义先验知识来预测标签,同时遵循上下文范例的格式。 这些结果表明,当输入标签映射相互矛盾时,模型可以覆盖预训练的先验知识。 小型模型无法做到这一点,这使得这种能力成为模型规模的涌现现象。 谷歌这篇论文强调了语言模型的ICL行为如何根据其参数而改变,并且更大的语言模型具有将输入映射到许多类型的标签的涌现能力。 这是一种推理形式,其中输入-标签映射可以潜在地学习任意符号。

    48160编辑于 2023-05-22
  • 来自专栏机器之心

    谷歌:模型不仅有涌现能力,训练时间长了还有「领悟」能力

    机器之心报道 编辑:陈萍、小舟、梓文 模型在达到一定规模时会出现涌现现象,谷歌的研究表明,模型在训练到一定时间后,会出现另一种现象,即「领悟」现象。 2021 年,研究人员在训练一系列微型模型时取得了一个惊人的发现,即模型经过长时间的训练后,会有一个变化,从开始只会「记忆训练数据」,转变为对没见过的数据也表现出很强的泛化能力。 为了更好的了解这一问题,本文来自谷歌的研究者撰写了一篇博客,试图弄清楚模型突然出现「领悟」现象的真正原因。 如果将单个神经元的权重可视化,这种周期性变化更加明显: 别小看周期性,权重的周期性表明该模型正在学习某种数学结构,这也是模型从记忆数据转变为具有泛化能力的关键。 测试损失的急剧下降使得模型看起来像是突然泛化,但如果查看模型在训练过程中的权重,大多数模型都会在两个解之间平滑地插值。

    47730编辑于 2023-09-08
  • AGORA:通过群体蒸馏激发语言模型的群体涌现能力

    提出将结构化交互作为新的扩展维度,超越单纯增加模型参数的现有范式。自进化框架AGORA通过协作集成实现推理性能提升,在挑战性数学基准上比现有最优单体系统高出4.45个百分点。 这种增益源于群体涌现能力——孤立模型无法实现的集体能力合成,验证了交互作为智能可扩展驱动力的有效性。研究结果将协作生态系统的工程化定位为能力涌现的关键前沿。 主题分类机器学习(cs.LG) 人工智能(cs.AI) 核心创新交互式扩展轴:突破传统参数缩放模式,建立模型间结构化交互机制 群体蒸馏技术:通过协作集成产生超越单体模型的群体涌现能力 性能验证: 在数学推理任务中实现4.45%的绝对性能提升 技术价值该研究为语言模型能力突破提供了新范式,证明通过设计交互生态激发的群体智能可成为继数据/参数扩展后的第三代能力提升路径。

    17210编辑于 2025-08-05
  • 来自专栏AI科技大本营的专栏

    ChatGPT 类语言模型为什么会带来“神奇”的涌现能力

    本文整理自 3 月 11 日 「ChatGPT 及大规模专题研讨会」上,来自新浪微博新技术研发负责人张俊林《大型语言模型涌现能力:现象与解释》的分享,介绍了语言模型中的涌现现象,以及关于涌现能力背后原因的相关猜想 张俊林,中国中文信息学会理事,新浪微博新技术研发负责人 此次分享的内容主要分为五板块,分别是: 一、什么是模型涌现能力 二、LLM  表现出的涌现现象 三、LLM 模型规模和涌现能力的关系 四、模型训练中的顿悟现象 什么是模型涌现能力 复杂系统中的涌现现象 复杂系统学科里已经对涌现现象做过很久的相关研究。那么,什么是“涌现现象”? 因此,模型规模增长是必然趋势,当推进模型规模不断增长的时候,涌现能力的出现会让任务的效果更加出色。 在这里介绍模型训练过程中的顿悟,目的是希望建立起它和模型涌现能力之间的联系,我在本文后面会尝试用顿悟现象来解释模型涌现能力。 我们首先解释下什么是顿悟现象。

    1.1K20编辑于 2023-04-06
  • 来自专栏《C++与 AI:个人经验分享合集》

    《解码AI模型涌现能力:从量变到质变的智能跃迁》

    在当今科技飞速发展的时代,人工智能模型涌现能力成为了众人瞩目的焦点。 从ChatGPT与用户的流畅对话,到GPT-4在复杂任务中的出色表现,这些模型仿佛一夜之间解锁了超乎想象的技能,那么,这种神奇的涌现能力究竟是如何产生的呢? 正是这种架构上的创新,为模型涌现能力提供了技术支撑,让模型能够挖掘数据中更深层次的信息和模式。 过参数化与模型的“自我进化” 当模型的参数数量远超训练样本数量时,就进入了过参数化状态。 合理的训练优化策略,就像是为模型找到了一条通向成功的捷径,让模型在训练过程中不断调整自己,最终展现出强大的涌现能力。 人工智能模型涌现能力是多种因素协同作用的结果。 随着技术的不断进步,相信模型还将展现出更多令人惊叹的能力,为人类社会带来更多的惊喜和变革。

    40400编辑于 2025-02-02
  • 来自专栏智能文本处理

    新浪张俊林:语言模型涌现能力——现象与解释

    注2:另,有人问了,既然很多自然现象也体现出涌现能力,那么语言模型涌现现象需要解释吗?我个人认为是需要的。 一、什么是模型涌现能力复杂系统学科里已经对涌现现象做过很久的相关研究。那么,什么是“涌现现象”? 随着模型规模的不断增长,任务效果也持续增长,说明这类任务对模型中知识蕴涵的数量要求较高。伸缩法则与涌现能力第二类任务表现出涌现能力:这类任务一般是由多步骤构成的复杂任务。 因此,模型规模增长是必然趋势,当推进模型规模不断增长的时候,涌现能力的出现会让任务的效果更加出色。 在这里介绍模型训练过程中的顿悟,目的是希望建立起它和模型涌现能力之间的联系,我在本文后面会尝试用顿悟现象来解释模型涌现能力。我们首先解释下什么是顿悟现象。

    1.1K30编辑于 2023-04-28
  • 来自专栏人工智能

    模型越大越强?一文读懂模型能力涌现到底是什么

    一、简介模型架构的能力扩展(EmergentAbilities)是指当语言模型的参数规模、训练数据量或计算资源达到某个临界点时,突然展现出之前较小模型完全不具备的新能力的现象。 (>1000亿参数)涌现能力展现出训练时从未明确教导的复杂推理能力关键因素分析参数空间的丰富性:更大的模型拥有更复杂的内部表示能力,能够编码更多抽象概念数据多样性的充分利用:海量数据中的稀疏模式只有在模型中才能被有效捕捉计算资源的杠杆效应 :更多的计算允许模型探索更复杂的解决方案空间三、典型涌现能力案例1.链式思维推理(Chain-of-Thought)小模型面对复杂问题时往往直接给出错误答案,而模型会自发地分解问题、逐步推理:展开代码语言 :分析用户需求分解为子任务按逻辑顺序执行验证结果正确性4.元认知能力最令人惊讶的是,一些超大模型展现出对自己能力的认知和限制的理解:知道什么时候应该说"我不知道"能评估自己答案的可信度在不确定时主动寻求澄清四 五、实际意义与挑战积极影响降低AI开发门槛:通用模型可以替代多个专用小模型发现新应用场景:涌现能力常常带来意想不到的用途推动理论研究:促使科学家重新思考智能的本质潜在风险不可预测性:无法准确预知何时会出现何种新能力安全控制难题

    47310编辑于 2026-03-07
  • 来自专栏人工智能

    多模态模型涌现能力:视觉-语言对齐的认知机制探析

    多模态模型涌现能力:视觉-语言对齐的认知机制探析引言:从单一模态到跨模态理解的飞跃近年来,多模态模型如CLIP、DALL-E、Flamingo等展现出了令人惊叹的涌现能力——它们不仅能够分别处理视觉和语言信息 跨模态表示的神经对齐机制人脑通过联合皮层(如颞上沟)处理跨模态信息,类似地,多模态模型通过共享表示空间实现视觉与语言的神经对齐。这种对齐不是简单的特征映射,而是基于深层语义结构的系统对应关系。 规模效应与对齐涌现模型规模达到临界点时,对齐能力会突然涌现:class ScalingLawAnalyzer: """分析规模效应对多模态对齐的影响""" def __init__ image_input > 0.1).float().mean() return ((text_richness + image_richness) / 2).item()结论与展望多模态模型的视觉 通过深入分析可以发现:对齐的涌现本质:当模型规模、数据质量和训练策略达到临界点时,对齐能力会非线性涌现认知机制的模拟:对比学习、注意力机制、符号接地等都与人类认知过程高度相似跨层级的对齐:从特征层到语义层的多层次对齐是实现真正理解的关键多模态对齐不仅让

    49410编辑于 2025-12-11
  • 来自专栏人工智能

    为什么模型能记住那么多知识?从参数到涌现能力讲透

    什么是模型架构的能力增强?为什么更大的模型能记住更多知识?一、简介模型架构的能力增强(ModelScaling)是指通过增加神经网络的参数数量、训练数据规模或计算资源来提升模型性能的现象。 模型就像这个超级学生——更多的参数就是更大的"脑容量",让它能够存储和处理更丰富的知识。二、为什么更大的模型能记住更多知识? 三、能力涌现(EmergentAbilities)最神奇的是,模型会表现出能力涌现现象——某些能力模型达到特定规模之前完全不存在,一旦超过阈值就突然出现。 经典涌现能力示例模型规模能力表现<1亿参数基础语言理解,简单问答1-10亿参数复杂问答,基础推理10-100亿参数数学计算,代码生成>1000亿参数涌现能力:多步推理、零样本学习、复杂规划比如,小模型可能无法理解 2.持续学习让模型能够在不遗忘旧知识的前提下持续学习新知识。3.模块化架构将模型分解为专门的子模块,按需调用,提高效率。4.知识编辑开发技术直接修改模型中的特定知识,而无需重新训练整个模型

    22310编辑于 2026-03-06
  • 来自专栏人工智能

    当参数突破千亿:大数据+模型范式与AI涌现能力的秘密

    这种"大数据+模型"的组合不仅带来了性能的线性提升,更重要的是产生了涌现能力——模型开始展现出在小规模时完全不存在的新技能。二、什么是"大数据+模型"范式?" 例如:不同文体的写作风格差异专业领域的术语使用习惯文化背景对表达方式的影响逻辑推理的常见路径3.涌现能力的出现最令人惊讶的是,当模型规模达到某个临界点时,会出现在小模型中完全不存在的新能力:展开代码语言 、"大数据+模型"的优缺点优势劣势通用性强,单一模型可处理多种任务计算资源需求巨大涌现能力带来意想不到的智能表现能源消耗和环境影响严重零样本和少样本学习能力模型可解释性差知识覆盖面广,接近人类专家水平存在偏见和安全风险持续扩展仍有效果 2.企业知识管理大型企业使用定制的模型来处理内部文档、客户支持、市场分析等任务。3.科学研究加速在生物医药、材料科学等领域,模型帮助研究人员快速分析文献、提出假设。 4.内容创作工具从文章写作到代码生成,模型成为创作者的强大辅助工具。

    21910编辑于 2026-03-05
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:模型涌现能力的解构分析:从量变到质变的神秘跃迁

    二、涌现能力的体现 通常小模型完成简单模式的匹配,例如我们问它2+2等于多少时,它会返回记忆中的答案4,或者问它“如果我有3个苹果,吃了1个,还剩几个?” 而到了模型,则表现出强大的逻辑推理能力,当我们问它“小明比小红高,小红比小刚高,谁最矮?” 2.2 模型中的相变体现2.2.1 语言理解能力的相变在模型的训练过程中,语言理解能力呈现出清晰的相变特征:词汇理解的相变:当模型规模较小时,它只能进行表面的词汇匹配。 :小模型:只会踩油门刹车(记忆)中模型:会转弯了(模式匹配)模型:会倒车入库了(推理)超大模型:会漂移了(创造)图三:能力相变边界X轴:还是模型大小Y轴:能力是否激活(0=没有,1=有)五条线:每条线代表一种能力关键观察 "右边时间线明确显示每种能力在什么规模解锁雷达图的每个角:一种编程能力线条形状:模型能力轮廓观察规律: 小模型:只有1-2个角突出(只会补全代码)模型:所有角都很突出(全能选手)生活比喻,像组装机器人

    63543编辑于 2026-01-12
  • 来自专栏机器之心

    斯坦福最新研究警告:别太迷信模型涌现能力,那是度量选择的结果

    机器之心报道 编辑:蛋酱、Panda W 模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。 但斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑,他们认为是人为选择度量方式的结果。 「别太迷信模型涌现,世界上哪儿有那么多奇迹?」 斯坦福大学的研究者发现,模型涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显了,更接近线性。 模型领域的「涌现」如何定义?一种通俗的说法是「在小规模模型中不存在,但在大规模模型中存在的能力」,因此,它们不能通过简单地推断小规模模型的性能改进来预测。 预测:涌现能力在线性度量下会消失 在这两个整数乘法和加法任务上,如果目标字符串的长度是 4 或 5 位数字并且性能的度量方式是准确度(图 3 上一行图),那么 GPT 系列模型会展现出涌现的算术能力

    64910编辑于 2023-05-09
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 2个模型下载了错误的文件,4模型完全没下载成功。网站的真实漏洞是什么?在分析模型表现之前,先说清楚这个网站到底有什么问题。 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 这次测试只是一个具体场景,不能代表模型的整体能力。 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。

    200编辑于 2026-04-23
  • 来自专栏新智元

    「成熟」模型才能涌现?MIT:GPT-4能自我纠错代码,GPT-3.5却不行

    新智元报道 编辑:编辑部 【新智元导读】MIT、微软的研究发现,GPT-4能够自我纠正错误代码,GPT-3.5却不行。无独有偶,其他研究也表明,似乎只有「成熟」的模型才具备涌现能力。 背后的原因竟是因为…… 我们都知道,语言模型在生成代码方面,表现出了非凡的能力。然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。 也就是说,只有当模型足够「成熟」(规模且对齐良好)时,可能存在一种新的「涌现能力」(即在自然语言反馈的基础上改进)。 我倾向于相信这种「涌现能力」(通过语言反馈自我改进)将对LLM的发展产生非常重大的影响,因为这意味着AI可以在很少的人工监督下持续不断地进行自主改进。 俄勒冈州立大学杰出教授Thomas G. 而且,研究者们发现了一个很有意思的现象:模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力

    54120编辑于 2023-08-05
  • 来自专栏大语言模型

    探索模型能力--prompt工程

    LLM语言模型终究也只是一个工具,我们不可能每个人都去训一个模型,但是我们可以思考如何利用好大模型,让他提升我们的工作效率。 提示词(prompt)就是你给模型下达的指令输入,它包含以下任意要素: 指令:想要模型执行的特定任务或者指令。 上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。 提示工程就是开发和优化提示词(Prompt),一种在模型中使用的技巧,通过提供清晰、简洁的指令或问题,充分发挥模型能力,让模型更好地理解我们的需求,从而得到更好的模型输出。 ,比如json,html等格式 策略3:要求模型自检测是否满足条件 策略4:提供少量示例 2.2 给模型思考的时间 我们不一定要一步得到答案,可以让模型进行一系列的推理,给他推理思考的时间,再最终给出答案 可惜,很少模型完全开源他们的数据集。 但是很多大模型都会开放一个平台给大家体验,大家也都会将好的用例分享出来。

    3.3K72编辑于 2024-01-23
  • 来自专栏喔家ArchiSelf

    模型应用的能力分级

    模型应用的能力分级就像给学生打分一样,能让我们更清楚它的本事有多大。能力分级能帮我们设定目标,知道AI现在能干什么,未来还要学什么。 另外,能力分级让普通人更容易理解AI的能力,避免过度期待或担心。 模型的应用主要有两种常见模式:RAG 和 Agent。选哪种 RAG 架构,得看具体要解决什么问题,确保它适合任务需求。 关于RAG 的更多资料,可以参考《模型系列——解读RAG》、《RAG的10篇论文-2024Q1》、《Chunking:基于模型RAG系统中的文档分块》、《解读GraphRAG》和《在模型RAG系统中应用知识图谱 RAG 的能力分级 根据微软的研究成果,RAG的能力可以从搜索的复杂程度上分为4个层级。 小结 将模型应用的能力进行分级,不仅有助于推动技术发展,还能更好地匹配实际应用场景,同时也让公众更容易理解其价值。

    1.8K20编辑于 2025-03-31
  • 来自专栏资讯分享

    模型能力竞争终局已定

    01GPT能力的完善与模型能力竞争的终结OpenAI发布ChatGPT3.5引爆市场的几个月间,引发了一场语言模型“大跃进式”的风暴。 首先,大型语言模型(LLM)的成功很大程度上归因于一种‘暴力美学’,即通过大规模参数的增加实现性能的飞跃和涌现能力的出现。 实际上,GPT3.5问世所体现的泛化能力和在涌现上的突破,就已经是决定性的,也预示着LLM能力之争的终结,最近GPT4-Turbo的更新只是让这件事情成为既成事实,同时也开启了整个LLM革命的新时代。 的模型有差距,但是依靠特定方向的能力提升或者其它赛道上的独特优势成为模型领域的“多强”。 在这个类比中,模型仿佛是互联网本身,而每个Agent则像是利用互联网能力的独特应用程序或网站。正如4G和5G的推出催生了新一代的应用和服务,模型能力提升也将导致Agent的创新和进化。

    50210编辑于 2023-11-20
  • 来自专栏大语言模型

    模型能力评测方式很多?

    其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 二、主流基准与核心指标通用能力:MMLU(57学科准确率)、HellaSwag(常识推理)为标杆,需控制数据泄漏与温度参数。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    50510编辑于 2025-08-13
领券