我们针对这些在小模型上没有出现,但是在大模型上出现的不可预测的能力——“涌现能力”做了一些归纳和总结,分别简要介绍了涌现能力的定义、常见的激发手段和具体的分类和任务。 对于大规模语言模型的涌现能力,在 Jason Wei 等人的工作中[4]的工作中,给出的定义: 在小模型中没有表现出来,但是在大模型中变现出来的能力"(An ability is emergent if 优秀的上下文学习能力 大规模的语言模型展现出了优秀的上下文学习能力(In-context learning)。这种能力并非大模型专属,但是大模型的足够强大的上下文学习能力是之后各种涌现能力激发的基础。 四、涌现能力是海市蜃楼? 在斯坦福大学最新的工作[19]中指出,大模型的涌现能力来自于其不连续的评价指标,这种不连续的评价指标导致了模型性能在到达一定程度后出现“大幅提升”。 为了验证这一观点,斯坦福的研究人员做了两组实验,第一组是将NLP中不连续的非线性评价指标转为连续的线性评价指标,结果如下图所示,模型的涌现能力消失了(从图2到下图)。
Emergent Abilities Definition 本文中对LLM的emergent abilities的定义为: 在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent 2. ) 下表给出了大模型出现emergent ablities的规模统计 4. 4.3 Another view of emergence 虽然模型的规模与大模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。 4.4 Directions for future work 作者为未来研究大模型中的emergent abilitie提供了一些方向。
---- 新智元报道 编辑:桃子 【新智元导读】大模型涌现能力如何理解?谷歌的最新论文研究了语言模型中的上下文学习,是如何受到语义先验和输入-标签映射影响。 前段时间,OpenAI整出了神操作,竟让GPT-4去解释GPT-2的行为。 对于大型语言模型展现出的涌现能力,其具体的运作方式,就像一个黑箱,无人知晓。 网友表示,这对模型新的涌现能力很有见解。 AI「黑箱」怎么破? 一般来说,模型能够在上下文中学习,有以下2个因素: 一种是使用预先训练的语义先验知识来预测标签,同时遵循上下文范例的格式。 这些结果表明,当输入标签映射相互矛盾时,大模型可以覆盖预训练的先验知识。 小型模型无法做到这一点,这使得这种能力成为模型规模的涌现现象。 谷歌这篇论文强调了语言模型的ICL行为如何根据其参数而改变,并且更大的语言模型具有将输入映射到许多类型的标签的涌现能力。 这是一种推理形式,其中输入-标签映射可以潜在地学习任意符号。
机器之心报道 编辑:陈萍、小舟、梓文 模型在达到一定规模时会出现涌现现象,谷歌的研究表明,模型在训练到一定时间后,会出现另一种现象,即「领悟」现象。 2021 年,研究人员在训练一系列微型模型时取得了一个惊人的发现,即模型经过长时间的训练后,会有一个变化,从开始只会「记忆训练数据」,转变为对没见过的数据也表现出很强的泛化能力。 为了更好的了解这一问题,本文来自谷歌的研究者撰写了一篇博客,试图弄清楚大模型突然出现「领悟」现象的真正原因。 如果将单个神经元的权重可视化,这种周期性变化更加明显: 别小看周期性,权重的周期性表明该模型正在学习某种数学结构,这也是模型从记忆数据转变为具有泛化能力的关键。 在这条路上可能需要: 1) 训练更简单的模型,具有更多的归纳偏差和更少的运动部件。 2) 使用它们来解释更大模型如何工作的费解部分。 3) 按需重复。
提出将结构化交互作为新的扩展维度,超越单纯增加模型参数的现有范式。自进化框架AGORA通过协作集成实现推理性能提升,在挑战性数学基准上比现有最优单体系统高出4.45个百分点。 这种增益源于群体涌现能力——孤立模型无法实现的集体能力合成,验证了交互作为智能可扩展驱动力的有效性。研究结果将协作生态系统的工程化定位为能力涌现的关键前沿。 主题分类机器学习(cs.LG) 人工智能(cs.AI) 核心创新交互式扩展轴:突破传统参数缩放模式,建立模型间结构化交互机制 群体蒸馏技术:通过协作集成产生超越单体模型的群体涌现能力 性能验证: 在数学推理任务中实现4.45%的绝对性能提升 技术价值该研究为大语言模型能力突破提供了新范式,证明通过设计交互生态激发的群体智能可成为继数据/参数扩展后的第三代能力提升路径。
本文整理自 3 月 11 日 「ChatGPT 及大规模专题研讨会」上,来自新浪微博新技术研发负责人张俊林《大型语言模型的涌现能力:现象与解释》的分享,介绍了大语言模型中的涌现现象,以及关于涌现能力背后原因的相关猜想 张俊林,中国中文信息学会理事,新浪微博新技术研发负责人 此次分享的内容主要分为五大板块,分别是: 一、什么是大模型的涌现能力 二、LLM 表现出的涌现现象 三、LLM 模型规模和涌现能力的关系 四、模型训练中的顿悟现象 什么是大模型的涌现能力 复杂系统中的涌现现象 复杂系统学科里已经对涌现现象做过很久的相关研究。那么,什么是“涌现现象”? 在这里介绍模型训练过程中的顿悟,目的是希望建立起它和大模型涌现能力之间的联系,我在本文后面会尝试用顿悟现象来解释大模型的涌现能力。 我们首先解释下什么是顿悟现象。 下面左侧的 2m 代表模型参数规模是 200 万参数,以及对应模型给出的回答。
在当今科技飞速发展的时代,人工智能大模型的涌现能力成为了众人瞩目的焦点。 从ChatGPT与用户的流畅对话,到GPT-4在复杂任务中的出色表现,这些大模型仿佛一夜之间解锁了超乎想象的技能,那么,这种神奇的涌现能力究竟是如何产生的呢? 正是这种架构上的创新,为大模型的涌现能力提供了技术支撑,让模型能够挖掘数据中更深层次的信息和模式。 过参数化与模型的“自我进化” 当模型的参数数量远超训练样本数量时,就进入了过参数化状态。 合理的训练优化策略,就像是为模型找到了一条通向成功的捷径,让模型在训练过程中不断调整自己,最终展现出强大的涌现能力。 人工智能大模型的涌现能力是多种因素协同作用的结果。 随着技术的不断进步,相信大模型还将展现出更多令人惊叹的能力,为人类社会带来更多的惊喜和变革。
注2:另,有人问了,既然很多自然现象也体现出涌现能力,那么大语言模型的涌现现象需要解释吗?我个人认为是需要的。 一、什么是大模型的涌现能力复杂系统学科里已经对涌现现象做过很久的相关研究。那么,什么是“涌现现象”? 随着模型规模的不断增长,任务效果也持续增长,说明这类任务对大模型中知识蕴涵的数量要求较高。伸缩法则与涌现能力第二类任务表现出涌现能力:这类任务一般是由多步骤构成的复杂任务。 因此,模型规模增长是必然趋势,当推进大模型规模不断增长的时候,涌现能力的出现会让任务的效果更加出色。 在这里介绍模型训练过程中的顿悟,目的是希望建立起它和大模型涌现能力之间的联系,我在本文后面会尝试用顿悟现象来解释大模型的涌现能力。我们首先解释下什么是顿悟现象。
(>1000亿参数)涌现新能力展现出训练时从未明确教导的复杂推理能力关键因素分析参数空间的丰富性:更大的模型拥有更复杂的内部表示能力,能够编码更多抽象概念数据多样性的充分利用:海量数据中的稀疏模式只有在大模型中才能被有效捕捉计算资源的杠杆效应 :更多的计算允许模型探索更复杂的解决方案空间三、典型涌现能力案例1.链式思维推理(Chain-of-Thought)小模型面对复杂问题时往往直接给出错误答案,而大模型会自发地分解问题、逐步推理:展开代码语言 小模型回答:6个(直接猜测)大模型回答:小明开始有5个→给小红2个后剩3个→又买3个→现在有6个2.上下文学习(In-ContextLearning)大模型能够仅通过几个示例就学会新任务,无需参数更新: 展开代码语言:TXTAI代码解释示例1:英文"cat"→中文"猫"示例2:英文"dog"→中文"狗"新词:"elephant"→大模型正确输出"大象"3.多步规划能力大模型可以制定并执行复杂的多步骤计划 五、实际意义与挑战积极影响降低AI开发门槛:通用大模型可以替代多个专用小模型发现新应用场景:涌现能力常常带来意想不到的用途推动理论研究:促使科学家重新思考智能的本质潜在风险不可预测性:无法准确预知何时会出现何种新能力安全控制难题
多模态大模型的涌现能力:视觉-语言对齐的认知机制探析引言:从单一模态到跨模态理解的飞跃近年来,多模态大模型如CLIP、DALL-E、Flamingo等展现出了令人惊叹的涌现能力——它们不仅能够分别处理视觉和语言信息 跨模态表示的神经对齐机制人脑通过联合皮层(如颞上沟)处理跨模态信息,类似地,多模态大模型通过共享表示空间实现视觉与语言的神经对齐。这种对齐不是简单的特征映射,而是基于深层语义结构的系统对应关系。 规模效应与对齐涌现当模型规模达到临界点时,对齐能力会突然涌现:class ScalingLawAnalyzer: """分析规模效应对多模态对齐的影响""" def __init__ .item()结论与展望多模态大模型的视觉-语言对齐能力不是简单的技术突破,而是认知机制在人工智能中的再现。 通过深入分析可以发现:对齐的涌现本质:当模型规模、数据质量和训练策略达到临界点时,对齐能力会非线性涌现认知机制的模拟:对比学习、注意力机制、符号接地等都与人类认知过程高度相似跨层级的对齐:从特征层到语义层的多层次对齐是实现真正理解的关键多模态对齐不仅让
这种"大数据+大模型"的组合不仅带来了性能的线性提升,更重要的是产生了涌现能力——模型开始展现出在小规模时完全不存在的新技能。二、什么是"大数据+大模型"范式?" 每一层神经网络都能存储和处理不同类型的信息:浅层网络学习基础语法和词汇中层网络理解语义和上下文关系深层网络掌握抽象概念和复杂推理2.模式识别能力的提升海量数据让模型能够识别极其细微的语言模式。 例如:不同文体的写作风格差异专业领域的术语使用习惯文化背景对表达方式的影响逻辑推理的常见路径3.涌现能力的出现最令人惊讶的是,当模型规模达到某个临界点时,会出现在小模型中完全不存在的新能力:展开代码语言 、"大数据+大模型"的优缺点优势劣势通用性强,单一模型可处理多种任务计算资源需求巨大涌现能力带来意想不到的智能表现能源消耗和环境影响严重零样本和少样本学习能力强模型可解释性差知识覆盖面广,接近人类专家水平存在偏见和安全风险持续扩展仍有效果 2.企业知识管理大型企业使用定制的大模型来处理内部文档、客户支持、市场分析等任务。3.科学研究加速在生物医药、材料科学等领域,大模型帮助研究人员快速分析文献、提出假设。
什么是模型架构的能力增强?为什么更大的模型能记住更多知识?一、简介模型架构的能力增强(ModelScaling)是指通过增加神经网络的参数数量、训练数据规模或计算资源来提升模型性能的现象。 大模型就像这个超级学生——更多的参数就是更大的"脑容量",让它能够存储和处理更丰富的知识。二、为什么更大的模型能记住更多知识? 三、能力涌现(EmergentAbilities)最神奇的是,大模型会表现出能力涌现现象——某些能力在模型达到特定规模之前完全不存在,一旦超过阈值就突然出现。 经典涌现能力示例模型规模能力表现<1亿参数基础语言理解,简单问答1-10亿参数复杂问答,基础推理10-100亿参数数学计算,代码生成>1000亿参数涌现能力:多步推理、零样本学习、复杂规划比如,小模型可能无法理解 2.持续学习让大模型能够在不遗忘旧知识的前提下持续学习新知识。3.模块化架构将大模型分解为专门的子模块,按需调用,提高效率。4.知识编辑开发技术直接修改模型中的特定知识,而无需重新训练整个模型。
二、涌现能力的体现 通常小模型完成简单模式的匹配,例如我们问它2+2等于多少时,它会返回记忆中的答案4,或者问它“如果我有3个苹果,吃了1个,还剩几个?” ,它也会简单的算术,告诉我们结果是2,甚至还可以告诉我们它的计算过程。 而到了大模型,则表现出强大的逻辑推理能力,当我们问它“小明比小红高,小红比小刚高,谁最矮?” 2.2 大模型中的相变体现2.2.1 语言理解能力的相变在大模型的训练过程中,语言理解能力呈现出清晰的相变特征:词汇理解的相变:当模型规模较小时,它只能进行表面的词汇匹配。 :小模型:只会踩油门刹车(记忆)中模型:会转弯了(模式匹配)大模型:会倒车入库了(推理)超大模型:会漂移了(创造)图三:能力相变边界X轴:还是模型大小Y轴:能力是否激活(0=没有,1=有)五条线:每条线代表一种能力关键观察 "右边时间线明确显示每种能力在什么规模解锁雷达图的每个角:一种编程能力线条形状:模型的能力轮廓观察规律: 小模型:只有1-2个角突出(只会补全代码)大模型:所有角都很突出(全能选手)生活比喻,像组装机器人
机器之心报道 编辑:蛋酱、Panda W 大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。 但斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑,他们认为是人为选择度量方式的结果。 「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」 斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显了,更接近线性。 大模型领域的「涌现」如何定义?一种通俗的说法是「在小规模模型中不存在,但在大规模模型中存在的能力」,因此,它们不能通过简单地推断小规模模型的性能改进来预测。 图 2: 大型语言模型的涌现能力是研究者分析的创造物,而不是模型输出随规模变化的根本性变化。 正如第 2 节中用数学和图表解释的那样,研究者提出的替代解释可以预测出三个结果: 1.
LLM大语言模型终究也只是一个工具,我们不可能每个人都去训一个大模型,但是我们可以思考如何利用好大模型,让他提升我们的工作效率。 提示工程就是开发和优化提示词(Prompt),一种在大模型中使用的技巧,通过提供清晰、简洁的指令或问题,充分发挥大模型的能力,让模型更好地理解我们的需求,从而得到更好的模型输出。 给大模型提示语的时候,你就是产品经理: 你随便提需求,模型也就随口一答; 你提出详细的需求,给出充分的需求背景,给足输出数据,定义好输出格式,好的模型就像一个好的程序员,会给你一个满意的答复的~ 2 prompt 工程基本原则 我们再回顾下prompt工程课程中的两大基本原则: 2.1 给出清晰,详细的指令 策略1:使用分割符清晰的知识输出的不同部分,比如"",<>,<\tag>等分隔符 策略2:指定一个结构化的输出 可惜,很少大模型完全开源他们的数据集。 但是很多大模型都会开放一个平台给大家体验,大家也都会将好的用例分享出来。
对大模型应用的能力分级就像给学生打分一样,能让我们更清楚它的本事有多大。能力分级能帮我们设定目标,知道AI现在能干什么,未来还要学什么。 另外,能力分级让普通人更容易理解AI的能力,避免过度期待或担心。 大模型的应用主要有两种常见模式:RAG 和 Agent。选哪种 RAG 架构,得看具体要解决什么问题,确保它适合任务需求。 关于RAG 的更多资料,可以参考《大模型系列——解读RAG》、《RAG的10篇论文-2024Q1》、《Chunking:基于大模型RAG系统中的文档分块》、《解读GraphRAG》和《在大模型RAG系统中应用知识图谱 2. RAG 的能力分级 根据微软的研究成果,RAG的能力可以从搜索的复杂程度上分为4个层级。 小结 将大模型应用的能力进行分级,不仅有助于推动技术发展,还能更好地匹配实际应用场景,同时也让公众更容易理解其价值。
01GPT能力的完善与大模型能力竞争的终结OpenAI发布ChatGPT3.5引爆市场的几个月间,引发了一场大语言模型“大跃进式”的风暴。 首先,大型语言模型(LLM)的成功很大程度上归因于一种‘暴力美学’,即通过大规模参数的增加实现性能的飞跃和涌现能力的出现。 1、OpenAI 面向开发者:Agent的核心组件新型Agent区别于上一代AI 或者模型,粗略讲包括以下几个部分:1.以大模型来实现大脑能力,提供最直觉的结论2.以记忆和知识库为核心,为特定的领域和目标提供精准的结果 2、Agent-Centric时代的开启正如我们所说的,我们将大模型理解为一个更加基础的新基建,那么在这个基建阶段性完善后,这个世界将迎来基于这个新基建的大变革,这也是我们所说的由大模型引发的工业革命, 大模型其实是“人脑”system1的能力,更偏向于直觉,经验,和“快”反应,这是大模型作为预测模型所决定的,那么Agent能做的就是补充System2的”慢“能力,和长期记忆结合,提供更加复杂的决策、逻辑归因
其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 二、主流基准与核心指标通用能力:MMLU(57学科准确率)、HellaSwag(常识推理)为标杆,需控制数据泄漏与温度参数。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。
这种能力使得模型在处理自然语言任务时,能够更准确地理解句子的含义,识别出其中的实体、关系以及逻辑结构。 2. 学习语言与知识的统计规律 概率分布建模是大模型学习语言的重要方法。 这种迁移学习能力使得大模型在实际应用中具有很高的灵活性和实用性。 二、大量训练数据促使智能涌现的原因 1. 提供丰富的知识与模式 知识积累是大量训练数据能够促使智能涌现的重要因素。 同时,多样化的数据也有助于模型发现和捕捉数据中的细微规律和特征,从而提升其性能和表现。 2. 优化参数,提升表达能力 参数调整是大量训练数据能够优化模型性能的关键环节。 自监督学习不仅提高了模型的训练效率,还使得模型能够学习到更加广泛和通用的语言知识。 4. 促进涌现现象 非线性交互是大模型内部产生涌现现象的重要原因。 当模型的规模和训练数据达到一定阈值时,可能会出现智能的突然提升,即涌现现象。这种现象表明,大模型在达到一定规模和训练数据量后,能够突破原有的性能瓶颈,展现出更加强大和智能的能力。
诸如文心一言、通义千问等模型在 MBPP 基础题库中通过率可达 90% 以上,但移植至 Codeforces Div.2 C 级题目时,通过率却不足 15%,远低于人类选手平均 70% 的水平。 基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 实验证明: 即使模拟少量题目 “泄漏” 到模型的训练数据中,OIBench 的得分提升也极为有限,风险分数几乎为零,表明其对数据污染具有很强的鲁棒性。2. 总结与展望本文深入分析了当前大模型编程能力评估中存在的认知鸿沟,揭示了 “宣传” 与 “现实” 之间的差距。 大模型的强大推理和代码生成能力,正好能为人类开发者提供有力支持,帮助他们提升算法设计和代码实现的效率。