搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
苹果也在蒸馏大模型，给出了蒸馏Scaling Laws
众所周知，知识蒸馏技术当前正被大模型领域广泛使用，它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度，与此同时还能对知识域进行集成和迁移。蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为 LT 的教师的弱学生模型（L_S > 2.3）。如果要蒸馏多个学生模型，或者已有教师模型，蒸馏在计算水平上优于监督预训练，直到计算水平随着学生模型规模的增加而可预测地增长。如果要蒸馏一个学生模型且还需要训练教师模型，则应采用监督学习。论文标题：Distillation Scaling Laws 论文链接：https://arxiv.org/pdf/2502.08606 大模型的扩展定律（Scaling Laws）表明，如果先前训练的语言模型，包括教师模型的训练成本和学生模型的蒸馏成本，并比较了蒸馏和监督学习在不同计算预算下的性能，发现当教师模型的训练成本被考虑时，监督学习通常更有效。
26800编辑于 2025-02-19
来自专栏从0开始学Go
老婆问我：“什么是大模型的“蒸馏”？”
最近，老婆刷到一条新闻：“科学家用大模型‘蒸馏’出小模型，效果堪比原版！”她一脸懵地问我：AI 模型还能像酿酒一样“蒸馏”？难道要架个锅炉煮代码？她更疑惑了：直接用小模型不行吗？为啥非要折腾“蒸馏”？其实背后有个关键问题：大模型虽强，但普通人根本用不起。大模型的强悍能力背后，是普通人难以想象的“贵族式开销”。大模型蒸馏也是如此——它不仅让小模型记住“答案是什么”，更要学会“答案为什么是这样”。为什么要蒸馏？你可能会问：直接用大模型不香吗？大模型输出：“猫（100% 确信）。”→ 小模型只学到“非猫即狗”的绝对判断。软标签蒸馏：大模型输出：“猫（85%），狗（12%），浣熊（3%）。” 蒸馏的局限但蒸馏并非万能，至少有三大挑战：知识衰减陷阱：就像把 4K 电影压缩成 720P 画质，蒸馏必然丢失细节。比如大模型能理解“量子纠缠”的物理原理，小模型可能只会背定义。
35010编辑于 2025-03-17
来自专栏机器之心
原来，这些顶级大模型都是蒸馏的
新猜想：已诞生，被蒸馏成小模型来卖》）。当然，这只是他的个人猜测。不过，从新论文的结论来看，「蒸馏」在顶级模型中的应用范围确实比我们想象中要广。蒸馏固然是一种提升模型能力的有效方法，但作者也指出，过度蒸馏会导致模型同质化，减少模型之间的多样性，并损害它们稳健处理复杂或新颖任务的能力。最近，模型蒸馏作为一种更有效利用先进大语言模型能力的方法，引起了越来越多的关注。 RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较，从而衡量模型的同质化程度。他们将待评估的特定大语言模型集合定义为 LLM_test = {LLM_t1，LLM_t2，...，LLM_tk}，其中 k 表示待评估的 LLM 集合的大小。
55710编辑于 2025-02-03
来自专栏人工智能
大语言模型的模型蒸馏：概念、方法与应用
在人工智能领域，大语言模型（LLM）的出现带来了革命性的变革，例如 GPT 系列、BERT、T5 等模型展示了卓越的自然语言处理（NLP）能力。为了解决这个问题，研究人员提出了模型蒸馏（Model Distillation）技术，该方法通过压缩和优化大模型，使其在保持高性能的同时降低计算资源的需求。本文将详细探讨模型蒸馏的原理、方法及其在人工智能领域的应用，并通过具体案例进行分析，最后提供可运行的代码示例，帮助读者更好地理解这一技术。什么是模型蒸馏？采用模型蒸馏可以有效降低计算开销，使语音识别模型在移动端设备上也能流畅运行。代码示例：如何实现模型蒸馏？通过这一技术，研究人员能够压缩庞大的大语言模型，并将其高效部署到实际应用场景中，从而进一步推动人工智能的发展。
3.9K40编辑于 2025-02-04
来自专栏创作是最好的自我投资
知识蒸馏：让大模型“瘦身”的魔法
什么是蒸馏模型？ AI界的“知识浓缩术”核心定义蒸馏模型（Distillation Model）是一种通过“师生教学”的方式，将庞大复杂的大模型（教师模型）中的核心知识，“浓缩”到轻量级小模型（学生模型）中的技术。传统训练 vs 知识蒸馏传统训练：学生模型就是直接从数据中学习（如同自学），需要大模型自己从海量数据中提取自己需要的信息，就像你想上学，但是没有资金支持，只能自己通过书籍来学习，那么在没有人指导的情况下未来展望：蒸馏模型将如何改变AI？边缘计算革命：智能音箱、摄像头等设备将具备本地大模型能力。就像把大模型拆解成无数"小模型"，从而在手机、摄像头、工厂机器人甚至红绿灯里就地处理数据。通过在智能终端增加大模型能力，从而使得智能家居不联网也能听懂指令。这也就意味着让数据不再拥堵在"云端高速公路"，从而既保护隐私又省电，像给大模型装上会思考的"神经末梢"。
1K30编辑于 2025-04-09
来自专栏自然语言处理(NLP)论文速递
模型蒸馏升级！高温蒸馏：Softmax With Temperature
单位 | 上海交通大学博士生转自| paperweekly 问题来源最近读到一篇模型蒸馏的文章 [1]，其中在设计软标签的损失函数时使用了一种特殊的 softmax：文章中只是简单的提了一下，一个是知识蒸馏的方法用于深度学习，同时也需要深入学习；另一个则是本文的核心：蒸馏中如何合理运用温度，让隐藏的知识更好地挥发和凝结。蒸馏模型模型蒸馏或知识蒸馏，最早在 2006 年由 Buciluǎ 在文章 Model Compression [14] 中提出（很多博主把人名都写错了。先简要概括一下模型蒸馏在做什么。出于计算资源的限制或效率的要求，深度学习模型在部署推断时往往需要进行压缩，模型蒸馏是其中一种常见方法。对于相同的输入，让学生输出的概率分布尽可能的逼近教师输出的分布，则大模型的知识就通过这种监督训练的方式「蒸馏」到了小模型里。
2.2K30编辑于 2022-12-06
来自专栏代码工具
模型蒸馏-学习笔记
模型蒸馏一. ，主要思想是通过教师模型（teacher）来指导学生模型（student）的训练，将复杂、学习能力强的教师模型学到的特征表示“知识蒸馏”出来，传递给参数小、学习能力弱的学生模型，从而得到一个速度快、表达能力强的学生模型核心问题由于知识蒸馏在训练过程中，有两个模型（teacher模型和student模型），3个loss（teacher loss、student loss、蒸馏loss），因此如何平衡不同模型之间的训练会是影响模型效果的重要因素模型有以下特点：学生网络和教师网络共享底层参数 [[公式]]教师网络使用更复杂的模型结构 [[公式]]蒸馏目标是logits输出，学生网络logits拟合教师网络logits蒸馏误差表示如下：[image 模型蒸馏这里放一下蒸馏模型的定义, 主要是使用from datetime import timeimport tensorflow as tffrom tensorflow import keras#
9.8K22编辑于 2022-06-30
AGORA：通过群体蒸馏激发大语言模型的群体涌现能力
提出将结构化交互作为新的扩展维度，超越单纯增加模型参数的现有范式。自进化框架AGORA通过协作集成实现推理性能提升，在挑战性数学基准上比现有最优单体系统高出4.45个百分点。这种增益源于群体涌现能力——孤立模型无法实现的集体能力合成，验证了交互作为智能可扩展驱动力的有效性。研究结果将协作生态系统的工程化定位为能力涌现的关键前沿。主题分类机器学习（cs.LG）人工智能（cs.AI）核心创新交互式扩展轴：突破传统参数缩放模式，建立模型间结构化交互机制群体蒸馏技术：通过协作集成产生超越单体模型的群体涌现能力性能验证：在数学推理任务中实现4.45%的绝对性能提升技术价值该研究为大语言模型能力突破提供了新范式，证明通过设计交互生态激发的群体智能可成为继数据/参数扩展后的第三代能力提升路径。
16610编辑于 2025-08-05
来自专栏NLP/KG
知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例
如果我们使用由大型模型产生的所有类概率作为训练小模型的目标，就可以让小模型得到不输大模型的性能。这种把大模型的知识迁移到小模型的方式就是蒸馏。实验表明通用蒸馏阶段和任务蒸馏阶段的蒸馏loss不匹配时，学生模型的效果会受到影响。 ., 2017) 的预训练模型，称为深度自注意力蒸馏。小模型（学生）通过深度模仿大模型（老师）的自注意力模块进行训练，该模块在 Transformer 网络中起着至关重要的作用。为方便用户使用，我们提供了多种尺寸的通用蒸馏学生模型，可用的通用蒸馏学生模型可参考文档：通用模型 - ERNIE3.0 Tiny。教师模型和通用数据继续用通用蒸馏的方式蒸馏学生模型，进一步提升学生模型的效果；a.
1.7K31编辑于 2022-11-14
来自专栏NLP/KG
知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例
如果我们使用由大型模型产生的所有类概率作为训练小模型的目标，就可以让小模型得到不输大模型的性能。这种把大模型的知识迁移到小模型的方式就是蒸馏。实验表明通用蒸馏阶段和任务蒸馏阶段的蒸馏loss不匹配时，学生模型的效果会受到影响。 ., 2017) 的预训练模型，称为深度自注意力蒸馏。小模型（学生）通过深度模仿大模型（老师）的自注意力模块进行训练，该模块在 Transformer 网络中起着至关重要的作用。为方便用户使用，我们提供了多种尺寸的通用蒸馏学生模型，可用的通用蒸馏学生模型可参考文档：通用模型 - ERNIE3.0 Tiny。 fine-tuned教师模型和通用数据继续用通用蒸馏的方式蒸馏学生模型，进一步提升学生模型的效果； a.
1.5K20编辑于 2022-12-21
来自专栏AI科技评论
对话 APUS 李涛：全面转型做 AI，蒸馏法训练大模型，沉淀中小模型
因为语言模型训练是非常困难的一件事，比AIGC的挑战大的多，今天大部分AIGC都不能算是大模型而是自建的中等模型。雷峰网：所以如谷歌这类公司在大模型方面是最有优势的？李涛：我不这么认为。 3 用蒸馏法训练AI大模型沉淀中小模型雷峰网：今年APUS在AI大模型方面的目标是什么？李涛：要用别人的大模型方法实现自我训练，也要反向的通过领先的大模型用蒸馏法训练自己的模型，另外在关键节点还要加一部分人工干预。雷峰网：APUS在自己训练大模型吗？李涛：我们自研了一个参数在1000亿以内的“天燕”大模型，并形成了无数个精炼模型（中小模型），另外还反向用像GPT这样的大模型通过蒸馏法来训练自己的大模型。大模型和中小模型有非常明显的界限，中小模型之间则没有很大的界限。大模型的使用面非常广，它可以分装成中模型和小模型，中模型是最复杂的，一般是独立建的模型，像商汤和旷视。
50730编辑于 2023-04-09
人机协同蒸馏实用指南：将大语言模型从黑盒中解放
将大语言模型从黑盒中解放：人机协同蒸馏实用指南随着自然语言处理领域的进步和新思路的发展，出现了更多高效利用计算资源的方法，从而构建出运行成本更低、更易于控制的AI系统。本次分享展示了一些实际解决方案，用于在现实应用中利用最新最先进的模型，并将其知识蒸馏到更小、更快的组件中，这些组件可以在内部运行和维护。分享了一些实际案例研究和方法，在开发时使用大型生成模型而非运行时，通过高效的人机协同工作流程管理其结构化预测，并蒸馏出小至6MB的特定任务组件，这些组件运行成本低、私有且可靠，并可组合成更大的NLP系统工作流程与技术架构上下文学习工作流程输入文本 → 模型原始输出 → 解析器 → 任务输出使用提示模板进行上下文学习蒸馏与迁移学习通过蒸馏过程和标注任务数据集，从大型生成模型提炼出特定任务模型利用迁移学习技术（如ELECTRA、T5）优化模型性能人机协同循环持续评估基线提示优化迁移学习整合蒸馏模型部署实际案例研究案例#1：烹饪论坛数据提取模型大小：400MB处理速度：2000+词/秒开发时间：8小时从Reddit
32810编辑于 2025-09-13
大语言模型轻量化：知识蒸馏的范式迁移与工程实践
本文提出基于动态知识蒸馏的轻量化范式，通过引入注意力迁移机制与分层蒸馏策略，在保持模型语义理解能力的同时实现参数效率的显著提升。一、模型压缩的技术演进与知识蒸馏范式 1.1 大语言模型的部署困境以GPT-3（175B参数）、PaLM（540B参数）为代表的超大规模语言模型，虽然在NLP任务中展现出惊人的泛化能力，但其部署面临三重挑战：跨模态知识迁移自蒸馏范式：单模型自监督蒸馏代码示例：PyTorch 实现模型蒸馏下面是一个基于 PyTorch 框架的简单知识蒸馏示例。 transforms.ToTensor()), batch_size=32, shuffle=True) train_model() 代码解读： TeacherModel 和 StudentModel 分别表示大模型和小模型通过 distillation_loss 函数，计算学生模型的蒸馏损失。训练过程中，学生模型通过学习教师模型的知识，逐步逼近其性能。五、结语知识蒸馏技术正推动大语言模型从实验室走向产业落地。
91010编辑于 2025-02-06
来自专栏博文视点Broadview
模型压缩：量化、剪枝和蒸馏
根据学生模型学习的目标，可以将BERT 的蒸馏方法分为以下三类：基于输出概率蒸馏、基于隐层蒸馏和基于Attention 层蒸馏。下面通过两个经典的BERT 蒸馏模型讲解蒸馏的思想和具体实现。：其中，表示输出类别概率，是输入Softmax 层的向量，定义蒸馏误差为教师模型和学生模型的均方差，则BiLSTM 的最终目标函数可以由真实标签的交叉熵和蒸馏误差加权构成。采用交叉熵和蒸馏误差的加权和作为目标函数的好处是，学生模型不仅可以从教师模型学到知识，还可以根据下游任务的训练数据进行无教师监督学习，只需要调整超参数，即可在交叉熵和蒸馏误差之间切换。从结果看，在BERT 和LSTM 的模型结构差异过大的情况下，用LSTM模型作为学生模型来蒸馏BERT 的知识，取得了不错的效果，在下游任务的表现上远超用BiLSTM 直接训练得到的模型，说明蒸馏模型学会了浅层模型不容易学会的拟合泛化能力同理，表示学生模型对应位置的特征值，将教师模型和学生模型在对应位置的特征值求得的均方误差作为逐层蒸馏的目标函数。
2.5K20编辑于 2023-05-06
来自专栏NewBeeNLP
模型压缩 | 知识蒸馏经典解读
(”Knowledge”)，蒸馏(“Distill”)提取到另一个模型里面去。介绍论文提出的背景: 虽然在一般情况下，我们不会去区分训练和部署使用的模型，但是训练和部署之间存在着一定的不一致性: 在训练过程中，我们需要使用复杂的模型，大量的计算资源，以便从非常大、高度冗余的数据集中提取出信息而大模型不方便部署到服务中去，常见的瓶颈如下: 推断速度慢对部署资源要求高(内存，显存等) 在部署时，我们对延迟以及计算资源都有着严格的限制。因此，模型压缩（在保证性能的前提下减少模型的参数量）成为了一个重要的问题。而「模型蒸馏」属于模型压缩的一种方法。知识蒸馏的过程分为2个阶段: 原始模型训练: 训练”Teacher模型”, 简称为Net-T，它的特点是模型相对复杂，也可以由多个分别训练的模型集成而成。
3.6K20发布于 2020-08-26
来自专栏AI
大语言模型轻量化：知识蒸馏的范式迁移与工程实践
大语言模型轻量化：知识蒸馏的范式迁移与工程实践嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。一、模型压缩的技术演进与知识蒸馏范式1.1 大语言模型的部署困境以GPT-3（175B参数）、PaLM（540B参数）为代表的超大规模语言模型，虽然在NLP任务中展现出惊人的泛化能力，但其部署面临三重挑战：跨模态知识迁移自蒸馏范式：单模型自监督蒸馏代码示例：PyTorch 实现模型蒸馏下面是一个基于 PyTorch 框架的简单知识蒸馏示例。 transforms.ToTensor()), batch_size=32, shuffle=True)train_model()代码解读：TeacherModel 和 StudentModel 分别表示大模型和小模型通过 distillation_loss 函数，计算学生模型的蒸馏损失。训练过程中，学生模型通过学习教师模型的知识，逐步逼近其性能。五、结语知识蒸馏技术正推动大语言模型从实验室走向产业落地。
47900编辑于 2025-02-05
来自专栏人工智能
大模型压缩与效率优化：量化、剪枝与蒸馏的协同策略
大模型压缩与效率优化：量化、剪枝与蒸馏的协同策略引言：大模型部署的效率困境当前，GPT-4、LLaMA等百亿甚至万亿参数大模型在各类任务上展现出卓越性能，但巨大的计算开销和内存占用严重限制了其实际部署。理论基础：三大压缩技术的互补性分析1. 量化的数值效率优化量化通过降低权重和激活值的数值精度来减少存储和计算开销，但可能引入量化误差和精度损失。2. 剪枝的结构稀疏性优化剪枝通过移除冗余参数或结构来简化模型架构，但可能破坏模型的连通性和表达能力。3. 蒸馏的知识传递优化蒸馏通过将大模型知识迁移到小模型来保持性能，但受限于教师模型的表达能力和学生模型的容量。多头部蒸馏器实现class MultiHeadDistiller: """多头部蒸馏器：支持注意力、隐藏状态和特征图蒸馏""" def __init__(self, config:
50410编辑于 2025-12-13
来自专栏大模型应用
大模型应用：大模型瘦身：量化、蒸馏、剪枝的基础原理与应用场景深度解析.56
模型蒸馏2.1 核心定义蒸馏是一种知识迁移技术，通过高精度大模型“老师模型”指导轻量化小模型“学生模型”训练，让小模型学习大模型的隐性知识，最终实现“小模型精度接近大模型，速度和显存远超大模型例如：将 GPT-4 的医疗知识蒸馏到 BERT 小模型，可在基层医院辅助诊断，精度接近大模型，且能本地部署保障数据隐私。大模型替代场景：用小模型替代超大模型降低成本。行业定制化场景：将通用大模型的知识与行业数据结合，蒸馏为行业专用小模型。例如：将通用 LLMs 与金融数据结合，蒸馏出金融领域小模型，既保留通用语义能力，又具备行业专业知识，部署在银行内网使用。隐私保护场景：政务、医疗等数据敏感场景，无法将数据上传至云端大模型训练，可先在本地训练大模型，再蒸馏为小模型部署，既保障数据隐私，又实现轻量化。3. 如果对精度要求特别高，比如医疗、金融场景，就选蒸馏，虽然要用到大模型当“老师”，耗时也久一点，但小模型能学到大模型的精髓，精度损失控制在2%以内，速度还能提3倍。
48453编辑于 2026-03-25
来自专栏AI研习社
加速BERT模型：从架构优化、模型压缩到模型蒸馏
当然也可以采用其他优化，例如从学习率和策略、预热步数，较大的批处理大小等；模型压缩：通常使用量化和修剪来完成，从而能够在架构不变（或者大部分架构不变）的情况下减少计算总量；模型蒸馏：训练一个较小的模型 3、蒸馏另一个有趣的模型压缩方法是蒸馏，这是一种将大型「teacher」网络的知识转移到较小的「student」网络的技术，训练学生网络来模仿教师网络的行为。 ? 在这项工作中，作者还提出了一种新颖的两阶段学习框架，包括通用蒸馏和特定任务蒸馏。在通用蒸馏阶段，未经微调的原始 BERT 充当教师模型，学生 TinyBERT 通过在通用领域对大型语料库执行通常的 Transformer 蒸馏来学习模仿教师的行为。他们的学生模型从教师模型的多个中间层「耐心」地学习来获得更多知识。在他们的耐心蒸馏知识框架中，只训练学生模仿中间层的 [CLS] 令牌的表示形式。代码已公开 [23]。 ?
3.4K51发布于 2019-11-01
来自专栏机器之心
大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建：蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。中兴通讯无线研究院「大模型深潜团队」从「数据静态经验流」的角度切入，首创「LLM 自适应题目难度蒸馏」方法，一举将高质量 CoT 语料的生产效率与效果同步拉满。 -32B 研究动机：小模型也想有「长链思考」大模型优势鲜明，部署困难随着 DeepSeek-R1（671B 参数）模型的发布，长思维链（CoT）推理技术在基础大模型和工业应用中快速普及。全新方法：模型自适应难度分级蒸馏近期，强化学习之父 Richard Sutton 提出「经验」是下一代超级数据源的思想，将大模型强化学习的本质定义为是一种数据的动态经验流挖掘。基于此，我们团队从数据静态经验流建设的角度出发，提出基于模型自适应问题难易度蒸馏 CoT 语料的方法，显著提升了长 CoT 语料的质量。
44910编辑于 2025-05-05

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

老婆问我：“什么是大模型的“蒸馏”？”

原来，这些顶级大模型都是蒸馏的

大语言模型的模型蒸馏：概念、方法与应用

知识蒸馏：让大模型“瘦身”的魔法

模型蒸馏升级！高温蒸馏：Softmax With Temperature

模型蒸馏-学习笔记

AGORA：通过群体蒸馏激发大语言模型的群体涌现能力

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

对话 APUS 李涛：全面转型做 AI，蒸馏法训练大模型，沉淀中小模型

人机协同蒸馏实用指南：将大语言模型从黑盒中解放

大语言模型轻量化：知识蒸馏的范式迁移与工程实践

模型压缩：量化、剪枝和蒸馏

模型压缩 | 知识蒸馏经典解读

大语言模型轻量化：知识蒸馏的范式迁移与工程实践

大模型压缩与效率优化：量化、剪枝与蒸馏的协同策略

大模型应用：大模型瘦身：量化、蒸馏、剪枝的基础原理与应用场景深度解析.56

加速BERT模型：从架构优化、模型压缩到模型蒸馏

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐