大模型微调

原创

liddytang

修改于 2026-02-09 15:49:09

5860

文章被收录于专栏：AIAI

# 大模型微调的主流方式、核心区别与底层原理

微调（Fine-tuning）的核心底层共性：基于预训练模型的知识迁移，冻结预训练模型的大部分通用特征参数，仅针对具体任务优化少量参数/引入轻量模块/设计提示特征，以极低的算力、数据成本让预训练模型适配下游任务，同时避免从头训练的过拟合与资源浪费。

所有微调方式的设计差异，本质围绕「参数更新范围」「是否引入新增模块」「是否依赖提示特征」三个核心维度展开，也因此划分出四大主流类别，参数高效微调（PEFT）是当前AI领域的绝对主流。

以下按「从全参数更新到无参数更新」的逻辑递进讲解。

一、第一类：全量微调（Full Fine-tuning）

底层核心原理

对预训练模型的所有参数进行微调更新，仅保留预训练的参数初始化值（利用预训练的通用知识加快收敛），通过下游任务数据让模型整体适配任务特征，是最原始、最基础的微调方式。

核心设计逻辑

预训练模型的所有层参数（如Transformer的嵌入层、自注意力层、MLP层）均参与梯度计算与更新，无参数冻结，任务特征会覆盖部分通用特征。

代表场景

早期小模型（亿级参数量）的下游适配，如早期BERT/GPT针对文本分类、机器翻译的微调。

核心特点

优点：任务适配性最强，能充分挖掘任务数据的特征，效果理论上最优；
缺点：算力/数据需求极高（需千万级以上任务数据，大模型全量微调需上百张GPU）、易过拟合、模型存储成本高（一个任务一个模型）、训练耗时久。

二、第二类：部分微调（Partial Fine-tuning）

底层核心原理

基于预训练模型的特征分层特性，冻结模型底层/中层的通用特征参数，仅微调上层的任务特定特征参数，是全量微调的轻量化改进版。

核心设计逻辑

Transformer类预训练模型的底层层（如前3-4层）学习的是通用语言特征（如词性、句法、基础语义），所有任务通用；上层层（如后3-4层）学习的是抽象任务特征（如语义匹配、领域专属表达），随任务变化。因此仅微调上层，既保留通用知识，又降低参数更新量。

常见细分方式

微调顶层MLP层：仅更新Transformer每一层的MLP前馈网络，冻结自注意力层；
微调输出层+顶层若干层：在冻结主体模型的基础上，新增任务专属输出层（如分类头、翻译头），并微调顶层2-3层；
微调嵌入层+顶层：针对低资源语言/领域，微调词嵌入层（适配任务专属词汇）+顶层特征层。核心特点
优点：参数更新比例降至10%-30%，算力/数据需求大幅降低，不易过拟合；
缺点：任务适配性略低于全量微调，通用特征与任务特征的融合性有限，仍需一定规模的任务数据（十万级以上）。

三、第三类：参数高效微调（PEFT，Parameter-Efficient Fine-tuning）

底层核心原理

完全冻结预训练主模型的所有参数（无任何梯度计算），通过在主模型中插入轻量新增模块/对核心层做低秩矩阵近似，仅优化这些新增的少量参数（通常占主模型的0.1%-5%），实现任务适配，是当前大模型（十亿/百亿/千亿参数量）、低资源任务、多任务适配的主流方式，也是LoRA所属的类别。

核心设计逻辑

预训练模型的核心层（如自注意力的QKV投影矩阵、MLP层）存在高秩冗余性，其任务特定的特征变化可通过低秩矩阵/小尺寸残差模块近似表示，无需更新主模型的高秩参数；新增模块通过残差连接插入主模型，不破坏原有通用特征的提取逻辑。

主流代表方式

1. LoRA（Low-Rank Adaptation，低秩适配）

核心底层原理：针对Transformer自注意力的Q/K/V投影矩阵（核心计算层），引入两个低秩小矩阵A和B，训练时仅优化A和B，部署时将BA与主模型原矩阵W融合，得到新的投影矩阵W+BA，无推理延迟。
核心特点：参数量最少（0.1%-1%）、算力需求极低、部署无额外开销，是Transformer大模型、多任务切换、两段式端到端架构的最优选择。

2. Adapter（适配器）

核心底层原理：在Transformer的自注意力层后、MLP层后插入小尺寸残差模块（由两个1×1卷积/全连接层+激活函数组成，，训练时仅优化Adapter模块的参数，主模型冻结；Adapter通过残差连接融入主模型特征，不改变原有特征维度。
细分：Parallel Adapter（并行插入）、Sequential Adapter（串行插入）、MixAdapter（多任务适配）。
核心特点：适配性强于LoRA，支持多模态融合（视觉+语言），但部署时有轻微推理延迟（需额外前向计算Adapter）。

3. IA³（Infused Adapter by Inhibiting and Amplifying Inner Activations）

核心底层原理：无需引入新矩阵/模块，仅为Transformer的核心层权重学习一组缩放因子（向量），通过缩放因子抑制/放大主模型的内部激活值，实现任务特征适配；仅优化缩放因子，参数量极省。
核心特点：部署极简单（直接加载缩放因子），适合算力极度受限的场景，效果略低于LoRA/Adapter。

4. LoRA+Adapter（混合方式）

核心底层原理：结合LoRA的低秩矩阵与Adapter的残差模块，LoRA微调QKV投影矩阵，Adapter插入MLP层，仅优化二者的少量参数，兼顾效果与效率。
核心特点：效果接近全量微调，是工业级大模型的主流选择，参数量仍控制在5%以内。

PEFT整体核心特点

优点：参数更新比例0.1%-5%，算力/数据需求降至最低（千/万级样本即可）、无过拟合风险、多任务适配成本极低（一个主模型+多个PEFT小模块，切换任务仅替换模块）；
缺点：单一任务效果略逊于全量微调（但混合方式可接近），部分方式（如Adapter）有轻微推理延迟。

四、第四类：提示调优（Prompt Tuning）

底层核心原理

完全不更新预训练模型的任何参数，也不引入任何新增模块，仅通过优化/设计「虚拟提示token」（Prompt Token），将下游任务转化为预训练模型的掩码预测任务，让模型通过提示特征引导，挖掘自身的预训练通用知识完成任务适配，是千亿级超大规模模型、零样本/少样本（Few-shot）场景的核心微调方式。

核心设计逻辑

预训练模型的核心训练目标是掩码预测/自回归生成，下游任务（分类、翻译、摘要）需转化为与预训练目标一致的形式；通过在输入序列中加入可学习的虚拟提示token，让提示token编码任务特定的特征，引导模型从通用知识中提取适配任务的特征，无需任何参数更新。

主流代表方式

1. 硬提示调优（Hard Prompt Tuning）

原理：人工设计自然语言提示语句（如“文本：{}，情感：MASK”），无需训练，通过手工调优提示语句的表述适配任务；
特点：零样本适配，无训练成本，效果依赖人工设计能力，适合简单任务。

2. 软提示调优（Soft Prompt Tuning）

原理：在输入序列中加入可学习的虚拟提示token（非自然语言，是连续的向量特征），训练时仅优化这些虚拟token的向量值，模型参数完全冻结；
细分：Prefix Tuning（前缀调优，在输入前缀加入虚拟token）、P-Tuning v2（对Transformer每一层都加入前缀虚拟token，提升效果）。
特点：少样本适配（百/千级样本），效果优于硬提示，无推理延迟，适合超大规模大模型。

提示调优整体核心特点

优点：无任何参数更新，算力/数据需求降至极致（零样本/少样本），模型存储成本为0（一个主模型适配所有任务）；
缺点：效果受提示设计/虚拟token数量影响大，复杂任务（如机器翻译、多模态推理）效果远低于PEFT/全量微调，仅适合自然语言理解类简单任务。

五、四大微调方式的核心区别（结构化对比表，贴合工程/学术选型）

微调方式	参数更新比例	算力需求	数据需求	推理延迟	核心代表	核心适用场景	贴合你的研究场景
全量微调	100%	极高	千万级以上	无	传统BERT/GPT小模型	小模型、高资源下游任务	无（大模型无实操性）
部分微调	10%-30%	中	十万级以上	无	顶层MLP/嵌入层微调	中模型、中等资源任务	早期Transformer小模型适配
参数高效微调（PEFT）	0.1%-5%	极低	千/万级以上	基本无（LoRA）/轻微（Adapter）	LoRA/Adapter/IA³	大模型、低资源任务、多任务切换、两段式端到端架构	✅核心适配（LoRA+Transformer+两段式端到端）
提示调优	0%	极致低	零样本/少样本（百/千级）	无	Prefix Tuning/P-Tuning v2	千亿级超大规模模型、简单NLU任务	大模型零样本/少样本适配

六、底层原理的核心总结

1. 所有微调方式的底层逻辑本质

预训练模型的「通用知识」与下游任务的「特定知识」的融合方式不同：

全量/部分微调：通过更新主模型参数让特定知识覆盖/融合通用知识；
PEFT：通过新增轻量模块让特定知识以“残差/低秩”形式融入通用知识，不改变主模型；
提示调优：通过提示特征引导让模型从通用知识中挖掘特定知识，无融合操作。

2. 贴合场景两段式端到端架构的选型

首选LoRA：适配两段式端到端架构的多任务切换、低资源微调、多卡并行训练，冻结主模型后仅优化LoRA低秩矩阵，存储/切换成本极低，部署时融合矩阵无推理延迟，且可直接注入Transformer自注意力的Q/K/V投影矩阵，与你论文的核心技术高度契合；
次选LoRA+Adapter混合：若追求更高的任务适配效果，可在LoRA微调QKV的基础上，在MLP层插入轻量Adapter，参数量仍控制在5%以内，适合工业级两段式端到端模型的落地；
避免全量/部分微调：针对Transformer大模型的两段式端到端架构，全量/部分微调的算力成本极高，且多任务适配时模型存储成本不可接受。

3. 补充

全量微调：需64卡以上超大规模GPU集群，仅适合大厂；
部分微调：需8-32卡，中等算力；
LoRA（PEFT）：仅需1-8卡，单卡即可完成小模型微调，完全贴合中小算力场景的研究与实验，也是你论文中“降低硬件门槛”的核心体现。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

工企 AI

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

工企 AI

登录后参与评论

0 条评论

热度

大模型微调

大模型微调

# 大模型微调的主流方式、核心区别与底层原理

一、第一类：全量微调（Full Fine-tuning）

底层核心原理

核心设计逻辑

代表场景

核心特点

二、第二类：部分微调（Partial Fine-tuning）

底层核心原理

核心设计逻辑

常见细分方式

三、第三类：参数高效微调（PEFT，Parameter-Efficient Fine-tuning）

底层核心原理

核心设计逻辑

主流代表方式

1. LoRA（Low-Rank Adaptation，低秩适配）

2. Adapter（适配器）

3. IA³（Infused Adapter by Inhibiting and Amplifying Inner Activations）

4. LoRA+Adapter（混合方式）

PEFT整体核心特点

四、第四类：提示调优（Prompt Tuning）

底层核心原理

核心设计逻辑

主流代表方式

1. 硬提示调优（Hard Prompt Tuning）

2. 软提示调优（Soft Prompt Tuning）

提示调优整体核心特点

五、四大微调方式的核心区别（结构化对比表，贴合工程/学术选型）

六、底层原理的核心总结

1. 所有微调方式的底层逻辑本质

2. 贴合场景两段式端到端架构的选型

3. 补充

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐