# 大模型微调的主流方式、核心区别与底层原理
微调(Fine-tuning)的核心底层共性:基于预训练模型的知识迁移,冻结预训练模型的大部分通用特征参数,仅针对具体任务优化少量参数/引入轻量模块/设计提示特征,以极低的算力、数据成本让预训练模型适配下游任务,同时避免从头训练的过拟合与资源浪费。
所有微调方式的设计差异,本质围绕「参数更新范围」「是否引入新增模块」「是否依赖提示特征」三个核心维度展开,也因此划分出四大主流类别,参数高效微调(PEFT)是当前AI领域的绝对主流。
以下按「从全参数更新到无参数更新」的逻辑递进讲解。
一、第一类:全量微调(Full Fine-tuning)
底层核心原理
对预训练模型的所有参数进行微调更新,仅保留预训练的参数初始化值(利用预训练的通用知识加快收敛),通过下游任务数据让模型整体适配任务特征,是最原始、最基础的微调方式。
核心设计逻辑
预训练模型的所有层参数(如Transformer的嵌入层、自注意力层、MLP层)均参与梯度计算与更新,无参数冻结,任务特征会覆盖部分通用特征。
代表场景
早期小模型(亿级参数量)的下游适配,如早期BERT/GPT针对文本分类、机器翻译的微调。
核心特点
- 优点:任务适配性最强,能充分挖掘任务数据的特征,效果理论上最优;
- 缺点:算力/数据需求极高(需千万级以上任务数据,大模型全量微调需上百张GPU)、易过拟合、模型存储成本高(一个任务一个模型)、训练耗时久。
二、第二类:部分微调(Partial Fine-tuning)
底层核心原理
基于预训练模型的特征分层特性,冻结模型底层/中层的通用特征参数,仅微调上层的任务特定特征参数,是全量微调的轻量化改进版。
核心设计逻辑
Transformer类预训练模型的底层层(如前3-4层)学习的是通用语言特征(如词性、句法、基础语义),所有任务通用;上层层(如后3-4层)学习的是抽象任务特征(如语义匹配、领域专属表达),随任务变化。因此仅微调上层,既保留通用知识,又降低参数更新量。
常见细分方式
- 微调顶层MLP层:仅更新Transformer每一层的MLP前馈网络,冻结自注意力层;
- 微调输出层+顶层若干层:在冻结主体模型的基础上,新增任务专属输出层(如分类头、翻译头),并微调顶层2-3层;
- 微调嵌入层+顶层:针对低资源语言/领域,微调词嵌入层(适配任务专属词汇)+顶层特征层。核心特点
- 优点:参数更新比例降至10%-30%,算力/数据需求大幅降低,不易过拟合;
- 缺点:任务适配性略低于全量微调,通用特征与任务特征的融合性有限,仍需一定规模的任务数据(十万级以上)。
三、第三类:参数高效微调(PEFT,Parameter-Efficient Fine-tuning)
底层核心原理
完全冻结预训练主模型的所有参数(无任何梯度计算),通过在主模型中插入轻量新增模块/对核心层做低秩矩阵近似,仅优化这些新增的少量参数(通常占主模型的0.1%-5%),实现任务适配,是当前大模型(十亿/百亿/千亿参数量)、低资源任务、多任务适配的主流方式,也是LoRA所属的类别。
核心设计逻辑
预训练模型的核心层(如自注意力的QKV投影矩阵、MLP层)存在高秩冗余性,其任务特定的特征变化可通过低秩矩阵/小尺寸残差模块近似表示,无需更新主模型的高秩参数;新增模块通过残差连接插入主模型,不破坏原有通用特征的提取逻辑。
主流代表方式
1. LoRA(Low-Rank Adaptation,低秩适配)
- 核心底层原理:针对Transformer自注意力的Q/K/V投影矩阵(核心计算层),引入两个低秩小矩阵A和B,训练时仅优化A和B,部署时将BA与主模型原矩阵W融合,得到新的投影矩阵W+BA,无推理延迟。
- 核心特点:参数量最少(0.1%-1%)、算力需求极低、部署无额外开销,是Transformer大模型、多任务切换、两段式端到端架构的最优选择。
2. Adapter(适配器)
- 核心底层原理:在Transformer的自注意力层后、MLP层后插入小尺寸残差模块(由两个1×1卷积/全连接层+激活函数组成,,训练时仅优化Adapter模块的参数,主模型冻结;Adapter通过残差连接融入主模型特征,不改变原有特征维度。
- 细分:Parallel Adapter(并行插入)、Sequential Adapter(串行插入)、MixAdapter(多任务适配)。
- 核心特点:适配性强于LoRA,支持多模态融合(视觉+语言),但部署时有轻微推理延迟(需额外前向计算Adapter)。
3. IA³(Infused Adapter by Inhibiting and Amplifying Inner Activations)
- 核心底层原理:无需引入新矩阵/模块,仅为Transformer的核心层权重学习一组缩放因子(向量),通过缩放因子抑制/放大主模型的内部激活值,实现任务特征适配;仅优化缩放因子,参数量极省。
- 核心特点:部署极简单(直接加载缩放因子),适合算力极度受限的场景,效果略低于LoRA/Adapter。
4. LoRA+Adapter(混合方式)
- 核心底层原理:结合LoRA的低秩矩阵与Adapter的残差模块,LoRA微调QKV投影矩阵,Adapter插入MLP层,仅优化二者的少量参数,兼顾效果与效率。
- 核心特点:效果接近全量微调,是工业级大模型的主流选择,参数量仍控制在5%以内。
PEFT整体核心特点
- 优点:参数更新比例0.1%-5%,算力/数据需求降至最低(千/万级样本即可)、无过拟合风险、多任务适配成本极低(一个主模型+多个PEFT小模块,切换任务仅替换模块);
- 缺点:单一任务效果略逊于全量微调(但混合方式可接近),部分方式(如Adapter)有轻微推理延迟。
四、第四类:提示调优(Prompt Tuning)
底层核心原理
完全不更新预训练模型的任何参数,也不引入任何新增模块,仅通过优化/设计「虚拟提示token」(Prompt Token),将下游任务转化为预训练模型的掩码预测任务,让模型通过提示特征引导,挖掘自身的预训练通用知识完成任务适配,是千亿级超大规模模型、零样本/少样本(Few-shot)场景的核心微调方式。
核心设计逻辑
预训练模型的核心训练目标是掩码预测/自回归生成,下游任务(分类、翻译、摘要)需转化为与预训练目标一致的形式;通过在输入序列中加入可学习的虚拟提示token,让提示token编码任务特定的特征,引导模型从通用知识中提取适配任务的特征,无需任何参数更新。
主流代表方式
1. 硬提示调优(Hard Prompt Tuning)
- 原理:人工设计自然语言提示语句(如“文本:{},情感:MASK”),无需训练,通过手工调优提示语句的表述适配任务;
- 特点:零样本适配,无训练成本,效果依赖人工设计能力,适合简单任务。
2. 软提示调优(Soft Prompt Tuning)
- 原理:在输入序列中加入可学习的虚拟提示token(非自然语言,是连续的向量特征),训练时仅优化这些虚拟token的向量值,模型参数完全冻结;
- 细分:Prefix Tuning(前缀调优,在输入前缀加入虚拟token)、P-Tuning v2(对Transformer每一层都加入前缀虚拟token,提升效果)。
- 特点:少样本适配(百/千级样本),效果优于硬提示,无推理延迟,适合超大规模大模型。
提示调优整体核心特点
- 优点:无任何参数更新,算力/数据需求降至极致(零样本/少样本),模型存储成本为0(一个主模型适配所有任务);
- 缺点:效果受提示设计/虚拟token数量影响大,复杂任务(如机器翻译、多模态推理)效果远低于PEFT/全量微调,仅适合自然语言理解类简单任务。
五、四大微调方式的核心区别(结构化对比表,贴合工程/学术选型)
| | | | | | | |
|---|
| | | | | | | |
| | | | | | | |
| | | | | | | ✅核心适配(LoRA+Transformer+两段式端到端) |
| | | | | Prefix Tuning/P-Tuning v2 | | |
六、底层原理的核心总结
1. 所有微调方式的底层逻辑本质
预训练模型的「通用知识」与下游任务的「特定知识」的融合方式不同:
- 全量/部分微调:通过更新主模型参数让特定知识覆盖/融合通用知识;
- PEFT:通过新增轻量模块让特定知识以“残差/低秩”形式融入通用知识,不改变主模型;
- 提示调优:通过提示特征引导让模型从通用知识中挖掘特定知识,无融合操作。
2. 贴合场景两段式端到端架构的选型
- 首选LoRA:适配两段式端到端架构的多任务切换、低资源微调、多卡并行训练,冻结主模型后仅优化LoRA低秩矩阵,存储/切换成本极低,部署时融合矩阵无推理延迟,且可直接注入Transformer自注意力的Q/K/V投影矩阵,与你论文的核心技术高度契合;
- 次选LoRA+Adapter混合:若追求更高的任务适配效果,可在LoRA微调QKV的基础上,在MLP层插入轻量Adapter,参数量仍控制在5%以内,适合工业级两段式端到端模型的落地;
- 避免全量/部分微调:针对Transformer大模型的两段式端到端架构,全量/部分微调的算力成本极高,且多任务适配时模型存储成本不可接受。
3. 补充
- 全量微调:需64卡以上超大规模GPU集群,仅适合大厂;
- 部分微调:需8-32卡,中等算力;
- LoRA(PEFT):仅需1-8卡,单卡即可完成小模型微调,完全贴合中小算力场景的研究与实验,也是你论文中“降低硬件门槛”的核心体现。