首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型微调

大模型微调

原创
作者头像
liddytang
修改2026-02-09 15:49:09
修改2026-02-09 15:49:09
1900
举报
文章被收录于专栏:AIAI

# 大模型微调的主流方式、核心区别与底层原理

微调(Fine-tuning)的核心底层共性:基于预训练模型的知识迁移,冻结预训练模型的大部分通用特征参数,仅针对具体任务优化少量参数/引入轻量模块/设计提示特征,以极低的算力、数据成本让预训练模型适配下游任务,同时避免从头训练的过拟合与资源浪费。

所有微调方式的设计差异,本质围绕「参数更新范围」「是否引入新增模块」「是否依赖提示特征」三个核心维度展开,也因此划分出四大主流类别,参数高效微调(PEFT)是当前AI领域的绝对主流。

以下按「从全参数更新到无参数更新」的逻辑递进讲解。

一、第一类:全量微调(Full Fine-tuning)

底层核心原理

对预训练模型的所有参数进行微调更新,仅保留预训练的参数初始化值(利用预训练的通用知识加快收敛),通过下游任务数据让模型整体适配任务特征,是最原始、最基础的微调方式。

核心设计逻辑

预训练模型的所有层参数(如Transformer的嵌入层、自注意力层、MLP层)均参与梯度计算与更新,无参数冻结,任务特征会覆盖部分通用特征。

代表场景

早期小模型(亿级参数量)的下游适配,如早期BERT/GPT针对文本分类、机器翻译的微调。

核心特点

  • 优点:任务适配性最强,能充分挖掘任务数据的特征,效果理论上最优;
  • 缺点:算力/数据需求极高(需千万级以上任务数据,大模型全量微调需上百张GPU)、易过拟合、模型存储成本高(一个任务一个模型)、训练耗时久。

二、第二类:部分微调(Partial Fine-tuning)

底层核心原理

基于预训练模型的特征分层特性,冻结模型底层/中层的通用特征参数,仅微调上层的任务特定特征参数,是全量微调的轻量化改进版。

核心设计逻辑

Transformer类预训练模型的底层层(如前3-4层)学习的是通用语言特征(如词性、句法、基础语义),所有任务通用;上层层(如后3-4层)学习的是抽象任务特征(如语义匹配、领域专属表达),随任务变化。因此仅微调上层,既保留通用知识,又降低参数更新量。

常见细分方式

  1. 微调顶层MLP层:仅更新Transformer每一层的MLP前馈网络,冻结自注意力层;
  2. 微调输出层+顶层若干层:在冻结主体模型的基础上,新增任务专属输出层(如分类头、翻译头),并微调顶层2-3层;
  3. 微调嵌入层+顶层:针对低资源语言/领域,微调词嵌入层(适配任务专属词汇)+顶层特征层。核心特点
  4. 优点:参数更新比例降至10%-30%,算力/数据需求大幅降低,不易过拟合;
  5. 缺点:任务适配性略低于全量微调,通用特征与任务特征的融合性有限,仍需一定规模的任务数据(十万级以上)。

三、第三类:参数高效微调(PEFT,Parameter-Efficient Fine-tuning)

底层核心原理

完全冻结预训练主模型的所有参数(无任何梯度计算),通过在主模型中插入轻量新增模块/对核心层做低秩矩阵近似,仅优化这些新增的少量参数(通常占主模型的0.1%-5%),实现任务适配,是当前大模型(十亿/百亿/千亿参数量)、低资源任务、多任务适配的主流方式,也是LoRA所属的类别。

核心设计逻辑

预训练模型的核心层(如自注意力的QKV投影矩阵、MLP层)存在高秩冗余性,其任务特定的特征变化可通过低秩矩阵/小尺寸残差模块近似表示,无需更新主模型的高秩参数;新增模块通过残差连接插入主模型,不破坏原有通用特征的提取逻辑。

主流代表方式

1. LoRA(Low-Rank Adaptation,低秩适配)
  • 核心底层原理:针对Transformer自注意力的Q/K/V投影矩阵(核心计算层),引入两个低秩小矩阵A和B,训练时仅优化A和B,部署时将BA与主模型原矩阵W融合,得到新的投影矩阵W+BA,无推理延迟
  • 核心特点:参数量最少(0.1%-1%)、算力需求极低、部署无额外开销,是Transformer大模型、多任务切换、两段式端到端架构的最优选择。
2. Adapter(适配器)
  • 核心底层原理:在Transformer的自注意力层后、MLP层后插入小尺寸残差模块(由两个1×1卷积/全连接层+激活函数组成,,训练时仅优化Adapter模块的参数,主模型冻结;Adapter通过残差连接融入主模型特征,不改变原有特征维度。
  • 细分:Parallel Adapter(并行插入)、Sequential Adapter(串行插入)、MixAdapter(多任务适配)。
  • 核心特点:适配性强于LoRA,支持多模态融合(视觉+语言),但部署时有轻微推理延迟(需额外前向计算Adapter)。
3. IA³(Infused Adapter by Inhibiting and Amplifying Inner Activations)
  • 核心底层原理:无需引入新矩阵/模块,仅为Transformer的核心层权重学习一组缩放因子(向量),通过缩放因子抑制/放大主模型的内部激活值,实现任务特征适配;仅优化缩放因子,参数量极省。
  • 核心特点:部署极简单(直接加载缩放因子),适合算力极度受限的场景,效果略低于LoRA/Adapter。
4. LoRA+Adapter(混合方式)
  • 核心底层原理:结合LoRA的低秩矩阵与Adapter的残差模块,LoRA微调QKV投影矩阵,Adapter插入MLP层,仅优化二者的少量参数,兼顾效果与效率。
  • 核心特点:效果接近全量微调,是工业级大模型的主流选择,参数量仍控制在5%以内。

PEFT整体核心特点

  • 优点:参数更新比例0.1%-5%,算力/数据需求降至最低(千/万级样本即可)、无过拟合风险、多任务适配成本极低(一个主模型+多个PEFT小模块,切换任务仅替换模块);
  • 缺点:单一任务效果略逊于全量微调(但混合方式可接近),部分方式(如Adapter)有轻微推理延迟。

四、第四类:提示调优(Prompt Tuning)

底层核心原理

完全不更新预训练模型的任何参数,也不引入任何新增模块,仅通过优化/设计「虚拟提示token」(Prompt Token),将下游任务转化为预训练模型的掩码预测任务,让模型通过提示特征引导,挖掘自身的预训练通用知识完成任务适配,是千亿级超大规模模型、零样本/少样本(Few-shot)场景的核心微调方式。

核心设计逻辑

预训练模型的核心训练目标是掩码预测/自回归生成,下游任务(分类、翻译、摘要)需转化为与预训练目标一致的形式;通过在输入序列中加入可学习的虚拟提示token,让提示token编码任务特定的特征,引导模型从通用知识中提取适配任务的特征,无需任何参数更新。

主流代表方式

1. 硬提示调优(Hard Prompt Tuning)
  • 原理:人工设计自然语言提示语句(如“文本:{},情感:MASK”),无需训练,通过手工调优提示语句的表述适配任务;
  • 特点:零样本适配,无训练成本,效果依赖人工设计能力,适合简单任务。
2. 软提示调优(Soft Prompt Tuning)
  • 原理:在输入序列中加入可学习的虚拟提示token(非自然语言,是连续的向量特征),训练时仅优化这些虚拟token的向量值,模型参数完全冻结;
  • 细分:Prefix Tuning(前缀调优,在输入前缀加入虚拟token)、P-Tuning v2(对Transformer每一层都加入前缀虚拟token,提升效果)。
  • 特点:少样本适配(百/千级样本),效果优于硬提示,无推理延迟,适合超大规模大模型。

提示调优整体核心特点

  • 优点:无任何参数更新,算力/数据需求降至极致(零样本/少样本),模型存储成本为0(一个主模型适配所有任务);
  • 缺点:效果受提示设计/虚拟token数量影响大,复杂任务(如机器翻译、多模态推理)效果远低于PEFT/全量微调,仅适合自然语言理解类简单任务。

五、四大微调方式的核心区别(结构化对比表,贴合工程/学术选型)

微调方式

参数更新比例

算力需求

数据需求

推理延迟

核心代表

核心适用场景

贴合你的研究场景

全量微调

100%

极高

千万级以上

传统BERT/GPT小模型

小模型、高资源下游任务

无(大模型无实操性)

部分微调

10%-30%

十万级以上

顶层MLP/嵌入层微调

中模型、中等资源任务

早期Transformer小模型适配

参数高效微调(PEFT)

0.1%-5%

极低

千/万级以上

基本无(LoRA)/轻微(Adapter)

LoRA/Adapter/IA³

大模型、低资源任务、多任务切换、两段式端到端架构

核心适配(LoRA+Transformer+两段式端到端)

提示调优

0%

极致低

零样本/少样本(百/千级)

Prefix Tuning/P-Tuning v2

千亿级超大规模模型、简单NLU任务

大模型零样本/少样本适配

六、底层原理的核心总结

1. 所有微调方式的底层逻辑本质

预训练模型的「通用知识」与下游任务的「特定知识」的融合方式不同:

  • 全量/部分微调:通过更新主模型参数让特定知识覆盖/融合通用知识;
  • PEFT:通过新增轻量模块让特定知识以“残差/低秩”形式融入通用知识,不改变主模型;
  • 提示调优:通过提示特征引导让模型从通用知识中挖掘特定知识,无融合操作。

2. 贴合场景两段式端到端架构的选型

  1. 首选LoRA:适配两段式端到端架构的多任务切换、低资源微调、多卡并行训练,冻结主模型后仅优化LoRA低秩矩阵,存储/切换成本极低,部署时融合矩阵无推理延迟,且可直接注入Transformer自注意力的Q/K/V投影矩阵,与你论文的核心技术高度契合;
  2. 次选LoRA+Adapter混合:若追求更高的任务适配效果,可在LoRA微调QKV的基础上,在MLP层插入轻量Adapter,参数量仍控制在5%以内,适合工业级两段式端到端模型的落地;
  3. 避免全量/部分微调:针对Transformer大模型的两段式端到端架构,全量/部分微调的算力成本极高,且多任务适配时模型存储成本不可接受。

3. 补充

  • 全量微调:需64卡以上超大规模GPU集群,仅适合大厂;
  • 部分微调:需8-32卡,中等算力;
  • LoRA(PEFT):仅需1-8卡,单卡即可完成小模型微调,完全贴合中小算力场景的研究与实验,也是你论文中“降低硬件门槛”的核心体现。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • # 大模型微调的主流方式、核心区别与底层原理
    • 一、第一类:全量微调(Full Fine-tuning)
      • 底层核心原理
      • 核心设计逻辑
      • 代表场景
      • 核心特点
    • 二、第二类:部分微调(Partial Fine-tuning)
      • 底层核心原理
      • 核心设计逻辑
      • 常见细分方式
    • 三、第三类:参数高效微调(PEFT,Parameter-Efficient Fine-tuning)
      • 底层核心原理
      • 核心设计逻辑
      • 主流代表方式
      • PEFT整体核心特点
    • 四、第四类:提示调优(Prompt Tuning)
      • 底层核心原理
      • 核心设计逻辑
      • 主流代表方式
      • 提示调优整体核心特点
    • 五、四大微调方式的核心区别(结构化对比表,贴合工程/学术选型)
    • 六、底层原理的核心总结
      • 1. 所有微调方式的底层逻辑本质
      • 2. 贴合场景两段式端到端架构的选型
      • 3. 补充
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档