1
基础概念解释
SFT : Supervised Fine-Tuning,监督微调
SFT是让一个已经通过海量数据预训练的大模型(它只是学会了语言的统计规律,像个只会接龙的“初学者”)学习如何理解和执行人类的具体指令。
DPO : Direct Preference Optimization,直接偏好优化
DPO的提出是为了解决传统基于人类反馈的强化学习(RLHF)流程复杂、训练不稳定的问题。它跳过了训练一个独立的奖励模型这一步。
GRPO : Group Relative Policy Optimization,群组相对策略优化
GRPO是DeepSeek团队提出的一种更高效的强化学习算法,是对PPO的一种改进。它特别适合数学推理等可以通过规则或结果自动评分的任务。
2
横向对比
为了更直观地对比,用一个表格来总结:
特性维度 | SFT | DPO | GRPO |
|---|---|---|---|
核心思想 | 模仿学习:学习标准答案 | 对比学习:学习辨别好坏答案 | 相对比较:在组内竞争中学习 |
所需数据 | 大量的“问题-标准答案”对 | “好-坏”成对出现的偏好数据 | 单个问题+评分规则或奖励模型,无需成对数据 |
关键特点 | 训练稳定,是实现对齐的基础 | 流程简单,无需强化学习,高效稳定 | 无需Critic模型,显存占用低,适合客观任务 |
主要优势 | 快速让模型学会基本指令遵循 | 简化RLHF流程,直接优化偏好 | 计算效率高,训练稳定,DeepSeek的创新 |
主要局限 | 模型是模仿者,缺乏判断力,可能过拟合 | 对偏好数据的质量和格式要求极高 | 依赖组内多样性,生成多个回答的推理成本高 |
经典比喻 | 跟着标准答案背书的学生 | 通过改错本学习的学生 | 在小组PK中成长的学生 |
3
案例解释(用“ 驾校学车 ”来打个比方)
SFT:模仿教练的标准动作
SFT,全称监督微调,就像 在驾校里跟着教练学车 。教练会给你一套标准动作:“看到这个点就打方向盘,在那个杆子前停车”。
然而,SFT的局限性在于,模型可能只是死记硬背了训练数据,并不真正理解什么样的回答是更好的。
DPO:学会分辨回答的好坏
DPO,即直接偏好优化,则像是 从驾校毕业后的进阶训练 。现在副驾驶上坐着一位经验丰富的老司机,他会告诉你:“你看,刚才那种平稳的变道方式,比之前那种忽快忽慢的要好。”
DPO的优势在于,它不只是一个模仿者,更是一个能判断好坏的学习者。
GRPO:在群体比较中自我提升
GRPO,即群组相对策略优化,是一种更新、更高效的强化学习算法。DeepSeek-R1模型就是应用此技术的代表。如果用学车来比喻,GRPO就像是 没有教练,但你要和同车的小伙伴们互相切磋 。你们针对同一段路况各自开车,然后互相比较,谁的路线更优、谁的驾驶更平稳,你就向那个表现最好的人学习。
三者的关系与对比
可以将它们理解为训练大模型的“三部曲”或不同路径:
特性 | SFT (监督微调) | DPO (直接偏好优化) | GRPO (群组相对策略优化) |
|---|---|---|---|
通俗比喻 | 驾校教练教标准动作 | 老司机指导分辨好坏 | 学员之间互相切磋比较 |
所需数据 | 大量高质量的“问题-答案”对 | “好回答-差回答”的对比数据 | 对同一个问题的多个回答(可配合规则或奖励模型打分) |
训练方式 | 让模型模仿标准答案 | 直接优化模型,提高好回答的概率 | 通过组内比较,向相对较优的回答学习 |
核心作用 | 建立基础的指令遵循能力 | 让模型学会判断和生成高质量回答 | 高效地进行强化学习对齐,节省显存 |
优缺点 | 简单高效,但可能缺乏判断力 | 流程简单,效果显著,但依赖数据质量 | 内存占用小,训练稳定,但算法相对复杂 |
4
不同视角下的对比
技术演进路径
从技术演进路径上看,还有一些著名的变体和相关技术:
训练效率
从训练效率的角度看,还有一大类参数高效微调(PEFT)方法,它们专注于如何用更少的资源完成类似SFT的任务:
对齐范式
从对齐范式的角度看,最新研究还提出了无需训练的对齐(Training-free Alignment)方法:
这类方法不需要更新模型参数,而是通过在推理阶段进行干预来实现对齐,例如: