搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏111222444
SFT 监督微调基本概念
1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。
25000编辑于 2025-10-13
来自专栏DeepHub IMBA
Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定
监督微调（SFT）基本上是现在训练大模型时必走的路。不管你要让模型干什么，先用 SFT 让它学会基本的指令跟随和对话能力，然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。 SFT 到底在做什么先说说传统的监督微调怎么回事。SFT 就是拿一堆（提示，回答）这样的数据对，让模型学会从提示生成对应的回答。仔细看看，SFT 其实就是策略梯度的简化版本： SFT 损失 vs. 策略梯度目标区别在于：SFT 不是从策略采样轨迹，而是从固定数据集采样；SFT 把优势函数固定为 1，也就是假设数据集里的动作都是"好的"。 PSFT：给 SFT 加上 PPO 的稳定性既然知道了 SFT 是策略梯度的特例，那我们能不能给它也加上 PPO 的稳定性机制？答案就是 PSFT。
24610编辑于 2025-11-15
来自专栏大模型成长之路
【大模型学习 | SFT & PPO原理&代码实现】
标注数据，通过SFT（有监督微调）来训练模型Step2. 收集相同prompt不同模型的输出数据，并标注不同输出的得分排名，构建奖励模型RM，训练出一个可以选择出更符合人类偏好的模型Step3. 将奖励模型作为奖励函数，通过PPO最大化奖励机制微调SFT后的模型1️⃣ Supervised fine-tuning (SFT)这一阶段的数据标注是 prompt + labeler 写的回答在这一阶段分数，对这些reward分数进行组合、计算 pairwise loss3️⃣ Reinforcement learning (RL)这一阶段的数据标注是 prompt + 模型生成回答（无需标注）在 SFT 、HellaSwag、WMT15）,存在了“对齐代价” 泛化能处理 unseen 任务三、代码实现1️⃣ SFT AutoTokenizer.from_pretrained(BASE_MODEL, use_fast=False) model = AutoModelForCausalLM.from_pretrained("sft_output
1.2K21编辑于 2025-07-22
来自专栏周末程序猿
机器学习|从0开发大模型之SFT训练
1、什么是SFT SFT是有监督微调（Supervised Fine-Tuning），指采用预先训练好的网络模型，并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。 2、整理SFT数据整理SFT数据需要遵循以下原则：按照QA的格式整理数据如果训练多语言模型，需要准备其他语言的数据，本文训练的模型是中文的，所以只准备中文的数据 SFT的数据需要确保QA的数据回答是正确的 2000条数据，然后保存为bin文件，其中需要通过 sft_process_and_write_data 将数据转换为token。 = [] sft_datasets = [f'{basepath}/sft_data_zh.jsonl'] chunk_num = 0 for path in sft_datasets 训练 SFT训练的代码和上一篇预训练的代码差别不大，区别是加载SFT数据集，代码如下（替换上一篇预训练的 PretrainDataset 函数）： class SFTDataset(Dataset):
82510编辑于 2025-02-27
来自专栏具身小站
AI训练策略：SFT、DPO与GRPO技术演进全解析
1 基础概念解释 SFT : Supervised Fine-Tuning，监督微调 SFT是让一个已经通过海量数据预训练的大模型（它只是学会了语言的统计规律，像个只会接龙的“初学者”）学习如何理解和执行人类的具体指令关键特点：SFT是实现模型对齐的基础和第一步，技术成熟，训练稳定，能让模型快速具备基本的任务处理能力。：模仿教练的标准动作 SFT，全称监督微调，就像在驾校里跟着教练学车。核心区别：SFT是让模型“照着样子做”，DPO是让模型知道“什么更好”，而GRPO是让模型在“小组PK”中学会变得更好。，极大地减少了训练参数量和显存占用，是SFT的常用高效替代方案。
78420编辑于 2026-03-04
基于Llama-3B1B模型进行RAG与SFT实训
一、本模型应用基于Llamma-3.2-3B/1B模型进行RAG与SFT实训1. 2.基于Llama-3.2-1B-Instruct，封装示例代码及数据，用于大模型SFT精调领域实训体验。 ## SFT解决的问题- 大模型的成功，来自于采用自监督学习的方式，对互联网上积累的海量数据的应用。然而，互联网上的数据是有偏差的，无法符合人类的价值判断和对正确答案的要求。通过SFT，可以让模型更好地向人类的偏好和价值观对齐，输出对人更有好的答案。- 大模型在上线后，不可避免地会遇到各种各样的bad case。 ## 如何用SFT训练模型构造问题 - 答案数据对，答案就是对这个问题的正确答案。训练模型在给定的问题时，输出尽可能和答案一致。基本的流程是，收集并创建相关的SFT数据集，然后使用数据集训练模型。
98810编辑于 2024-11-20
SFT,PPO,DPO,KTO 都是啥？LoRA 是啥？PEFT 又是啥？
三、SFT算是高效参数微调吗？不一定，SFT指的是“训练阶段”，而PEFT（高效参数微调）指的是“训练方法”。完全可以使用全量SFT。权重训练效果理论上限最高，容易学透深层知识效果非常接近全量微调，且更不容易过拟合四、损失函数对比1.SFT(SupervisedFine-Tuning)有监督微调SFT是模型训练的“第一步”。 -$\pi_{ref}$：冻结的参考模型（通常是SFT后的模型）。-$\beta$：超参数，控制偏好程度。垂直领域/中小型（百亿级以下）：SFT+DPO是标准流程；如果数据没法配对，就选SFT+KTO。
21510编辑于 2026-03-20
来自专栏深度学习自然语言处理
华为提出Sorted LLaMA：SoFT代替SFT，训练多合一大语言模型
他们不仅对比了SFT和SoFT这两种方法，还创建了多个不同层次的子模型来确定哪些层最能产出高质量的结果。可以注意到，与Sorted LLaMA的第12层相比，SFT的第12层性能略好。下表是一个生成的回复例子，可以看到SFT中较早层的生成文本大多是乱码的。下图(a)比较了Sorted LLaMA和SFT子模型在不同输出位置上的概率分布。首先，图(a)左展示了与SFT模型的最后一层以及从第12层到第36层的层次之间的比较。下图(c)展示了不同SFT层次与最后一个Sorted LLaMA层次之间的比较。图中显示，只有SFT的完整尺寸输出分布接近排序的完整尺寸模型，而其他层次的分布在生成文本的初始步骤中与SoFT相比迅速发散。图(d)比较了所有排序层次的输出分布与最后一个SFT层次的输出分布。
86230编辑于 2023-09-27
来自专栏机器之心
华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能
华为的研究团队提出了 SWE-Lego，一个仅基于监督微调（SFT）的软工代码模型的解决方案。复杂组合方法将多种训练范式结合，比如 SFT 和 RL 的迭代训练，进一步增加了训练复杂度。更重要的是，高质量的训练数据稀缺。这些结果清楚地表明，好的数据集是性能提升的最大驱动力，而改进的 SFT 和测试时扩展提供了不错的增量收益。改进的 SFT（错误掩码 + 课程学习）带来 3.8% 的性能提升。三、结语与展望 SWE-Lego 证明了轻量级方法也能达到 SOTA，不一定需要复杂的 RL 或 SFT 和 RL 的迭代训练，SFT 也可以取得软工任务的 SOTA 性能。
13910编辑于 2026-01-22
来自专栏孟岩的区块链思考
ERC-3525 通过倒计时｜SFT 是什么？有什么用？
要回答这个问题，必须了解什么是半匀质化通证 SFT，而要了解什么是 SFT，就得首先知道 FT 和 NFT 是什么。什么是 SFT ？那么 SFT 是什么呢？ SFT 就是半匀质化通证，是一种新的通证类型，是与 FT 和 NFT 并列的第三种通用数字资产类型。这些物品最适合用 SFT 进行表达。 SFT 打包收纳到一个 ERC-3525 SFT 中，这就像钱包一样了。例如，可以开发一个供应链追踪和管理的行业协作平台，用 SFT 表示一批货品，当发生分销的时候，可以对 SFT 进行拆分。
1.6K10编辑于 2022-11-08
来自专栏CreateAMind
SFT会记忆，RL能泛化：基础模型后训练的比较研究
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training SFT SFT会记忆，RL能泛化 5.4 SFT在RL训练中的作用尽管如前所述，RL在泛化模型的推理能力和视觉能力方面具有优势，但实验流程中仍是在SFT之后再启动RL。在本小节中，我们关注另一个关键问题：SFT对RL训练是否必要？当骨干模型无法遵循指令时，SFT对RL训练是必要的。图9显示，如果没有SFT，所有端到端RL的训练尝试均未能取得改进。更具体地说，我们观察到在没有SFT的情况下，基础模型的指令遵循能力较差。主实验中的所有SFT实验均使用最优的单轮“提示-响应”配对数据，不包含任何验证或修订步骤。使用次优轨迹进行SFT。在图15中，我们观察到，即使使用此类数据，SFT仍然只是记忆训练数据，其分布外性能依然下降。这一证据表明，记忆化现象源于SFT训练方法本身的根本特性，而非SFT数据的形式所致。
11210编辑于 2026-03-11
来自专栏AI智韵
大模型SFT全解析：从原理到工具链，解锁AI微调的核心密码
什么是监督微调（SFT）？监督微调（Supervised Fine-Tuning, SFT）是一种在预训练语言模型（LLM）基础上，使用高质量标注数据进一步优化模型以适应特定任务或领域的技术。训练成本：SFT的计算成本通常远低于预训练。二. SFT的核心原理与流程 2.1 基本原理 SFT基于下一个标记预测的目标，与预训练类似，但数据从原始文本替换为标注数据。四、SFT训练用的数据格式大型语言模型监督微调（SFT）中常见的数据格式及其详细说明。 4.1、基础单轮指令格式 1. SFT与其他技术的结合 8.1 SFT + 强化学习（RL） ReFT技术：字节跳动提出的增强微调方法，结合SFT与PPO算法，通过探索多样化推理路径提升泛化能力。九、大模型SFT（监督微调）工具大模型SFT（监督微调）的工具种类繁多，涵盖了从框架与库、平台与服务、专用工具到其他辅助工具的多个层面。
4.4K21编辑于 2025-05-21
来自专栏NewBeeNLP
详解各种LLM系列｜LLaMA 2模型架构、预训练、SFT内容详解 (PART1)
为了更深入地理解Llama 2的技术特点，特地在此整理了Llama 2模型架构、预训练、SFT、RLHF内容详解，也从安全性角度进行了分析。与闭源模型在各个任务上的表现的比较：四、Supervised Fine-tuning (SFT) 4.1 SFT数据为了引导，研究团队从公开可用的指令调优数据开始SFT阶段，但后来发现其中许多数据的多样性和质量都不够高质量SFT数据收集：使用来自基于供应商的注释的更少但更高质量的示例，SFT的结果得到了显著改善。在总共收集了 27,540 个注释后停止标注 SFT 数据。令人惊讶的是，我们发现从结果SFT模型中采样的输出往往可以与人类标注者手写的SFT数据相竞争，这表明我们可以重新设置优先级，并将更多的注释工作投入到基于偏好的RLHF注释中。
4.3K41编辑于 2024-03-27
来自专栏NLP/KG
大模型SFT数据筛选的艺术：探索IFD、Supperfiltering、MoDS、CaR、Nuggets与LESS的核心价值
场景2：开源数据筛选面对新业务需求而无特定SFT训练数据时，需从开源数据中筛选有助于提升该场景表现的数据，以填补数据缺口，增强模型适应性。核心思想：设想一个场景，若你计划训练一个 72B 的庞大模型，在百万级别的 SFT 数据上使用 IFD 进行数据筛选可能会非常耗时费力。优点：考虑的比较全面，改方面考虑了 SFT 数据的质量，多样性和必要性。缺点：需要依赖一个外部的评分模型，只要是引入外部模型，都是有偏的，很难确保评分模型筛选出来的数据就是难的样本。参考链接：大模型SFT数据精选方法
88210编辑于 2025-04-26
来自专栏自然语言处理(NLP)论文速递
微软 | 利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！
本文作者深入调研了监督微调（SFT）在大模型知识注入上的有效性，提出了一种新型数据生成方法：Fact-based生成方法，通过监督式微调（SFT）实现了大模型新知识的有效注入。其探索核心在于：如何从一系列文档中构建一个训练数据集，通过简单的SFT技术促进新知识的学习？解决这个问题不仅具有理论上的意义，而且对LLMs特定场景应用也有重大的意义。下图展示了基于事实的数据集在不同规模（1x, 5x, 10x）下，经过SFT后的GPT-4模型在基于事实的评估集上的准确率。通过以上对比可以发现，通过基于事实的数据集进行SFT，模型在问答任务中的表现有显著提升。这验证了SFT方法在提高模型处理超出领域、超出知识截止日期的知识方面的有效性。尽管SFT模型在所有情况下都没有超过RAG模型的性能，但在缩小与RAG性能差距方面取得了进展，尤其是在10x数据集规模下。
2.7K10编辑于 2024-04-19
来自专栏机器之心
优于单独SFT，UCLA、Meta新框架d1开源
d1-LLaDA 同样优于仅使用 SFT 方法和仅使用 diffu-GRPO 方法的模型。方法概览 d1 是一个两阶段框架，通过依次结合监督微调（SFT）和在线强化学习（RL）来增强预训练掩码 dLLMs 的推理性能。具体来说，diffu-GRPO 在所有 12 种设置中都优于 LLaDA-8B-Instruct 和 SFT，而 SFT 仅在其中的 7 种设置中优于 LLaDA-8B-Instruct，这表明 diffu-GRPO 相比于单独的 SFT 实现了更强的整体性能提升。定性结果表明，在 SFT 和 d1-LLaDA 生成中出现了顿悟时刻。
35610编辑于 2025-04-22
来自专栏轻咨询服务
T市YD智能运维模型应用平台实战“术”分享-类似DeepSeek的MaaS架构SFT数据使用
这是过拟合了，这个排班表作为SFT数据进行人为干预，修正后再次输入模型进行微调，这次把过拟合的场景找出来，减少一个人力投入，相当于削去过拟合的波峰，留下1个人力并且让他完成巡检任务才能退出。经过这样的类似Deepseek的SFT数据微调使用，智能运维模型的结果准确率提升了。欢迎点赞和关注公众号“科技江河”，如果喜欢，打赏下呗，感谢。
64300编辑于 2025-02-08
豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%
大家都知道监督微调（SFT）技术是解决上述难题性价比较比较高的方案之一，但SFT也需要具体一定的条件：如高质的数据集，同时由于医疗数据的特殊性和复杂性，模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程，需要不断地对模型进行训练、评测和优化。写在最后SFT作为医学大模型构建基础能力的核心环节，其重要性不言而喻。展望未来，我们团队将积极探索SFT+RL的协同训练范式，以应对临床推理中的双重挑战。 SFT将确保模型对基础医学知识的结构化掌握，培养起“循证思维”；而RL则将在实际应用中锤炼模型的判断力，助其形成“临床直觉”。
30610编辑于 2025-07-11
来自专栏deepseek
左脚踩右脚可以飞吗，谈交替使用监督微调和强化学习的后训练
交替使用监督微调（SFT）与强化学习（RL）的策略探讨在大模型后训练中，像deepseek R1那样交替使用监督微调（SFT）和强化学习（RL），而非单一依赖 RL 或蒸馏，背后的核心逻辑如下。1. SFT 的锚定作用定期引入 SFT 训练，通过高质量数据（如人工修正的思维链或模型“拒绝采样”而过滤的思维链）校正模型生成分布，可以有效防止 RL 阶段过度偏离合理路径。交替循环的深层价值(1) 螺旋式能力进化SFT → RL 的递进SFT 阶段提供了基本能力的锚点，RL 则在此基础上探索更优策略。例如，模型在 SFT 阶段学会标准数学符号的使用，随后通过 RL 发现了更简洁高效的路径。RL → SFT 的修正RL 阶段暴露出的不足（如过度简化关键步骤）可以通过新一轮 SFT 注入数据进行修正。总结：交替策略的系统性优势风险控制：通过 SFT 定期校准，规避了 RL 训练过程中可能出现的失控风险。资源优化：在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
70910编辑于 2025-02-28
基因组多组学（第六篇空间HD文章）--中枢神经系统孤立性纤维瘤的分子图谱、亚型及治疗脆弱性
RNA速率和伪时序轨迹分析表明，SFT_经典型状态细胞可能作为其他SFT细胞状态的前体.其余四种细胞状态呈现独特生物学特征："SFT_炎症型"：激活TNF信号和凋亡通路"SFT_神经样型"：特征性表达神经元标志物神经样亚型中SFT_神经样状态细胞占比最高，而炎症细胞最少；SFT_血管生成型和炎症型状态主要富集于炎症亚型和迁移亚型空间转录组学分析证实了单细胞测序发现：SFT_经典型状态分布最广泛；SFT_神经样状态几乎仅见于 WHO 1级肿瘤；SFT_炎症型细胞集中于血管渗漏或炎症细胞浸润区域；SFT_迁移型位于中度缺氧区，而SFT_血管生成型局限于极端缺氧区域。这些结果表明，不同SFT细胞状态可能由SFT_经典型状态演化而来，其分化方向受肿瘤微环境（特别是炎症和缺氧条件）调控。结果4、中枢神经系统孤立性纤维瘤（CNS SFT）的肿瘤微环境组成SFT微环境相对简单，主要由内皮细胞、周细胞、巨噬细胞、成纤维细胞和少量T细胞构成。
24120编辑于 2025-09-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

SFT 监督微调基本概念

Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定

【大模型学习 | SFT & PPO原理&代码实现】

机器学习|从0开发大模型之SFT训练

AI训练策略：SFT、DPO与GRPO技术演进全解析

基于Llama-3B1B模型进行RAG与SFT实训

SFT,PPO,DPO,KTO 都是啥？LoRA 是啥？PEFT 又是啥？

华为提出Sorted LLaMA：SoFT代替SFT，训练多合一大语言模型

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

ERC-3525 通过倒计时｜SFT 是什么？有什么用？

SFT会记忆，RL能泛化：基础模型后训练的比较研究

大模型SFT全解析：从原理到工具链，解锁AI微调的核心密码

详解各种LLM系列｜LLaMA 2模型架构、预训练、SFT内容详解 (PART1)

大模型SFT数据筛选的艺术：探索IFD、Supperfiltering、MoDS、CaR、Nuggets与LESS的核心价值

微软 | 利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！

优于单独SFT，UCLA、Meta新框架d1开源

T市YD智能运维模型应用平台实战“术”分享-类似DeepSeek的MaaS架构SFT数据使用

豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%

左脚踩右脚可以飞吗，谈交替使用监督微调和强化学习的后训练

基因组多组学（第六篇空间HD文章）--中枢神经系统孤立性纤维瘤的分子图谱、亚型及治疗脆弱性

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

SFT 监督微调基本概念

Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定

【大模型学习 | SFT & PPO原理&代码实现】

机器学习|从0开发大模型之SFT训练

AI训练策略：SFT、DPO与GRPO技术演进全解析

基于Llama-3B1B模型进行RAG与SFT实训

SFT,PPO,DPO,KTO 都是啥？LoRA 是啥？PEFT 又是啥？

华为提出Sorted LLaMA：SoFT代替SFT，训练多合一大语言模型

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

ERC-3525 通过倒计时｜SFT 是什么？有什么用？

SFT会记忆，RL能泛化：基础模型后训练的比较研究

大模型SFT全解析：从原理到工具链，解锁AI微调的核心密码

详解各种LLM系列｜LLaMA 2模型架构、 预训练、SFT内容详解 (PART1)

大模型SFT数据筛选的艺术：探索IFD、Supperfiltering、MoDS、CaR、Nuggets与LESS的核心价值

微软 | 利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！

优于单独SFT，UCLA、Meta新框架d1开源

T市YD智能运维模型应用平台实战“术”分享-类似DeepSeek的MaaS架构SFT数据使用

豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%

左脚踩右脚可以飞吗，谈交替使用监督微调和强化学习的后训练

基因组多组学（第六篇空间HD文章）--中枢神经系统孤立性纤维瘤的分子图谱、亚型及治疗脆弱性

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

详解各种LLM系列｜LLaMA 2模型架构、预训练、SFT内容详解 (PART1)