当前产业共识是,大模型后训练不再是简单的模型优化,而是AI落地的必经之路。
企业需要将通用基座模型,训练成深度理解自身业务、具备领域知识、能执行复杂策略的智能引擎。
行业最初普遍采用SFT的方式,让模型学习特定领域的知识对话风格。
但简单的监督学习无法教会模型进行复杂的价值判断和策略选择。
于是,技术焦点从“模仿”转向“对齐”,从SFT转向RL范式。
而强化学习路线上,也从“依赖人力”转向“追求自动化”。
从最初的RLHF(人类反馈强化学习),转向RLVR(基于可验证反馈强化学习),再转向前沿的“自然语言奖励”。
企业中后训练普遍会面对数据质量差、标注成本高、奖励信号与评估体系难以统一的挑战。
行业中有些企业已经有了最佳实践。
比如知乎采用的是大模型预打标+主动学习,来提升数据质量。
汽车之家利用结构化私域数据做增量预训练,并结合KAG领域知识图谱抑制幻觉,确保回答精准。
微博通过模型蒸馏,在降低成本的同时实现高效内容理解。
夸克通过后训练复刻专家思维。
这些最佳实践体现出,整个后训练的完整路线是:
1、Data:准备高质量的数据,为模型注入领域知识;
数据是后训练的基石,数据质量决定了后训练效果的上限。
企业做大模型后训练,超过60%时间花费在数据准备上。
数据准备挑战的核心是,原始质量参差不齐,包含大量噪音、冗余和低价值信息,企业自有数据专业且垂直,直接用于训练会导致模型泛化能力缺失。
高质量的数据,很大程度上还需要采用人工标注,但成本很高。
偏主观的场景下,人工标注的结果一致性没那么好。
可以通过大模型进行预打标,采用主动学习聚焦困难样本,提升数据效率,构建多源、高质量的训练数据集。
花精力生成100条高质量数据,比多调一次模型效果提升更大。
首先通过模型自动过滤掉不合规、回答错误的数据,然后利用大模型自动校正文本中的错别字、口语化、重复的表达,大幅减轻人工校对的成本。
再对人工话术进行润色和优化,提升话术质量。
最后,通过数据合成方式,扩充高质量种子数据,让原始数据变成高质量数据。
2、Model:选择合适的基座模型,降低工程门槛;
比如选择千问模型,其尺寸广泛满足不同场景对于成本和性能的需求。
再用海量高质量数据对千问大模型进行预训练,使其具备强大的内容理解能力。
最后,蒸馏到一个更轻量级的模型上。
这样既获得了大模型的效果,又可以更低的成本实现业务效果。
3、Reward:设计有效的奖励机制;
奖励机制的核心,是将复杂的商业目标和人类偏好,转化为模型在训练过程中能够学习和优化的数值信号。
它不是简单的对错,而是为模型提供了一个导航,告诉模型在无数的可能性下,哪些行为更接近好的标准。
强化学习的初级形态是RLHF,依赖人类标注员对模型输出进行打分,以此作为奖励信号,这种方式标注成本较高,泛化存在瓶颈。
真正的突破来源于RLVR(基于可验证反馈的强化学习),在一些客观评价标准领域,通过构建自动化验证系统作为奖励模型,实现规则即奖励的闭环,摆脱对于人力标注的依赖。
但业务中仍然存在一些标准无法用规则定义,此时就需要自然语言奖励方式。
通过将复杂的文本序列输入到强大的判别模型中,直接通过自然语言指令证明对或者错。
好处是自然语言表述能力远超僵化的规则系统。
线上模型有幻觉容忍低、延迟低、实时性高的特点。
所以在模型上线后,会先进行ABtest,关注用户的转化。
4、Evaluation:构建可量化的模型评测,挂钩业务指标;
模型评估师衡量后训练成效的最终标尺,核心在于用客观、可量化的结果证明技术投入的商业价值。
AI在企业中的落地,来自于如何用好企业独有的场景、数据和业务的理解。