首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >推理模型更容易产生幻觉吗? Are Reasoning Models More Prone to Hallucination?

推理模型更容易产生幻觉吗? Are Reasoning Models More Prone to Hallucination?

作者头像
CreateAMind
发布2026-03-11 17:26:05
发布2026-03-11 17:26:05
630
举报
文章被收录于专栏:CreateAMindCreateAMind

Are Reasoning Models More Prone to Hallucination?

推理模型更容易产生幻觉吗?

https://arxiv.org/pdf/2505.23646

摘要 最近发展起来的大型推理模型(LRMs)借助长链式思维(Chain-of-Thought, CoT)推理能力,在解决复杂任务方面表现出强大的性能。由于这些LRMs大多通过在形式化推理任务上进行后训练(post-training)而开发,它们是否能够将推理能力泛化,从而在事实查找类任务中帮助减少幻觉,目前尚不明确且存在争议。例如,DeepSeek-R1在SimpleQA这一事实查找基准测试上报告了性能提升,而OpenAI-o3却观察到更严重的幻觉现象。这种差异自然引出了以下研究问题:推理模型是否更容易产生幻觉?本文从三个方面探讨这一问题。(1)我们首先对LRMs中的幻觉现象进行了整体性评估。分析表明,经过完整后训练流程(包括冷启动监督微调(SFT)和可验证奖励的强化学习(RL))的LRMs通常能够减轻其幻觉现象。相比之下,仅采用蒸馏训练或未经过冷启动微调的强化学习训练,则会引入更为细微的幻觉。(2)为了探究不同后训练流程为何会改变LRMs的幻觉表现,我们进行了行为分析。我们识别出两种直接影响LRM事实准确性的关键认知行为:错误重复(Flaw Repetition),即表层推理过程反复沿用相同的底层错误逻辑;以及思维-答案不匹配(Think-Answer Mismatch),即最终答案未能忠实反映之前的CoT推理过程。(3)更进一步,我们从模型不确定性的角度探究LRMs产生幻觉的内在机制。我们发现,LRMs幻觉的增加通常与模型不确定性与事实准确性之间的错位相关。我们认为,本文为理解LRMs中的幻觉现象提供了初步的认识。 ‡ https://github.com/THU-KEG/LRM-FactEval

1 引言 大语言模型(LLMs)已展现出通过长链式思维(CoT)推理解决复杂任务的能力[33]。受此启发,近期LLM的发展引入了一个专门的后训练阶段,旨在进一步增强长篇推理能力。这一阶段通常包括使用可验证奖励的强化学习(RL)[18, 10, 21],或在长篇推理数据上的监督微调(SFT)[37],由此催生了多个显著的大型推理模型(LRMs),例如OpenAI-o1、o3和o4-mini[14, 25],DeepSeek-R1[11],GLM-Z1[13, 9],以及Qwen-3[28, 36]。

尽管后训练主要在形式化推理任务(例如数学推理、逻辑推理和编程)上进行,这些任务的答案具有形式上的可验证性,但人们普遍认为,大型推理模型(LRMs)能够将其推理能力泛化到非形式化任务中。人们预期,长链式思维(CoT)推理也有助于减少幻觉现象。例如,DeepSeek-R1报告称,在后训练之后,其在SimpleQA [34](一个事实查找类问答基准)上的性能有所提升。相反,OpenAI观察到更强大的LRMs(如OpenAI-o3相较于OpenAI-o1[14])出现了更为严重的幻觉。因此,目前仍缺乏系统性的理解,来阐明这种推理形式是否以及如何促进更可靠的事实推理。我们在图1中展示了不同LRMs在后训练后表现出的性能变化趋势的差异。

鉴于这一空白,本文旨在回答以下研究问题:推理模型是否更容易产生幻觉?借鉴OpenAI [25]的方法,我们首先进行了全面的实验,以量化不同开发方式的LRMs在事实查找任务中的幻觉程度。在这些任务中,LRMs需要依赖其参数化知识,并通过组合多个事实进行推理,以得出最终答案。接着,我们进行行为分析,以识别直接影响幻觉现象的LRMs的关键认知行为。最后,我们探究幻觉产生的内在机制。

我们首先在广泛使用的事实查找基准——SimpleQA [34] 和 TriviaQA [16] 上,对多种LRMs及其非推理版本进行了整体事实性评估。令人惊讶的是,我们发现并非所有LRMs都能从其长链式思维推理能力中受益。具体而言,仅通过监督微调(SFT)阶段或仅通过强化学习(RL)阶段开发的LRMs,其事实性甚至不如其非推理版本的基线模型。相比之下,同时经过两个训练阶段(即:以推理能力冷启动的SFT阶段,以及采用可验证奖励的RL阶段)开发的LRMs,相较于初始的非推理模型,事实性有所提升。然而,一些最新开发的LRMs仅专注于从精心筛选的长链式思维数据中进行模型蒸馏。也有尝试采用类似AlphaGo-Zero [30]的强化学习方法,但不进行冷启动。由于这些工作大多旨在提升在形式化推理任务上的性能,因此忽略了对最终交付的LRMs在事实性方面的评估。因此,我们初步实验的结果呼吁研究社区在开发LRMs的过程中,除了形式化推理任务外,也应评估其事实性。

我们进一步深入分析,探讨为何采用不同后训练流程开发的LRMs在事实性表现上存在差异。特别地,我们定义了两种直接影响LRM事实性的关键认知行为:错误重复(Flaw Repetition),即LRM反复尝试不同的表层推理路径,却始终遵循相同的根本性(且通常是有缺陷的)思维逻辑;以及思维-答案不匹配(Think-Answer Mismatch),即LRM未能提供一个与其推理过程忠实一致的答案。我们的分析表明,仅使用RL或仅使用SFT的训练过程往往促使LRM穷尽式地探索推理空间,导致模型陷入重复的循环。同时,仅使用RL的训练流程会使LRM学习遵循浅层的推理格式,忽视了思维过程与最终答案之间的内在联系。相反,通过完整的“冷启动SFT + 后续RL”后训练流程开发的LRMs,较少表现出上述两种认知行为导致的非事实性输出,从而产生更符合事实的模型输出。

最后,我们试图从模型内部不确定性校准错误(miscalibrated internal uncertainty)[42, 8] 的角度,探索LRMs事实性的内在机制。我们发现,仅使用RL或仅使用SFT的LRMs都存在校准被破坏的问题,表现为模型输出的概率与其答案正确概率之间缺乏良好对齐。我们进一步开展探针实验,从LRM的隐藏状态中提取不确定性信息,结果发现,仅使用RL或仅使用SFT的LRMs甚至部分丢失了其隐藏状态中的不确定性信息;而采用完整“冷启动+RL”流程的LRMs在不确定性探测中表现出更高的准确性。我们的结果表明,校准误差可作为开发LRMs过程中监测幻觉现象的潜在信号。

我们的研究建立了LRM的幻觉模式与其后训练策略之间的关系。我们还通过检查不同训练方法引起的参数更新量,证明幻觉现象不能简单地用灾难性遗忘(catastrophic forgetting)来解释。我们对LRMs中幻觉现象的初步理解,可能有助于开发出更值得信赖的模型。

2 相关工作

我们首先介绍大型推理模型(LRMs)及其开发方式,然后介绍LRMs在事实性范畴内产生幻觉的副作用。

大型推理模型(LRMs)。LRMs的提出基于链式思维(chain-of-thought)的直觉——通过将复杂任务分解为多个子目标,并在给出最终答案之前引入额外的“思考”标记(tokens),从而实现更优的推理表现[33]。早期的尝试将链式思维视为大语言模型(LLMs)的固有能力,试图通过不增加额外训练阶段的方式来鼓励模型更多地参与链式思维推理。这些策略包括在提示(prompt)中加入链式思维指令[17, 40],为LLMs提供少量链式思维推理示例[6, 33],以及设计结合专家启发式规则的特定链式思维推理框架[7, 3, 5, 2]。也有研究致力于构建用于链式思维推理的微调语料库[39, 23, 27]。然而,这些微调工作的规模尚不足以构成一个独立的额外训练阶段。

从OpenAI-o1[14]开始,引入了一个额外的后训练阶段,专门用于发展长链式思维(long CoT)推理能力。该后训练阶段需要大量计算资源,旨在激励LLMs进行长链式思维推理,从而催生了一类全新的模型,即大型推理模型(LRMs)[35]。这些LRMs通常采用相似的响应格式,在生成最终输出标记之前,先经历一个“思考”阶段。目前主流的LRMs广泛采用以下三种典型的后训练流程:

冷启动SFT + 推理RL(Cold Start SFT with Reasoning RL)。从一个非推理模型(例如基础模型或指令微调模型)出发,冷启动监督微调(SFT)阶段在长链式思维推理数据上对非推理模型进行微调,生成一个具备初步长思维推理能力的中间模型。随后,该中间模型进入强化学习(RL)训练阶段,使其能够在形式化推理任务上,借助可验证的奖励信号搜索最优的推理路径[18, 32]。这一流程已成为商业公司开发旗舰级LRMs的事实标准流程,包括DeepSeek-R1[11]、Qwen3[28]和GLM-Z1[13]均采用此方法。

• 零式RL(Zero-Style RL)。受AlphaGo-Zero[30]的启发——该方法从零开始通过强化学习训练围棋智能体——零式RL旨在不经过冷启动SFT阶段,直接从非推理模型中激励长链式思维推理。这一研究分支起源于基于人类反馈的强化学习(RLHF)[26, 19],并催生了大量后续工作,致力于稳定LLMs的强化学习训练过程[38, 12],并在环境中提供更精确的奖励信号。值得注意的是,目前阶段,零式RL尚未被证明能够产生与“完整冷启动+RL”流程相媲美的高性能LRMs。它通常用于生成性能良好的中间LRMs,这些中间模型有助于收集和合成用于冷启动SFT的长链式思维推理数据。

• 推理蒸馏SFT(Reasoning Distillation SFT)。最近,人们普遍认为强化学习(RL)阶段对于开发LRMs并非必要。相反,仅通过对非推理模型在高质量长链式思维数据上进行监督微调(SFT),就足以生成LRMs,例如LIMO[37]。由于人工构建长链式思维数据对标注者而言极具挑战性,因此已有研究尝试通过从更强的模型中进行知识蒸馏,来生成参数量更少的LRMs。这些蒸馏得到的小型推理模型通常与旗舰级LRMs同属一个模型系列发布,例如参数量少于320亿的Qwen3系列LRMs[28],以及DeepSeek系列的蒸馏版LRMs[11]。

幻觉(Hallucination)[29]是大语言模型(LLMs)中一个臭名昭著的现象,指模型生成未经验证的信息,常常导致错误的回应。尽管某些幻觉可能体现创造性[15],但我们的关注重点在于尽量减少那些缺乏可信度或事实依据的输出。借鉴OpenAI[25]的做法,我们主要通过事实查找类基准测试[34, 16]来考察幻觉现象。

3 初步调查:幻觉评估

我们通过探讨以下研究问题来开启本项研究:对大型推理模型(LRMs)进行后训练会增加还是减少幻觉?具体而言,我们希望探究后训练阶段中哪些因素和技术会影响幻觉现象。

3.1 实验设置

我们基于事实查找类基准测试对LRMs的幻觉程度进行评估,评估结果通过“以大语言模型作为评判者”(LLM-as-a-Judge)[41, 1, 4]的方法进行。我们介绍如何根据LRMs的后训练流程对其进行分类,并简要描述实现细节。

基准测试(Benchmarks)。事实查找类基准通常以问答(QA)任务的形式呈现。具体而言,输入是一个复合型问题,由多个与原子事实知识相关的子问题组合而成。期望的答案通常为较短的文本形式。我们采用SimpleQA [SQA, 34] 和 TriviaQA [TQA, 16] 这两个广泛使用的基准来评估幻觉。其中,TriviaQA 最初是为机器阅读理解中的远程监督训练而设计的,它提供了来自维基百科的文本片段以及相应的问答对。为了评估幻觉,我们省略所提供的文本片段,仅将问题输入模型,观察模型是否能从其参数化知识中提取出相关知识。我们使用 TriviaQA 的验证集进行评估,该数据集包含 17,944 个问答对。

SimpleQA 是另一个事实查找类问答基准,其问题格式与 TriviaQA 类似,但挑战性显著更高,因为其问题是对 GPT-4 的回答进行对抗性收集的。该数据集共包含 4,326 个不同的问题。

评估方法(Evaluation)。尽管 TriviaQA 原始的评估协议采用精确匹配(exact match)得分,但我们发现这种方法对生成式语言模型不可行,因为同一答案可能以多种不同的文本形式表达。例如,问题“哪个国家被马来西亚的林梦镇分为两部分?”的正确答案是“和平之地”(Abode of Peace)。然而,“和平之地”是文莱(Brunei)的别称,而精确匹配方法无法将“Brunei”识别为正确答案。鉴于此,我们对 TriviaQA 和 SimpleQA 均采用“LLM-as-a-Judge”方式进行评估。我们部署最新发布的具备推理能力的 Qwen3-32B 模型作为评判模型,并以百分比形式报告准确率。

模型收集(Model Collection)。我们根据后训练流程将LRMs分为三类: (1)SFT+RL LRMs:经过冷启动监督微调(SFT)和可验证奖励强化学习(RL)两个阶段开发的模型; (2)RL-only LRMs:仅通过“零式RL”(zero-style RL)激励长链式思维推理能力,跳过了冷启动SFT阶段; (3)SFT-only LRMs:仅经历SFT阶段,通常是从更大的LRMs中蒸馏而来。

在实验中,我们将这些LRMs与其可获取的非推理模型(包括基础模型或指令微调模型)进行比较(“可获取模型”指模型API或模型检查点已公开发布)。我们优先选择作为后训练初始模型的那个版本进行对比,以尽量减少混杂因素的影响。

实现细节(Implementation Details)。对于所有参与实验的LRMs,我们优先使用其官方提供的应用程序编程接口(API),若不可用,则在8块A100 GPU上使用vLLM部署模型。为了使基础版本的语言模型能够输出指定格式,我们为其提供三个示范示例。为确保公平比较,对于需要聊天模板的模型,我们也提供相同的示范示例,并将这些示例包含在用户查询中。更多细节见附录E。

3.2评估结果

要点一:SFT+RL训练的LRMs通常更不容易产生幻觉。我们对涵盖DeepSeek-R1、Qwen3和GLM-4系列的LRMs进行了实验。具体而言,我们评估了DeepSeek-R1 [11]、Qwen3-32B [28, 36]、GLM-4-Z1-9B-0414(简称GLM-4-Z1-9B)和GLM-4-Z1-32B-0414(简称GLM-4-Z1-32B)[13, 9]。由于部署DeepSeek-V3-Base资源消耗极大且无可用API,我们将其与DeepSeek-R1进行对比。对于Qwen3-32B,因其将推理模式与非推理模式融合,我们将其推理模型版本与使用非推理模板的自身版本进行比较。对于GLM-4-Z1-9B,由于开发该推理模型所用的基础模型未发布,我们将其与指令微调模型GLM-4-9B进行对比。对于GLM-4-Z1-32B,则与GLM-4-32B-Base-0414(简称GLM-4-32B-Base)进行比较。

我们将实验结果展示在表1中,主要关注LRMs与其非推理对应模型之间的准确率变化(以↑标记)。我们发现,所有四个通过完整SFT+RL流程后训练的LRMs在SimpleQA和TriviaQA两个基准上均持续获得准确率提升。这是因为长链式思维(CoT)推理使LRM能够显式地表达其推导出的知识,从而有助于简化其知识推理过程。因此,我们得出结论:通过SFT+RL流程开发的LRMs在事实性方面有所提升。

要点二:仅使用RL训练的LRMs更容易产生幻觉。我们接下来评估了未经过冷启动SFT阶段的后训练LRMs,包括MiMO-7B-RL-Zero [31]、DeepMath-Zero [12] 和 DAPO-Qwen-32B [38],它们的强化学习起始模型分别为MiMo-7B-Base、Qwen2.5-7B和Qwen2.5-32B。

RL-only LRMs与其非推理版本模型的比较结果如表2所示。我们发现,与各自的基础模型相比,大多数仅使用RL训练的LRMs在SimpleQA和TriviaQA上的性能均出现下降。唯一的例外是DeepMath-Zero,它在SimpleQA上仅以0.6%的微弱优势超过Qwen2.5-7B,但在TriviaQA上的性能却大幅下降了20.1%。我们的实验表明,仅通过强化学习进行后训练会增加幻觉。我们推测,事实性下降主要源于RL训练本身固有的不稳定性。这一点部分得到我们的观察支持:仅使用RL训练的LRMs更容易陷入重复循环,或无法正确生成与链式思维(CoT)一致的答案。我们将在第4节中进一步探讨这一现象。

要点三:仅通过SFT训练的LRMs也更容易产生幻觉。由于RL的计算成本远高于SFT,因此已有若干尝试通过使用高质量数据进行SFT来开发轻量级的LRMs。这些数据通常来自更强的LRM,而仅使用SFT的后训练流程也被称为“蒸馏”(distillation)。我们评估了多个仅通过蒸馏SFT方式开发的官方发布的蒸馏版LRMs,包括DeepSeek系列的蒸馏模型[11]和Qwen3[36]系列的轻量级模型。具体而言,DeepSeek系列的蒸馏LRMs包括:DeepSeek-R1-Distill-Qwen-14B(DPSK-Qwen-14B)、DeepSeek-R1-Distill-Qwen-32B(DPSK-Qwen-32B)、DeepSeek-R1-Distill-LLaMA-8B(DPSK-LLaMA-8B)和DeepSeek-R1-Distill-LLaMA-70B(DPSK-LLaMA-70B),它们分别在Qwen2.5-14B、Qwen2.5-32B、LLaMA-3.1-8B和LLaMA-3.3-70B基础上进行后训练。我们评估的Qwen系列蒸馏LRM是Qwen3-14B,其基础模型为Qwen3-14B-Base。我们未包含其他蒸馏版Qwen3系列模型,因为只有14B版本发布了对应的非推理模型。

我们将实验结果列于表3中。所评估的LRMs在至少一个事实查找基准上的性能均出现显著下降。尽管我们观察到个别模型的准确率有轻微提升,例如DPSK-LLaMA-70B在TriviaQA上的准确率从74.1%上升至75.2%,但我们发现,这些LRMs在SimpleQA和TriviaQA上的平均准确率持续下降。这表明,仅通过SFT进行后训练会削弱LRMs的事实性。其原因可能是:SFT仅教会了LRMs浅层的推理格式,而未能利用长链式思维(CoT)在其参数中通过适当的重试与反思来搜索事实性知识,我们将在第4节中进一步探讨这一现象。

4 行为分析:错误重复与思维-答案不匹配

基于观察到仅使用RL或仅使用SFT的LRMs更容易产生幻觉,我们接下来探究是哪些认知行为导致这些模型在事实查找任务中出错。我们识别出在长链式思维(CoT)推理过程中影响幻觉现象的两种主要认知行为:(1)错误重复(Flaw Repetition),即LRM陷入反复思考的循环中。这些推理思路在语言表层可能有所不同,但在语义上却高度相似。即使所需的知识已编码在模型参数中,LRM仍无法成功检索,因为它在耗尽上下文长度限制之前无法终止思考过程。(2)思维-答案不匹配(Think-Answer Mismatch),即LRM给出的答案与其链式思维过程在语义上不一致。

4.1 统计分析

为了探究这两种认知行为在LRMs产生幻觉的输出中出现的程度,我们对LRMs生成的输出进行了统计分析。具体而言,我们收集了GLM-4-Z1-32B(SFT+RL模型)、DeepMath-Zero(RL-only模型)和DPSK-Qwen-32B(SFT-only模型)这三个模型生成的错误答案。为了判断这些生成输出是否表现出上述两种认知行为,我们使用具备推理能力的大语言模型Qwen3-32B作为评判模型,来判断生成结果(尤其是其中的链式思维部分)是否存在“错误重复”或“思维-答案不匹配”现象。

要点四:错误重复和思维-答案不匹配是导致仅使用RL或仅使用SFT的LRMs产生幻觉的两个重要原因。我们首先验证了这两种认知行为仅存在于LRMs的输出中。这一点通过观察得到证实:非推理模型(包括Qwen2.5-7B和Qwen2.5-32B)的输出中未出现任何具有这两种认知行为的情况。接着,针对LRMs,我们在表4中展示了在幻觉输出中这两种认知行为的统计结果。我们发现,与SFT+RL模型GLM-4-Z1-32B相比,仅使用SFT的模型DPSK-Qwen-7B更明显地倾向于生成包含“错误重复”的输出。同时,仅使用RL的模型DeepMath-Zero不仅会产生“错误重复”的输出,其“思维-答案不匹配”的发生率也显著高于SFT+RL模型。

4.2 案例研究

我们在表5中展示了两个典型示例,用以说明上述两种认知行为。第一个案例由仅使用强化学习(RL-only)的LRM模型DeepMath-Zero生成,表现出“错误重复”行为,即该模型反复提及一个错误的句子。第二个案例由仅使用监督微调(SFT-only)的LRM模型DPSK-Qwen-32B生成,表现出“思维-答案不匹配”现象:在其链式思维(CoT)部分,模型推理得出的答案是“Freddie Keppard”,但最终输出的答案却是“Fred Hager”。

5 机制分析:基于不确定性的视角

我们研究的最后部分旨在回答以下研究问题:LRMs的幻觉现象是否根源于模型的内在机制?我们又该如何解释这一现象?借鉴以往对非推理型大语言模型(LLMs)机制分析的相关工作,我们假设:LRMs的幻觉是由仅使用RL或仅使用SFT的后训练阶段所导致的模型校准能力退化(corrupted calibration)引起的。

5.1 模型校准

我们首先分析LRMs及其非推理对应模型的模型校准性(model calibration)[42, 8]。为了评估某个LRM的校准情况,我们计算该模型生成答案a的不确定性,记为P(a),以及生成答案正确的概率,记为P(c|a)。

具体而言,为了计算P(a),我们让该LRM对同一问题重复回答N次。每次生成的回答通过另一个大语言模型提取答案内容,我们使用的是Qwen3-32B。然后,我们通过N次提取出的答案进行多数投票,确定该LRM对给定问题的最终答案。接着,我们计算该LRM对其生成答案a的不确定性:

,其中

是一个指示函数,当ai与a相同时返回1,否则返回0。

P(c|a) 的计算方式为:在整个基准测试中,答案a通过“以大语言模型作为评判者”(LLM-as-a-Judge)方法判断为与标准答案在语义上一致的频率。

我们设置N = 10,在图2中展示了在TriviaQA上的校准图(calibration plot),并计算了期望校准误差(Expected Calibration Error, ECE),用以量化LRMs不确定性校准错误的程度[24]。

要点五:尽管SFT+RL流程有助于提升模型校准性,但仅使用SFT或仅使用RL的后训练流程会破坏模型的校准性。我们发现,GLM-4-Z1-32B的ECE为0.12,低于其非推理版本模型GLM-4-32B-Base的0.146,差值为0.026,这表明SFT+RL流程有助于改善LRMs的校准性。然而,仅使用RL训练的模型DeepMath-Zero的ECE为0.156,比其非推理版本高出0.042。同时,仅使用SFT训练的模型Qwen3-14B和DPSK-Qwen-14B的ECE分别为0.183和0.127,分别比其非推理版本高出0.073和0.015。这些结果证实,仅使用SFT或仅使用RL的后训练流程会破坏LRMs的校准性。

5.2 不确定性探针实验

我们现在探讨模型校准错误(mis-calibration)的两种可能情形:(1)仅使用SFT或仅使用RL的后训练流程破坏了模型的校准性,且未采取任何措施从模型内部结构中恢复校准能力;(2)LRMs未能正确地将自身的不确定性表达出来,但正确的不确定性信息仍然编码在其内部结构中,可以通过一个探针模型(probing model)从中重建出来。为了验证究竟是哪种情况,我们进行了一项探针实验,从LRM的隐藏状态(hidden states)中提取不确定性信息。如果该探针能够判断模型是否可能生成正确答案,则说明该模型在隐藏空间中仍然是校准的。

在实现上,为了训练探针模型,我们使用LRM在输入问题中最后一个token的隐藏状态作为输入。训练目标是一个二分类任务,其中正样本是生成了正确答案的问题,负样本是生成了幻觉答案的问题。如果训练好的探针能够成功预测生成答案的正确性,则表明LRM的不确定性信息仍然编码在隐藏状态中,并且可以被重建。我们在TriviaQA数据集上训练该探针,并随机保留20%的样本用于测试。不确定性探针的准确率如表6所示。

要点六:校准错误源于LRMs的隐藏状态之中。实验结果表明,针对仅使用RL或仅使用SFT的LRMs的探针,其性能相较于对应的非推理模型均出现下降。这表明,在后训练阶段,这些模型关于其生成答案的不确定性信息已经丢失。相比之下,针对SFT+RL训练的LRMs的探针,其性能相较于非推理版本模型有显著提升,这与我们之前的观察一致,即SFT+RL有助于提升LRMs在事实查找任务中的推理能力。

6 讨论

尽管我们对大型推理模型(LRMs)的幻觉现象进行了初步研究,但我们主要依赖于对已发布模型的静态分析,而并未亲自实施后训练流程。更全面的研究应通过更严格的变量控制来进行,包括训练数据、更新步数和超参数等。然而,这需要极其庞大的计算资源。尽管如此,我们认为本研究为未来关于LRMs幻觉现象的研究提供了一个良好的起点,我们呼吁在这一方向上开展更系统、更深入的研究。

参数分析。关于LRMs产生幻觉的一个可能的替代性解释是:幻觉源于后训练过程中参数的大幅变化——尤其是在严重依赖仅SFT或仅RL阶段的训练流程中,这些流程可能比混合式的SFT+RL方法引发更剧烈的参数更新,从而导致灾难性遗忘(catastrophic forgetting)[22]。

为了验证这一假设,我们通过计算每个推理模型与其对应基础模型之间的平均绝对误差(MAE)来进行参数分析。MAE的定义为:

,其中

,b分别为LRM和基础模型的第i个参数。

然而,表7中的结果对这一解释提出了挑战。例如,GLM-Z1-32B的参数变化最大(MAE = 1.1529),但其幻觉现象相对较轻。相反,DPSK-Qwen-14B和Qwen3-14B的参数变化较小(MAE分别为0.3374和0.1590),却表现出更严重的幻觉行为。这些发现表明,仅凭参数变化的幅度无法完全解释幻觉现象。相反,它们指向了其他潜在影响因素的存在——可能包括训练数据、训练目标或对齐方法的差异——这些因素共同决定了LRMs中幻觉的产生。因此,“参数变化越大,幻觉越多”这一直觉在实际中并不普遍成立。

7 结论

本文研究了大型推理模型(LRMs)的幻觉现象,发现尽管现有的LRM后训练技术能够持续提升模型解决形式化任务的能力,但在事实查找类任务中的幻觉表现却产生了不一致的影响。本文的研究方法主要遵循“评估—分析—解释”的范式,旨在(1)识别后训练流程中影响幻觉的关键变量,以及(2)从模型行为和内部表征的角度解释幻觉产生的机制。具体而言,我们发现仅使用SFT或仅使用RL的后训练流程是导致LRMs产生幻觉的主要原因,而结合SFT与RL的完整流程则能有效缓解幻觉。LRMs的幻觉主要体现在其推理过程中的两种认知行为:错误重复(flaw repetition)和思维-答案不匹配(think-answer mismatch)。我们还发现,通过探测模型的内部表征可知,产生幻觉的LRMs表现出校准能力的退化。最后,我们分析了后训练阶段的参数更新量,发现仅使用SFT或仅使用RL的流程导致参数更新量显著减少,这可能解释了其更容易产生幻觉的原因。

附录

A 限制

尽管本研究对大型推理模型(LRMs)的幻觉现象进行了深入的实证分析,但仍存在若干局限性。首先,作为一个学术研究实验室,我们无法承担完整规模、全参数强化学习后训练所需的计算成本。因此,我们的分析完全依赖于公开发布的模型。所谓“公开发布的模型”,是指可通过API服务访问,或能够在单个DGX A100节点上使用vLLM/sglang部署的模型。这限制了我们对混淆因素(如预训练语料库、指令微调数据或后训练调度)的控制能力,而这些因素可能会影响所观察到的幻觉程度。

其次,我们的行为与机制评估采用“以大语言模型作为评判者”(LLM-as-a-Judge)的方法来判断事实正确性,这种方法虽然被广泛采用,但可能引入一定的主观性或评判模型特有的偏差。我们通过使用最先进的推理型大语言模型(Qwen3-32B)作为评判模型来缓解这一问题,但仍承认未来仍需进一步研究,以评估该评估方法在不同评判模型或不同领域下的鲁棒性。

第三,本研究主要聚焦于事实查找类任务中的幻觉现象,例如SimpleQA和TriviaQA中的短格式问答任务。这些任务具有明确的正确性标准,便于进行受控比较,但可能无法推广到更复杂的生成形式,如长文本生成、检索增强生成或多轮对话场景。

最后,尽管我们考察了后训练流程、认知行为、校准性以及参数变化等因素,但我们并不声称已穷尽幻觉的所有成因。其他因素——如对齐方法、数据集质量或提示结构——也可能发挥重要作用。这些方面有待在更受控的实验条件下由未来研究进一步探索。

B 更广泛的影响

本研究探讨了大型推理模型的幻觉行为,而这类模型正越来越多地应用于教育、法律辅助和医疗决策支持等高风险场景。我们的一项关键发现是:经过推理能力增强的模型,尤其是采用不完整后训练流程(例如仅使用RL或仅使用SFT)训练的模型,其事实性错误可能比非推理模型更多。这引发了一个重要的社会关切:那些因具备链式思维推理能力而显得更“深思熟虑”或“智能”的模型,可能在输出不准确信息的同时,无意中获得用户的信任。如果用户未能识别这些幻觉输出,并将其用于事实性决策,可能会导致严重后果。

与此同时,我们的分析对语言模型的负责任开发具有积极意义。通过识别与幻觉相关的特定训练流程和行为模式,本研究为减少未来LRM开发中的事实不一致问题提供了可操作的见解。特别是,我们强调了将监督微调(SFT)与可验证奖励的强化学习(RL)相结合的有效性,并提出基于不确定性的指标可作为监测幻觉风险的补充信号。我们希望本研究的发现能够推动研究社区将事实性评估作为推理型大语言模型评估中的标准组成部分。

原文链接:https://arxiv.org/pdf/2505.23646

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档