大模型越反思越错，原来是长链推理通过自我说服加重幻觉北邮

北邮网安团队投稿
量子位 | 公众号 QbitAI

当推理链从3步延伸到50+步，幻觉率暴增10倍；反思节点也束手无策。

来自北京邮电大学的研究团队通过思维链审计实验，首次定量揭示了这一“越想越错”现象背后的元认知偏差：

长链推理中的反思不是纠错机制，而是给幻觉颁发“理性证书”——

模型为保持与用户提示语义一致，宁可篡改协议定义也不否定前提。

风险缺口：长链CoT放大“误差滚雪球”

推理大模型（RLLMs）能把复杂问题拆解成几十步推理，再给出看似缜密的结论。然而，随着推理链条变长，一个令人不安的趋势浮出水面——错误不再是偶发失误，而是沿链条滚雪球式放大。

在医疗、金融、法律等高风险场景，一次细小偏差就可能酿成灾难。

遗憾的是，当前安全评估几乎都停留在结果级：判定答案对错、衡量毒性与否，犹如“考试只看最后分数”。

这种做法忽视了一个关键问题：错误到底是如何在链内生根、扩散并固化的？如果无法洞察这一机制，就难以对症下药。

北京邮电大学的研究团队为解决这一问题，采取了以下方法：

首先基于RFC协议文档构建受控知识域，再让模型生成30–60步的长链推理，并在关键节点插入reflection操作以实时记录置信度变化。

具体而言，他们构建了一个受控知识领域，该领域捕获了两种类型的幻觉案例，克服了在受控环境中可靠地重现幻觉的困难（图a）。

这个领域具有以下三个特点：

封闭性：1515道问题严格限定在314份RFC技术文档内，杜绝外部干扰；
可验证：每个知识单元带明确真值标签；
高压陷阱：在30%的问题中预埋三重错误事实（如篡改协议校验规则），测试模型纠偏能力。

然后，他们提出了一种针对长链推理的建模系统，该系统追踪知识是如何在多个推理步骤中被引入、反馈和完善的，解决了在复杂的推理轨迹中研究幻觉演化的挑战（图b）。

更进一步，他们还审计了幻觉实例，以归因于现实案例中幻觉的传播，应对了理解长链推理背后幻觉潜在机制这一挑战。如图c所示，k1和k3通过错误知识引入幻觉，将最初正确的思维链第一步（c1）经由c3反射扭曲为幻觉产生的c4，从而揭示了推理模型中存在的潜在风险。

反思越深错误越真：长链推理的自我说服

通过对结果进行分析，北京邮电大学的研究团队揭示了RLLM产生幻觉的核心机制：

当模型在长思维链中反复挣扎，它不是在逼近真相——而是在用千余词的复杂推理，固化几十个词的错误答案。

1、外部错误诱发内部造假

实验显示，当模型遭遇预埋错误（如“UDP校验绑定HMAC安全”）时：

仅25.9%直接采纳
55.9%触发内部知识编造流程（例如：虚构“RFC5.2要求校验位包含密钥”）

2、反思（Reflection）沦为自我说服工具

自我说服：生成假设性主张(“或许校验确保HMAC完整”)
知识造假：追加虚构依据(“参见RFCXX.Y条款”)；
元认知漂移：token/claim双级别置信度不降反升。

正向干预实验：解析长链推理的“病变”现象

为了检验上游推理的变化如何影响下游，北京邮电大学的研究团队设计了一个正向干预实验，可以拆解为以下三步：

1.精准定位：在1015条长链样本中标记首个错误知识节点（如虚构的协议条款）。

2.三阶段干预：

错误发生前（Edit1）：在首个错误节点前注入修正知识；
错误发生时（Edit2）：直接替换错误节点；
错误发生后（Edit3）：在错误下游插入修正。

3.六维评估指标：

是否接受修正？
推理链是否发生改变？
最终答案是否随之改变？
推理链与答案是否保持一致？
修正在整个链条中的传播程度如何？
残留幻觉的比率有多少？

长链幻觉检测结果：现有方法难以应对

评测7大主流检测方法，最优者耗时2小时/样本，准确率仍不足79%。
在1500+tokens的长思维链样本上验证，结果显示当前检测方法在元认知级幻觉面前效果堪忧。

通过正向干预实验对长链幻觉进行检测，结果显示：

Edit1对下游推理的影响显著大于Edit2和Edit3，表明干预效果会沿推理链递减。

Edit2编辑案例比Edit1表现出更高的接受度和更低的幻觉率，这意味着模型对Edit2的置信度较低，更容易受到干预影响。

使用7种主流的检测方法对幻觉进行检测，得到以下结果：

速度与精度互斥：分钟级方法准确率≤61.6%，78.9%高精度需较高算力；
细粒度检测无解：现有技术无法识别元认知漂移（如反思中错误强化）。

也就是说，现有干预措施无法从根本上消除幻觉现象，当前模型也缺乏足够的应对能力。

论文原文：https://arxiv.org/abs/2505.13143
代码仓库：https://github.com/Winnie-Lian/AHa_Meta_Cognitive

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

北邮网安团队 投稿量子位 | 公众号 QbitAI

风险缺口：长链CoT放大“误差滚雪球”

反思越深错误越真：长链推理的自我说服

正向干预实验：解析长链推理的“病变”现象

长链幻觉检测结果：现有方法难以应对

发表评论 取消回复

北邮网安团队投稿
量子位 | 公众号 QbitAI

发表评论取消回复