打破“思考陷阱”:DuP-PO算法让AI推理更高效


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

论文标题:

Do Thinking Tokens Helpor Trap? Towards More Efficient Large Reasoning Model

论文链接:

https://arxiv.org/pdf/2506.23840

一句话理解:

本文探讨了大型推理模型(LRMs)在处理简单任务时过度思考的问题,并提出了一种名为“DualPolicyPreferenceOptimization”(DuP-PO)的新型算法,旨在提高模型的推理效率。以下是文章的主要内容概述:

研究背景与动机

LRMs的优势与局限性:大型推理模型(LRMs)在解决复杂问题时表现出色,但它们在处理简单任务时往往会生成冗长的响应,充斥着诸如“wait”、“hmm”等思考标记(thinkingtokens)。这些标记会触发不必要的高级推理行为,如反思和回溯,从而降低效率。

过度思考的问题:这种过度思考现象被称为“thinkingtrap”,即无意义的推理循环,浪费计算资源而不提高任务性能。文章通过实验发现,错误的响应中包含的思考标记是正确响应的两倍,这表明思考标记的密度与推理失败的相关性更强。

研究方法

DuP-PO算法:文章提出了DuP-PO算法,该算法通过以下三个关键创新来解决过度思考问题:

1.双策略采样(Dual-PolicySampling):在训练过程中,DuP-PO同时从正常策略(πn)和修正策略(πr)中采样响应。修正策略通过将思考标记的logit值设置为-∞,从而系统地消除思考标记,确保模型观察到思考标记多和少的两种响应类型。

2.标记级优势控制(Token-LevelAdvantageScaling):DuP-PO通过为不同轨迹中的特定标记应用不同的优势缩放因子,打破GRPO在轨迹内所有标记分配相同优势的限制。这使得模型能够选择性地鼓励简洁推理,同时抑制导致过度思考的触发因素(如思考标记)。

3.策略塑形(PolicyShaping):通过调整旧策略的概率,确保思考标记的梯度贡献不会被剪切,从而保证在训练过程中对思考标记的持续抑制。

实验

数据集与模型:实验使用了DeepSeek-R1-Distill-Qwen-1.5B模型,并从DAPO-MATH-17K数据集中筛选出1000个中等难度的问题作为训练数据。验证数据集使用AIME24。

基准测试:在六个流行的数学推理基准测试(AIME2024、AIME2025、AMC、Minerva、OlympiadBench和MATH500)上评估DuP-PO的性能。

基线比较:与无思考标记的NoThink方法和思考标记惩罚的ThinkTokenPenalty方法进行比较。

实验结果

性能提升与效率改进:DuP-PO在多个基准测试中显著提高了性能,同时减少了响应长度。例如,在MATH500基准测试中,DuP-PO的准确率提高了3.5%,响应长度减少了24.7%。

与GRPO的比较:DuP-PO在性能、推理效率和训练速度方面均优于GRPO。DuP-PO在80个训练步骤中实现了比GRPO更高的准确率和更少的推理标记。

关键结论

思考标记的必要性:文章通过实验表明,思考标记并非推理所必需,其缺失往往能提高推理效率。

DuP-PO的有效性:DuP-PO通过精确控制思考标记的使用,实现了性能提升和推理效率的平衡,且训练成本低。

未来工作:作者计划将DuP-PO扩展到更大的模型架构和更多样化的领域基准测试中,以验证其可靠性和鲁棒性。


(文:机器学习算法与自然语言处理)

发表评论