MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

论文标题：

Do Thinking Tokens Helpor Trap? Towards More Efficient Large Reasoning Model

论文链接：

https://arxiv.org/pdf/2506.23840

一句话理解：

本文探讨了大型推理模型（LRMs）在处理简单任务时过度思考的问题，并提出了一种名为“DualPolicyPreferenceOptimization”（DuP-PO）的新型算法，旨在提高模型的推理效率。以下是文章的主要内容概述：

研究背景与动机

LRMs的优势与局限性：大型推理模型（LRMs）在解决复杂问题时表现出色，但它们在处理简单任务时往往会生成冗长的响应，充斥着诸如“wait”、“hmm”等思考标记（thinkingtokens）。这些标记会触发不必要的高级推理行为，如反思和回溯，从而降低效率。

过度思考的问题：这种过度思考现象被称为“thinkingtrap”，即无意义的推理循环，浪费计算资源而不提高任务性能。文章通过实验发现，错误的响应中包含的思考标记是正确响应的两倍，这表明思考标记的密度与推理失败的相关性更强。

研究方法

DuP-PO算法：文章提出了DuP-PO算法，该算法通过以下三个关键创新来解决过度思考问题：

1.双策略采样（Dual-PolicySampling）：在训练过程中，DuP-PO同时从正常策略（πn）和修正策略（πr）中采样响应。修正策略通过将思考标记的logit值设置为-∞，从而系统地消除思考标记，确保模型观察到思考标记多和少的两种响应类型。

2.标记级优势控制（Token-LevelAdvantageScaling）：DuP-PO通过为不同轨迹中的特定标记应用不同的优势缩放因子，打破GRPO在轨迹内所有标记分配相同优势的限制。这使得模型能够选择性地鼓励简洁推理，同时抑制导致过度思考的触发因素（如思考标记）。

3.策略塑形（PolicyShaping）：通过调整旧策略的概率，确保思考标记的梯度贡献不会被剪切，从而保证在训练过程中对思考标记的持续抑制。

实验

数据集与模型：实验使用了DeepSeek-R1-Distill-Qwen-1.5B模型，并从DAPO-MATH-17K数据集中筛选出1000个中等难度的问题作为训练数据。验证数据集使用AIME24。

基准测试：在六个流行的数学推理基准测试（AIME2024、AIME2025、AMC、Minerva、OlympiadBench和MATH500）上评估DuP-PO的性能。

基线比较：与无思考标记的NoThink方法和思考标记惩罚的ThinkTokenPenalty方法进行比较。

实验结果

性能提升与效率改进：DuP-PO在多个基准测试中显著提高了性能，同时减少了响应长度。例如，在MATH500基准测试中，DuP-PO的准确率提高了3.5%，响应长度减少了24.7%。

与GRPO的比较：DuP-PO在性能、推理效率和训练速度方面均优于GRPO。DuP-PO在80个训练步骤中实现了比GRPO更高的准确率和更少的推理标记。

关键结论

思考标记的必要性：文章通过实验表明，思考标记并非推理所必需，其缺失往往能提高推理效率。

DuP-PO的有效性：DuP-PO通过精确控制思考标记的使用，实现了性能提升和推理效率的平衡，且训练成本低。

未来工作：作者计划将DuP-PO扩展到更大的模型架构和更多样化的领域基准测试中，以验证其可靠性和鲁棒性。

（文：机器学习算法与自然语言处理）

打破“思考陷阱”：DuP-PO算法让AI推理更高效