清华提出ConCISE:简单有效,Reasoning过程砍掉一半,准确率不降!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

如今的大模型(如DeepSeek-R1)在解数学题或逻辑推理时,明明答案对了,还要反复推演十几步,生成超长的思考链。这不仅浪费算力,用户看着也头疼。

论文:ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
链接:https://arxiv.org/pdf/2505.04881

原始冗长推理链 vs ConCISE简洁版

现有方法要么“事后修剪”(可能破坏逻辑连贯性),要么靠随机采样选最短答案(效果不稳定),始终治标不治本。

两大元凶:信心不足与拖延症

论文发现,模型“啰嗦”背后有两大心理问题:

  • 信心不足(Confidence Deficit)
    模型像“纠结症患者”,明明算对了,却因自我怀疑重新检查。比如解方程时,明明已得出x=3,还要反复验证:“等等,我是不是哪里漏了?”
  • 拖延停不下来(Termination Delay)
    模型像“强迫症患者”,答案正确后还硬要加戏。比如已经写出最终答案:5,又补充:“或者换种方法再算一遍……”
案例:解方程3x-2=7的原始8步 vs ConCISE优化后的5步

ConCISE:两招终结冗余推理

清华团队提出的ConCISE框架,用两招根治上述问题:

第一招:信心注入(Confidence Injection)

在模型犹豫时,插入信心提示语,比如:“之前的步骤没问题,继续!”相当于给AI“打鸡血”,阻止它无意义纠结。

20条信心提示语示例,如“逻辑成立,继续推进”

第二招:早停机制(Early Stopping)

当模型生成答案后,用轻量级信心检测器实时监控:

  • 若置信度超过阈值(如50%),立刻停止生成。
  • 公式:如果检测置信度 ĉ_i > 0.5,停止!
早停阈值选择的实验效果对比

效果:砍掉一半步骤,准确率不降!

在GSM8K、数学竞赛题等四大基准测试中,ConCISE表现惊艳:

  • 压缩率高达50% :推理链长度直接砍半
  • 准确率基本不变:数学题正确率维持90%+
DeepSeek-7B模型在GSM8K上的表现:Token数从1441降至831

更厉害的是,ConCISE优化后的模型通用性极强,不仅能解数学题,连知识问答(GPQA)等陌生任务也表现稳定,彻底告别“过度思考”。

不同任务下的步骤数与准确率对比

当然,研究还有改进空间,比如未压缩单一步骤内的冗余内容,但这一步已让模型推理效率迈入新阶段。


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往