推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:


  • 体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;

  • 思考过程长:解一道题要生成几千甚至上万字的思维链(Chain-of-Thought, CoT),相当于“把草稿纸写满才交卷”。

这就导致用大模型做题成本高、速度慢,用户体验像“等蜗牛爬完马拉松”。

论文标题:

Efficient Reasoning for LLMs through Speculative Chain-of-Thought

论文链接:

https://arxiv.org/pdf/2504.19095

代码链接:

https://github.com/Jikai0Wang/Speculative_CoT



传统解决方案的局限性

过去科学家尝试两种方法提速:


  • 减肥法:把大模型压缩成小模型(比如从 300 亿参数压到 15 亿),但小模型解题能力直线下降;

  • 缩写法:让模型少写点“草稿”,直接给答案。但遇到难题时,草稿太短反而容易出错。

这两种方法像是“要么砍性能,要么赌运气”,都不是最优解。



SCoT 的创新思路:大小模型“打配合”

这篇论文提出的 SCoT(推测性思维链),核心思想像职场中的“高效团队”:


  • 小模型当实习生:快速生成多个解题草稿(比如同时写 5 种解法);

  • 大模型当老板:一键审核草稿,选中最好的直接交卷,发现全错就自己重写。

这样一来,简单题靠小模型速战速决,难题靠大模型兜底,既省时间又保质量。

▲ 小模型批量生成草稿,大模型快速选择或纠错



技术细节:如何让小模型“模仿”大模型?

要让小模型写出和大模型风格一致的“草稿”,论文做了两件事:


  • 对齐思考行为:用大模型的解题过程当参考答案,训练小模型“抄作业”;

  • 动态纠错机制:大模型审核时,如果所有草稿都错,就启动“老板亲自上阵”模式。

这里用到一个关键公式(原文公式 2),训练小模型时让它最大化匹配大模型的输出概率

简单说,就是让小模型写的每一步草稿,都尽量接近大模型的习惯。



结果:推理速度翻倍,准确率几乎不降

论文在5个数学数据集上测试 SCoT,结果惊艳:


  • 速度提升:最高提速 2.9 倍(比如原来需要 225 秒的题,现在 77 秒搞定);

  • 准确率无损:复杂题(如奥赛级题目)的准确率只比大模型单独解题低 1%~2%。

▲ 不同数据集上的速度对比

▲ SCoT与纯大模型的准确率接近


更厉害的是,SCoT 甚至让最终答案更简洁(草稿质量高,大模型不用再啰嗦)!



意义:LLM 推理的“性价比革命”

SCoT 的价值不仅是技术突破,更打开了新思路:


  • 成本降低:小模型承担大部分工作,减少大模型调用次数;

  • 灵活适配:根据题目难度动态分配资源,像“智能档位切换”;

  • 开源代码:作者公开了代码,大家可以快速落地应用。

未来,这种“协作式推理”可能会成为 AI 产品的标配,让 ChatGPT 们既快又聪明!



(文:PaperWeekly)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往