推测性思维链SCoT：小模型“模仿”大模型，最高提速2.9倍，准确率几乎不降

现在的大模型（比如论文提到的 Deepseek-R1）虽然能解决复杂数学题，但有两个致命缺点：

这就导致用大模型做题成本高、速度慢，用户体验像“等蜗牛爬完马拉松”。

论文标题：

Efficient Reasoning for LLMs through Speculative Chain-of-Thought

论文链接：

https://arxiv.org/pdf/2504.19095

代码链接：

https://github.com/Jikai0Wang/Speculative_CoT

传统解决方案的局限性

过去科学家尝试两种方法提速：

这两种方法像是“要么砍性能，要么赌运气”，都不是最优解。

SCoT 的创新思路：大小模型“打配合”

这篇论文提出的 SCoT（推测性思维链），核心思想像职场中的“高效团队”：

这样一来，简单题靠小模型速战速决，难题靠大模型兜底，既省时间又保质量。

▲ 小模型批量生成草稿，大模型快速选择或纠错

技术细节：如何让小模型“模仿”大模型？

要让小模型写出和大模型风格一致的“草稿”，论文做了两件事：

这里用到一个关键公式（原文公式 2），训练小模型时让它最大化匹配大模型的输出概率：

简单说，就是让小模型写的每一步草稿，都尽量接近大模型的习惯。

结果：推理速度翻倍，准确率几乎不降

论文在5个数学数据集上测试 SCoT，结果惊艳：

▲ 不同数据集上的速度对比

▲ SCoT与纯大模型的准确率接近

更厉害的是，SCoT 甚至让最终答案更简洁（草稿质量高，大模型不用再啰嗦）！

意义：LLM 推理的“性价比革命”

SCoT 的价值不仅是技术突破，更打开了新思路：

未来，这种“协作式推理”可能会成为 AI 产品的标配，让 ChatGPT 们既快又聪明！

（文：PaperWeekly）