超长推理还能节省计算！Salesforce开源神器两连发：教大模型边想边省，显著提升数学编程准确率

Salesforce团队投稿
量子位 | 公众号 QbitAI

推理大模型如何提升效率？Salesforce AI Research开源神器两连发——

Elastic Reasoning和Fractured Sampling。

Elastic Reasoning用“想多少、答多少”替代了“想到哪算哪”，让模型在预算范围内思考更合理，输出缩短30%，同时保持（甚至提高）了准确性。

Fractured Sampling让模型“少想早答”，重新定义了思维链推理的成本-性能前沿，使LLM能够在更低的计算开销下实现强大的推理。

这两种方案显著提高了数学和编程任务的准确率，在推理预算紧张时依然表现出色。

Elastic Reasoning：首次实现“思考-解题”分开管预算

当前的推理大模型在处理任务时往往需要生成长的Chain-of-Thought（CoT）推理链，效果虽好，但开销很大。

在预算有限的情况下，Elastic Reasoning提出了一种新的“思考分段法”：把推理流程显式划分为思考部分和解题部分，为它们分别分配token预算。

通俗地讲，让大模型每次生成时，不再一股脑“想到哪说到哪”，而是在限定的“思考预算”用完后，强制结束思考，用剩下的预算生成解答。

这种“精打细算”的策略使得最终答案不会因为思考未完就被截断，保证了结果完整性和可靠性。

为了让模型学会在“思考被截断”时也能答对题，Salesforce团队设计了成本可控强化学习采样（Budget-constrained rollout）的方法，训练后的模型能够很快学会如何利用不完整的思考进行作答。

用该方法训练出的模型E1-Math-1.5B在训练步数下的验证准确率和奖励曲线如图，训练数据集可见文末。

模型效果也非常亮眼：

E1-Math-1.5B在Math数据集上能控制预算作答，同时相比于L1使用更少的训练资源，保留更多的模型性能（35.0%正确率，大幅领先L1 27.1%）

在Codeforces竞赛中，E1-Code-14B达到了1987rating（96.0%分位），媲美O1模型。

在不设预算时，由于训练后模型thinking质量提高：平均token使用大幅减少，推理更高效：AIME上减少32.1%，LiveCodeBench上减少37.4%。

Fractured Chain-of-Thought：三维碎片化采样，推理效率拉满

和Elastic Reasoning基于相同的只用部分推理链就能得出正确答案，没必要等到完整的CoT生成完再做判断的观察。

Fractured Sampling则从推理的采样策略下手——将完整的推理链条在时间维度上打碎，探索“提前终止思考也能答对”的可能性。

该方法沿三条维度进行采样控制：

推理路径数 n：采样n条不同的思考
每条路径的解答数 m：每条思考生成m个最终答案
思考深度 H：每条推理链在多个阶段“提前停想”生成H个不同答案。

尤其是新提出的思考深度H，在不同的“思考深度”上采样，形成多组“碎片化思考+答案”，再综合判断哪个最靠谱。

在DeepSeek-R1系列模型上对Fractured Sampling进行实验，结果如下：

Pass@K表示在生成样本集中存在的正确预测比例。

单独分析n，m,H的test time scaling，结果显示，在多个推理数据集上，最“物超所值”的是增加H（思考深度的采样）以更少的tokens换来更高的准确率。

意味着H维度相比于n和m能更高效得达到比较好的性能。

在实际场景中还能将n、m、H联合进行采样，通过动态分配采样的维度，从而极大提升模型的准确率。

除了提升Pass@K，Salesforce团队还进一步测试了Best-of-N和利用该采样策略进行早停的应用潜力，都呈现出不错的效果。

与标准采样设置H=1,m=1相比，H=1,m=4的采样平均准确率略有提升（61.6%vs.60.4%）。

有趣的是，仅将H维度增加到H=16,m=1也带来了轻微的提升（61.4%vs.60.4%），说明改变H通常比改变m在提高准确率方面更有效。

实验证明，用该采样策略进行早停能够保持模型精度，在某些情况下还能提高精度——DeepScaleR-1.5B-Preview实现了2.9%的提升。

在计算效率方面，相比标准生成，早停能将生成的token数量减少约20%。

以上工作均已开源。

Elastic Reasoning：https://github.com/SalesforceAIResearch/Elastic-Reasoning
E1 models ：https://huggingface.co/collections/Salesforce/elastic-reasoning-682b4bba108d6ea0a8bab275
Fractured Chain-of-Thought：https://github.com/BaohaoLiao/frac-cot
论文链接1：https://arxiv.org/pdf/2505.05315
论文链接2：https://arxiv.org/pdf/2505.12992

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

2025 年 8 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Salesforce团队 投稿量子位 | 公众号 QbitAI

Elastic Reasoning：首次实现“思考-解题”分开管预算

Fractured Chain-of-Thought：三维碎片化采样，推理效率拉满

发表评论 取消回复

Salesforce团队投稿
量子位 | 公众号 QbitAI

发表评论取消回复