超长推理还能节省计算!Salesforce开源神器两连发:教大模型边想边省,显著提升数学编程准确率

Salesforce团队 投稿
量子位 | 公众号 QbitAI

推理大模型如何提升效率?Salesforce AI Research开源神器两连发——

Elastic ReasoningFractured Sampling

Elastic Reasoning用“想多少、答多少”替代了“想到哪算哪”,让模型在预算范围内思考更合理,输出缩短30%,同时保持(甚至提高)了准确性。

Fractured Sampling让模型“少想早答”,重新定义了思维链推理的成本-性能前沿,使LLM能够在更低的计算开销下实现强大的推理。

这两种方案显著提高了数学和编程任务的准确率,在推理预算紧张时依然表现出色。

Elastic Reasoning:首次实现“思考-解题”分开管预算

当前的推理大模型在处理任务时往往需要生成长的Chain-of-Thought(CoT)推理链,效果虽好,但开销很大。

在预算有限的情况下,Elastic Reasoning提出了一种新的“思考分段法”:把推理流程显式划分为思考部分解题部分,为它们分别分配token预算。

通俗地讲,让大模型每次生成时,不再一股脑“想到哪说到哪”,而是在限定的“思考预算”用完后,强制结束思考,用剩下的预算生成解答。

这种“精打细算”的策略使得最终答案不会因为思考未完就被截断,保证了结果完整性和可靠性。

为了让模型学会在“思考被截断”时也能答对题,Salesforce团队设计了成本可控强化学习采样(Budget-constrained rollout)的方法,训练后的模型能够很快学会如何利用不完整的思考进行作答。

用该方法训练出的模型E1-Math-1.5B在训练步数下的验证准确率和奖励曲线如图,训练数据集可见文末。

模型效果也非常亮眼:

E1-Math-1.5B在Math数据集上能控制预算作答,同时相比于L1使用更少的训练资源,保留更多的模型性能(35.0%正确率,大幅领先L1 27.1%)

在Codeforces竞赛中,E1-Code-14B达到了1987rating(96.0%分位),媲美O1模型。

在不设预算时,由于训练后模型thinking质量提高:平均token使用大幅减少,推理更高效:AIME上减少32.1%,LiveCodeBench上减少37.4%

Fractured Chain-of-Thought:三维碎片化采样,推理效率拉满

和Elastic Reasoning基于相同的只用部分推理链就能得出正确答案,没必要等到完整的CoT生成完再做判断的观察。

Fractured Sampling则从推理的采样策略下手——将完整的推理链条在时间维度上打碎,探索“提前终止思考也能答对”的可能性。

该方法沿三条维度进行采样控制:

  • 推理路径数 n样n条不同的思考
  • 每条路径的解答数 m:每条思考生成m个最终答案
  • 思考深度 H:每条推理链在多个阶段“提前停想”生成H个不同答案。

尤其是新提出的思考深度H,在不同的“思考深度”上采样,形成多组“碎片化思考+答案”,再综合判断哪个最靠谱。

在DeepSeek-R1系列模型上对Fractured Sampling进行实验,结果如下:

Pass@K表示在生成样本集中存在的正确预测比例。

单独分析n,m,H的test time scaling,结果显示,在多个推理数据集上,最“物超所值”的是增加H(思考深度的采样)以更少的tokens换来更高的准确率

意味着H维度相比于n和m能更高效得达到比较好的性能。

在实际场景中还能将n、m、H联合进行采样,通过动态分配采样的维度,从而极大提升模型的准确率。

除了提升Pass@K,Salesforce团队还进一步测试了Best-of-N和利用该采样策略进行早停的应用潜力,都呈现出不错的效果。

与标准采样设置H=1,m=1相比,H=1,m=4的采样平均准确率略有提升(61.6%vs.60.4%)。

有趣的是,仅将H维度增加到H=16,m=1也带来了轻微的提升(61.4%vs.60.4%),说明改变H通常比改变m在提高准确率方面更有效。

实验证明,用该采样策略进行早停能够保持模型精度,在某些情况下还能提高精度——DeepScaleR-1.5B-Preview实现了2.9%的提升。

在计算效率方面,相比标准生成,早停能将生成的token数量减少约20%。

以上工作均已开源。

Elastic Reasoning:https://github.com/SalesforceAIResearch/Elastic-Reasoning
E1 models :https://huggingface.co/collections/Salesforce/elastic-reasoning-682b4bba108d6ea0a8bab275
Fractured Chain-of-Thought:https://github.com/BaohaoLiao/frac-cot
论文链接1:https://arxiv.org/pdf/2505.05315
论文链接2:https://arxiv.org/pdf/2505.12992

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🌟 点亮星标 🌟

科技前沿进展每日见

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往