字节ReTool：用于大模型中战略性工具使用的强化学习

通过强化学习（RL）训练的推理模型（例如DeepSeek R1）在文本推理方面表现出色，但在需要结构化问题解决能力的场景中，例如几何推理、简洁计算或复杂方程求解，它们却表现不佳——而这些正是像代码解释器（CI）这样的计算工具具有明显优势的领域。

为此，字节提出了ReTool，通过工具集成学习增强了长形式推理：（1）在自然语言推理过程中动态插入实时代码执行；（2）一种自动化的RL范式，允许进行多轮实时代码执行的策略展开，并基于结果反馈教授模型何时以及如何调用工具。

相关的算法，权重、数据、code都将开源。

ReTool采用了一个系统的训练框架，从合成冷启动数据生成开始，生成用于微调基础模型的代码增强型长形式推理轨迹。随后的RL训练利用任务结果作为奖励，迭代优化模型的工具使用策略，使其能够在没有人类先验知识的情况下自主发现最优的工具调用模式。

冷启动监督微调

强化学习

训练算法：基于PPO（Proximal Policy Optimization）算法进行训练，修改PPO以适应工具集成推理。在训练过程中，策略LLM与代码沙箱协作，生成包含多轮实时代码执行的rollout，用于解决给定问题。

奖励设计：采用基于规则的准确性奖励，通过比较模型输出的最终答案与真实答案来优化模型。要求模型以特定格式（如\boxed{}）呈现最终答案，以便进行可靠的基于规则的验证。

动态代码执行：提出一种支持推理和可执行代码动态集成的rollout方法。策略模型在生成文本推理的同时，可以动态地执行代码片段，并根据代码解释器的反馈调整后续推理过程。这种方法使模型能够在推理过程中迭代探索、优化和调整其策略。

ReTool在AIME2024上达到了67.0%的准确率，仅用了400个训练步骤，显著优于基于文本的RL基线（40.0%准确率，1080个训练步骤）。
在AIME2025上，ReTool达到了49.3%的准确率。
此外，ReTool在与更先进的模型（如DeepSeek-R1-Distill-Qwen-32B）结合时，性能进一步提升，分别达到了72.5%和54.3%的准确率，比OpenAI的o1-preview高出27.9%

通过分析模型在RL训练过程中的行为，发现以下关键点：

代码自我修正的“顿悟时刻”案例

https://arxiv.org/pdf/2504.11536ReTool: Reinforcement Learning for Strategic Tool Use in LLMshttps://retool-rl.github.io/

（文：PaperAgent）