无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学（深圳）计算机科学博士生，本文在上海交通大学赵磊老师、香港中文大学（深圳）李肖老师的指导下完成。

长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加，训练所需储存的激活值快速增加，占据训练的大部分内存。即便使用梯度检查点（gradient checkpointing）方法，激活值依然占据大量内存，限制训练所能使用的序列长度。

来自港中文（深圳）和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算，StreamBP 将大语言模型训练所需的激活值内存（logits 和 layer activation）降低至梯度检查点（gradient checkpointing）的 20% 左右。

论文标题：StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
论文：https://arxiv.org/abs/2506.03077
代码：https://github.com/Ledzy/StreamBP

在相同内存限制下，StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下，StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源，可集成至现有训练代码。

激活值内存和梯度检查点

在反向传播（Backpropagation, BP）的过程中，计算模型梯度需要用到模型的中间输出（激活值）。举例来说，对于模型中的线性变换的梯度为，因而计算的梯度时需要储存相应的激活值。

对于模型中的任意函数变换的梯度由以下链式法则计算：

其中为目标函数，

为了减少激活值的内存消耗，梯度检查点（gradient checkpointing）方法在 forward 时只储存每一层网络的输入，而不储存该层的中间值。在 backward 至该层时，将重新 forward 此层输入来计算得到该层激活值。使用梯度检查点时储存的激活值包括：

所有层的输入，一般为激活值内存的 5%-15%。
单层的完整激活值，占据超过 85% 的激活值内存。

StreamBP 的核心思想

不同于梯度检查点，StreamBP 避免储存单层的完整激活值，而将单层的 BP 过程进行线性分解，序列化计算并累加。注意到对于函数变换，链式法则存在以下线性分解：

StreamBP 基于以下观察：对于 LLM 中的大部分函数变换，如 Transformer 层、lmhead 层，可通过策略性地将输出分块，使得计算块 Jacobian-vector product 所需的激活值远小于计算完整的 Jacobian-vector product。基于该观察，StreamBP 依次计算上式中 D 个块的 Jacobian-vector product 并累加，得到准确的梯度。

为了计算块 Jacobian-vector product，需要分析输入和输出的相关性，每次 forward 块输入得到块输出，建立对应子计算图。以简单的线性变换为例，输出和输入在行维度上一一对应。StreamBP 按行分块，每次计算单行的 Jacobian-vector product 并累加。下图对比了标准 BP 和 StreamBP 在上述线性变换下的实现：