无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

香港中文大学(深圳)和上海交通大学团队提出StreamBP算法,通过线性分解和分步计算降低大语言模型训练所需的激活值内存消耗。相比梯度检查点方法,StreamBP将内存消耗降低至20%左右,并在相同内存限制下实现更大序列长度的训练。