万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

新智元报道

编辑：KingHZ

【新智元导读】华人学者参与的一项研究，重新确立了强化学习在LLM微调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

最近，英伟达的高级研究科学家、牛津大学博士yobibyte，推荐了今年3月份公布的arXiv预印本论文。

来自卡内基梅隆大学和康奈尔大学等机构的研究者，在论文中解释了初看违反直觉的现象：从根本原理上看，微调基础模型为什么要采用两阶段训练流程，才能达到最强的结果？

具体而言，当前主流的两阶段方法需要训练奖励模型（reward model，RM）为下游强化学习（reinforcement learning，RL）提供在线反馈；而不是直接通过离线最大似然估计，对策略参数进行优化。

从信息论角度看，奖励模型的间接处理必然导致信息损失，而在线策略采样（on-policy sampling）并没有创造新信息。

论文链接：https://arxiv.org/abs/2503.01067

为解释这一矛盾，研究人员通过理论与实证的双重视角，系统检验了关于RL在FT中价值的若干假说。

在所有研究人员考察的假说中，最具解释力的发现是：当任务存在「生成-验证」差距（generation-verification gap）时，在线微调表现更好，是因为结合了以下两个因素：

1. 验证器更易学习：从偏好数据中学习相对简单的RM（验证器）更为容易

2. 策略空间过滤：下游RL过程，可以把搜索空间限制在对验证器来说最优的策略（即生成器）上

正是这种机制带来了在线微调的优越性能。

图1：在线微调优越性能的解释

LLM微调：强化学习重要吗？

在学术界、工业界和开源社区的对比研究中，有一种反复出现的现象：相对复杂的双阶段在线微调方法，普遍优于更简单、纯离线的方案。

更广义地说，交互式监督微调（supervised fine-tuning，SFT），也已经被证明优于传统的「next-token prediction」训练方式。

值得注意的是，当前最先进的复杂推理模型（如OpenAI的o1和DeepSeek的r1）依然采用在线强化学习训练，而非离线最大似然估计。

这些现象引出了一个根本性问题——

如果只是想最大化似然函数，那么采用双阶段、交互式的微调流程到底有什么价值？

后训练的理论难题

之所以难以对此给出令人满意的回答，部分原因在于，传统强化学习的在线训练理论，难以直接迁移至基础模型的后训练场景。

一些反直觉的发现似乎暗示：当前主流的交互式训练范式，可能只是条「镀金」而非「真金」的技术路径。

对此，研究者从理论和实证两个角度深入分析了强化学习在微调（FT）中的价值，主要聚焦于偏好微调（preference fine-tuning）。

同时也指出类似的分析可以应用于监督微调（SFT）和基于验证器的强化学习场景。

他们的主要贡献包括以下三点：

1. 等价性证明

在理想化假设下，在线和离线的PFT技术应当能产生质量相当的策略。

2. 反对先前假设的证据

特别地，他们提出证据反对多种已有的解释。

3. 备择假设的证据

他们提出并验证了一个新的假设，用于解释存在「生成-验证」差距的问题中，强化学习的作用。

两阶段交互式微调的价值假设：两阶段交互式微调将待探索的策略空间，缩减至仅适用于相对简单的验证器最优策略集合。

用统计学习的术语来说，这个假设意味着，强化学习在微调中的真正价值在于：它是目前已知的最方便的「适当学习」（proper learning）方法。

相比之下，离线方法属于「不当学习」（improper learning）。

在检验的所有假设中，反对这一假设的证据最少。

接下来，我们将一睹在线与离线偏好微调（PFT）之间的一系列等价定理，并进一步探讨，如何将这些理论等价性与现实中在线/离线性能差距的问题统一起来。

统一角度下的RL微调

这部分将从似然函数的角度，统一不同的偏好微调方法。

统一的奖励模型

下文用Π表示策略集合，用R表示奖励模型集合，其中每个奖励模型r∈R都是从完整轨迹集合映射到实数的函数

在实际应用中，通常策略模型和奖励模型使用相同的网络架构，并且往往从相同的初始权重（checkpoint）和数据集出发进行训练。

这种对整个轨迹进行评估、依赖完整上下文的奖励模型被称为「全局奖励模型」（global reward models），即非马尔可夫型奖励模型。

但策略与奖励模型的联系不止于共享模型架构。

更进一步地，当奖励模型的形式为：策略对每一个token的对数概率之和时，二者之间存在更精确的「结构同构」关系。

形式化地，「局部奖励模型」（local reward models）定义为：

即，每个局部奖励模型都是某个策略π生成的轨迹上所有token的对数概率之和。

由此可得：

这类奖励模型和策略集合之间存在一一对应关系。

统一的微调目标函数

从整体上来看，可以将各种微调任务（例如监督微调SFT、偏好微调PFT）统一地表述为以下形式的策略优化问题：

这个目标函数包含两个部分：第一项是正向KL散度，第二项目是反向KL散度。

为简化表述，暂时设β=1，并将第二项的KL正则项替换为熵正则项（即与「均匀策略」的KL散度）：

其中，𝓗(π)表示策略π的（因果）熵，其定义为：

也就是说，熵越大，策略越「分散」或「探索性强」，这在优化中起到与KL正则类似的作用。

无论是在线还是离线的偏好微调方法（PFT），都可以看作是在优化这个统一的目标函数，只不过使用的手段和路径截然不同。

统一目标函数的普适性

值得注意的是，这个目标函数并不局限于偏好微调；

同样也适用于：监督微调（SFT）；使用二分类标签（0/1）训练出的奖励模型所驱动的强化学习（RL with reward models）。

也就是说，这是一个广义的、适用于多种微调方式的统一框架。

极大似然=最小化正向KL散度

最大似然估计（maximum likelihood estimation，MLE）等价于最小化从经验数据分布到模型分布的正向KL散度（Forward KL）。

在偏好建模中，这一点同样成立。

以经典的Bradley-Terry模型为例，偏好概率可以表示为：

其中「≻」表示「更偏好」（preferred to），σ是sigmoid函数。

换句话说，每一个全局奖励模型对应一个Bradley-Terry概率模型。

接下来的目标是在训练数据上，最大化这种概率模型的似然函数，来找到最优的奖励模型。

可以看到，拟合全局奖励模型，实际上就是在解决标准的逻辑回归/分类问题。

类似地，如果使用的是局部奖励模型r^π（也就是由策略π生成的对数概率之和），那么也可以通过最大似然估计（MLE）来拟合这个策略。

方法是将r^π表示为对数概率的和，代入Bradley-Terry模型中：

在不考虑参考策略π_ref的前提下，像直接偏好优化（Direct Preference Optimization，DPO）这样的离线偏好微调（offline PFT）方法的本质：

局部奖励模型，是在轨迹级别上进行的分类问题。

换句话说，DPO的核心就是：让策略学会判别「好」轨迹与「差」轨迹，学习目标与逻辑回归极其类似。

最大熵=软强化学习

给定一个全局奖励模型r，我们通常希望计算其对应的软最优策略（soft-optimal policy）

也就是说，大家希望找到一个策略，在期望奖励最大化的同时，同时保持一定的熵（探索性）。

如果在所有马尔可夫策略上对上式求得闭式解，那么最终得到的策略，其在给定提示词s_0下生成轨迹的分布为：

其中Z(r,s_0)是归一化常数，确保所有概率之和为1。

请注意，如果两个轨迹ξ1,ξ2具有相同的起始提示词s_0，则它们之间的偏好概率可以写成：

换句话说，BT模型中的偏好概率，其实可以看作是软最优策略下轨迹概率的对数差的sigmoid函数。

一个重要但不太为人所知的观点是：

求解上述软强化学习问题，其实等价于将Pr⋆进行反向KL投影（Reverse KL Projection）到策略诱导的轨迹分布空间中。

在线与离线策略微调（PFT）均可视为对公式（3）的求解。

离线方法直接在策略类Π上，通过前向KL散度将偏好数据集D投影到策略空间。

而在线方法则首先在奖励模型类R下将D进行投影，再通过策略优化映射至策略空间。

图2：在线与离线策略微调（PFT）均可视为对公式（3）的求解。

同构类别之间的等价性

前面的讨论引出了一个问题：如果最终还是回到策略空间（policy space），那么引入奖励模型（reward model）绕一步远路到底有什么意义？

下面将证明，在某些假设条件下，这么做其实只是在用一种更曲折的方式实现似然最大化。

现在给出第一个等价性结论。

在没有参考策略（reference policy）的情况下，在线和离线的偏好微调（PFT，Preference Fine-Tuning）会得到相同的解，如果满足一些额外的特定假设。

换一种更传统的说法，这意味着最大似然估计对重参数（reparameterization）是「不变」的。

在假设函数可以被实现的前提下，还可以在引入参考策略的情况下证明一个类似的结果：

综上所述，前述结果表明：在特定假设条件下，所有路径最终都归结为似然函数。

也就是说，相较于离线极大似然估计，投入计算资源进行策略采样（on-policy sampling）并不能带来显著优势。

为了更深入地理解前述理论的局限性，研究者设计并开展了一系列受控实验，用以检验提出的各种假设。

强化学习的5大假设

这次的论文聚焦于一个典型任务：通过偏好反馈学习摘要生成。

实验中，在线DPO与离线DPO之间的唯一区别是训练数据不同

——两者的超参数完全一致。

在图3中可以看到，尽管尽可能控制了干扰因素，但在线DPO的表现依然明显优于离线DPO。

为了消除「操控」评估器的疑虑，图4计算了统一的PFT目标函数即公式（2）。即便把gpt-4o从评估流程中移除，在线PFT的表现仍然优于离线PFT。

简而言之，在上述严格控制条件下进行的实验结果，与此前的多项研究一致：在线偏好微调（PFT）优于离线 PFT。

类似的结论也出现在其他相关领域，例如：监督微调（SFT）中的强化学习价值；基于验证器的训练方法中强化学习的效果表现也具有类似优势。

接下来是对5种RL微调假设的反驳。

假设H1：在线样本的内在价值

从直觉上看，相比于使用离线数据集，从当前策略下更可能出现的样本中获取反馈，似乎更有价值。

但问题在于，究竟是什么机制让on-policy数据在策略优化中真正起作用？特别是考虑到这些数据的标签，只是由一个训练自相同离线数据集的奖励模型推断出来的。

在信息论的角度下，根据数据处理不等式，on-policy数据本质上是冗余的。

这是因为从当前策略中采样，无法创造出任何「新的」信息（即真正的人类偏好）来用于学习。

假设H2：离线PFT对参考策略正则化无效

尽管KL正则化在某种程度上导致了在线与离线方法之间的性能差距，但多个证据表明，它并不能完全解释这种差距。

首先，DPO中直接添加反向KL惩罚项，无法彻底弥补与真正在线PFT方法之间的差距，即便有助于改善性能。

其次，一些并不显式地将策略正则化到参考策略的PFT方法，在多个基准测试中依然表现优异。

第三，在某些微调任务中，保持与参考策略的接近并不是一个特别有帮助的策略，但实验中仍然观察到在线方法优于离线方法。

最后，图3展示的实验中，在线与离线算法使用的是相同的正则项，但依然观察到了性能上的差距。

假设H3：在线PFT相对更容易

有人可能会提出这样的问题：离线PFT是否面临比在线PFT更难的优化问题，从而更容易陷入额外的局部最优解？

然而，在实验中，在线与离线PFT都使用的是同一个优化器（DPO）。

两者之间唯一的区别只是输入的数据不同。

因此，很难解释为什么在使用相同数量的样本、相同的优化器的前提下，在线样本就能让优化变得更容易。

对这一假设的进一步解释，涉及「计算-统计差距」（computational-statistical gaps）这一现象：

在某些问题中，即使从信息论角度看某些数据是冗余的，它们仍可以减少找到问题解所需的计算量。

因此，可以把这些（信息冗余的）on-policy样本看作是对策略搜索空间施加的额外「约束」，有助于优化过程的收敛。

为了验证这一假设是否成立，扩大用于训练在线DPO策略的偏好数据集的规模，研究人员进行了提示增强（prompt augmentation），几乎将训练集的规模扩大了三倍。

按照直觉，如果这个细化后的假设是正确的，那么这些「冗余」的样本应该能带来策略性能的提升。

然而，在图5中的结果却相反：下游任务的胜率几乎没有任何提升。

这种现象与该假设的预测并不一致，从而反驳了该假设。

图5：将在线DPO所使用的提示（prompts）扩展对胜率的影响。

假设H4：全局奖励模型利用更多数据训练

目前最好的全局奖励模型的训练数据，往往在比离线PFT使用的偏好数据集更广泛。

因此，一个自然的问题是：在本质上，是否全局奖励模型就更容易从广泛分布的数据中学习，而相比之下，局部奖励模型或策略模型则没有这种能力。

在图6中，基于SFT策略进行的在线DPO，与离线DPO的表现大致相当。

但令人意外的是：当在离线DPO策略的基础上，研究人员继续进行在线DPO训练时，性能仍然有提升，尽管所有模型都是用一个相对狭窄、on-policy的数据集训练的。这种结果并不符合该假设的预期。

图6：在离线DPO策略基础上实施在线DPO迭代能提升胜率

至少在作者研究的问题类型上，并没有证据表明：在利用数据分布方面，策略模型和奖励模型存在本质上的差异。

假设H5：全局奖励模型泛化能力更强

还有一种假设：奖励模型在分布外（out-of-distribution, OOD）具有比策略更好的泛化能力。

在视觉推理等任务中找到了类似的实证，支持这种差异确实存在。

不过，这一假设背后还有一些未解之谜。为此，研究者设计了一系列实验。

首先在验证集上，比较了使用相同骨干模型的DPO奖励模型、局部（Local）奖励模型和全局（Global）奖励模型的似然得分（即作为分类器时的分布内泛化能力）。

如图7所示，研究人员稳定地观察到：当强制采用逐token的分解方式（token-wise decomposition）时，模型在分布内的表现反而变差。

此外，加入正则化也会进一步削弱奖励模型在留出数据上的分类准确率。

图7：从全局奖励模型转换到局部奖励模型，或从局部奖励模型转换到DPO奖励模型对验证准确性的影响

接下来，他们评估这些模型在分布外（OOD）条件下的泛化能力。

具体做法是：在来自SFT策略和离线DPO策略的样本上，测试它们的Best-Of-N（BoN）性能。

正如图8所示，随着N的增加，模型在分布内的验证似然越高，其BoN性能也越好，两者呈现出完美的相关性。

图8：全局（global）、局部（local）和DPO奖励模型在Best-Of-N（BoN）胜率上的表现

简要总结：尽管从信息论角度来看，在线PFT和离线PFT并没有本质的区别，但在不同的采样分布、打分方式和模型规模下，在线PFT一直优于离线PFT。

此外，全局奖励模型似乎比局部奖励模型更容易学习，在验证集上的似然得分也更高。

生成与验证差距：H6假设

竟然上面的假设都站不住脚，不禁要问：是否存在某些理论分析中未考虑到的问题特征？

一种可能的解释是：在很多实际任务中，奖励函数本身比对应的（软）最优策略要简单。

这个观点正是经典逆强化学习（inverse RL）理论背后的核心论点——

相比于行为克隆（即通过最大似然直接学习策略），从示范中学习奖励函数再用强化学习解码策略，可能是一种更优的策略学习方式。

将策略视为生成器，奖励模型视为验证器，可以把上述论点理解为计算机科学中广泛存在的现象：生成通常比验证更困难。

根据标准的一致收敛理论（uniform convergence），可以推断出：要想准确学习验证器所需的样本数量，应当少于学习生成器所需的样本。

然而，一系列研究发现：过参数化模型（如深度神经网络）在使用随机梯度下降（SGD）优化时，往往可以无需更多样本就学到较浅的计算电路。

在实际中，更大的网络通常并不会带来更高的样本复杂度。

基于前文的观察，作者提出了一个新的假设，用以解释在满足以下两种条件的问题中，在线与离线微调之间性能差距的根本原因：

1. 存在生成与验证之间的难度差距（generation-verification gap）；

2. 奖励函数类中包含的函数越简单，越容易通过少量样本学得。

在统计学习理论中，如果一个算法需要在比目标函数所在集合更大的假设空间中进行搜索，这被称为不当学习（improper learning）。

换句话说，这一假设认为：

离线微调是在更难的、不当学习问题上做优化；

而在线微调则通过构建奖励模型、限制搜索空间，有效地将问题简化成「适当学习」问题，从而降低了问题复杂度，带来了更好的最终性能。

这一假设明确指出：在统计学习难度上，在线与离线微调方法之间存在本质差异，从而为两者性能差距提供了一种新的理论解释。

在「可实现性假设」（realizability assumption）下，作者进一步提出了一个正式的定理：

通俗地说，这个定理说明：如果第二步中基于RL的反向KL投影过程不会带来信息损失，那么RLHF就能从受限策略空间中恢复出最大似然估计的解。

然而，问题在于：大家都不知道如何在实践中真正施加这个「策略空间约束」，除非像在线微调那样，先训练一个相对简单的奖励模型，再用RL去优化它——也就是通过两阶段的过程自然实现这一限制。

从直觉上讲，这个假设可以理解为：虽然所有方法最终都指向最大似然估计（likelihood），但如果基于一个相对简单的奖励模型进行强化学习（RL），就等于在策略空间中走了一条「捷径」。

无法证伪的H6假设

首先，有一个自然的问题：对于摘要生成这类具体任务，有什么证据表明「验证比生成更容易」？

根据图9可以发现，即便使用的全局奖励模型比生成策略的模型小得多，其Best-of-N（BoN）性能与使用和策略模型同等规模的奖励模型几乎没有区别。

反过来也成立：即使使用比生成策略更大的全局奖励模型，其BoN表现也没有显著提升。

这说明，在这一任务中，「验证器」并不需要像生成器那样复杂，也能实现相似效果——验证确实更简单。

图9：在不同基础策略规模下，全局奖励模型规模与BoN性能之间的关联性

接下来观察到：假设H6，能准确解释之前所有的实验现象。

比如，在线微调表现更优（图3/图4），可以通过策略搜索空间有效缩减来解释；

即便在加入提示增强（图5）、样本或标签分布变化（图6）等条件下，结果仍成立；

总结来说，这些变量（数据量、分布、模型规模等）都没有改变「生成vs验证」的相对难度本质，所以才可以始终能观察到在线与离线PFT之间一致的性能差距。

这也就意味着：目前的实证结果无法推翻假设H6。

在图10中，研究者发现一个关键结果：

与此前所有实验不同，「生成难度≈验证难度」的简化设置下，在线DPO没有显著提升离线DPO策略的性能。

这与假设H6的预测一致：只有当策略比奖励函数更复杂时，在线PFT才能通过「先学简单奖励、再做策略优化」来缩小搜索空间，从而优于离线PFT。

而当生成过程本身足够简单时，这种优势自然也就不复存在了。

此外研究者使用ROUGE-L指标作为奖励函数，进行了实验。

该指标本质上是计算生成摘要中有多少单词（按顺序）出现在人工参考摘要中。

对于此类问题，最低复杂度的验证器只需包含从提示语到参考摘要文本的查找表。

这意味着生成与验证的复杂度理应相当。

从直观上看，这种设置实际上增加了奖励函数的复杂性。

如图11所示，与之前所有实验结果不同，基于学习得到的全局奖励模型进行在线DPO迭代，并未提升基础离线DPO策略的性能。

然而，额外增加一轮离线DPO训练确实（稍微）提高了ROUGE-L分数，这表明尚未达到ROUGE-L指标下的理论性能上限。

量化生成与验证的性能差距

另一个自然的问题是：到底需要多少真正的人类偏好样本，才能让H6所描述的「在线与离线PFT的统计差异」消失？

图12显示即使逐步减少训练所用偏好数据集的比例，在线和离线PFT在胜率上的差距依然相对稳定。

需要说明的是，这一结果并不与假设相矛盾——

随着数据量增加，可能在学习一系列复杂度递增的奖励模型（RM），而每个RM仍比其对应的软最优策略更简单。

不过，H6预测在数据量趋于无限时，这个差距应该会消失。

因为当样本足够多时，我们将获得足以完全确定状态空间中所有位置生成器的数据——此时即使拥有完美验证器也无法提供新信息。

图12的结果表明，对于摘要生成这一具体任务，要完全确定生成器所需的数据量可能显著超过现有训练集规模。

在其他任务中也有类似的发现，即先学习验证器（奖励模型）再学习生成器（策略）优于直接学习生成器。

这类方法在其他的一些场景也取得了显著效果，进一步的支持了H6假设成立。

同构关系并非双向对等

大家心中可能仍有一个疑问：如果在软强化学习（soft RL）中，策略与奖励是同构的，为什么学习其中一个会比另一个更难？

的确，依据公式（11），可以从奖励函数推导出轨迹分布，然后通过软值迭代（soft value iteration）从中恢复出对应的策略。

Rafailov等人提出了一个非常巧妙的观点：

我们其实可以逆转这种同构关系，即从策略反推出奖励（最多差一个与prompt相关的偏移项，而该项会在Bradley-Terry似然中抵消）。

也就是说，我们可以将一个局部奖励模型用它隐含的软最优策略来表示，见公式（9）。

论文链接：https://arxiv.org/abs/2305.18290

然而，Rafailov等在论文中指出，将局部奖励模型视为Q函数而非原始奖励函数，会更贴近实际情况。

Q函数本质上是一个更复杂且形式上不同的对象。

虽然这种「形式上的同构」存在，但它并不意味着在两个方向上的映射是对等的。

从奖励函数R映射到策略或Q函数，需要通过强化学习求解，这是一个困难的问题；而在策略与Q函数之间的转换，只需进行简单的对数/指数(log/exp)运算。

换句话说：试图学习一个Q函数，其实就等价于直接学习对应的策略；

因此，像DPO这类优化局部奖励模型（本质上是Q函数）的方法，并没有绕开直接学习生成器所面临的统计难题。

结论是：

虽然策略与奖励之间存在同构关系，但这条路不是双向道。

作者介绍

Wen Sun

从2020年7月起，他是美国康奈尔大学计算机科学系助理教授。

他拥有卡内基梅隆大学博士学位。

2014年，他于北卡罗来纳大学教堂山分校获得计算机科学硕士学位。

2012年，他完成浙江大学与加拿大西蒙菲莎大学大学双学位项目，并获得了计算机科学学士。

他荣获2025年斯隆研究奖、2024年美国国家科学基金会职业奖。

Zhiwei Steven Wu

他现任卡内基梅隆大学计算机科学学院助理教授，主要任职于软件与社会系统系（社会计算项目），同时兼任机器学习系和人机交互研究所教职。此外，还担任CyLab安全研究所与理论组成员。

2017年6月，他博士毕业于宾夕法尼亚大学。

2012年5月，他从巴德学院本科毕业，获得数学与计算机科学学士学位。

他的研究兴趣广泛涵盖算法与机器学习领域。

（文：新智元）

2025 年 8 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

新智元报道

【新智元导读】华人学者参与的一项研究，重新确立了强化学习在LLM微调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

接下来是对5种RL微调假设的反驳。

简要总结：尽管从信息论角度来看，在线PFT和离线PFT并没有本质的区别，但在不同的采样分布、打分方式和模型规模下，在线PFT一直优于离线PFT。

发表评论 取消回复

发表评论取消回复