ACL'25最佳论文解读大模型也会‘弹簧回弹’？揭秘 LLM 对齐的脆弱根源

今天，分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》

预训练大模型像“弹簧”一样，对齐微调只是暂时拉伸，任何后续微调都会让它迅速弹回预训练分布。这种“抗对齐”现象命名为 Elasticity（弹性）。

1. 研究背景：为什么对齐如此脆弱？

提出并量化了 Elasticity 概念，包含两大现象：

现象	直观解释
Resistance（阻抗）	把预训练模型往任何方向拉都很费劲，即正向对齐（forward alignment）比逆向对齐（inverse alignment）难得多。
Rebound（回弹）	越是“深度对齐”的模型，在遭遇反向微调时，性能崩得越快，随后迅速回到预训练分布。

图1：语言模型的弹性。经过扰动后，归一化压缩率的变化（ΔγDi/Dpθ）和数据集的大小（|Di|）遵循反比定律，这与耦合弹簧中弹簧变形（Δli）和刚度（ki）之间的关系相似。我们推测，这种弹性导致语言模型对齐时的抗拒，从而使得逆向对齐成为可能。

作者将 LLM 训练 & 对齐等价于 无损压缩 过程：

结论：当两个数据集体积差异巨大时，微调对“小体量”数据集的影响被显著稀释，使模型天然偏向保留“大体量”预训练分布。

图2：Resistance 实验流程示意

表1：正向 vs 逆向对齐的训练损失

图3：Rebound 实验流程示意

图4：回弹（Rebound）现象确凿存在

图5：模型越大，回弹越快

图6：预训练数据量越大，回弹越明显

https://arxiv.org/pdf/2406.06144v5https://pku-lm-resist-alignment.github.io/Language Models Resist Alignment: Evidence From Data Compression

（文：PaperAgent）