ACL’25最佳论文解读 大模型也会‘弹簧回弹’?揭秘 LLM 对齐的脆弱根源

今天,分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》

预训练大模型像“弹簧”一样,对齐微调只是暂时拉伸,任何后续微调都会让它迅速弹回预训练分布。这种“抗对齐”现象命名为 Elasticity(弹性)

1. 研究背景:为什么对齐如此脆弱?

  • 对齐方法(SFT / RLHF / DPO 等)被广泛用于让大模型“讲规矩”。
  • 然而,最近不少工作发现:只需极少量(甚至非恶意)的下游微调,就能让“乖巧”的模型瞬间破功。
  • 这引出一个灵魂拷问:
    对齐真的改变了模型内部表征,还是仅仅在表面贴了一层“安全膜”?

2. 核心发现:语言模型的“弹性”

提出并量化了 Elasticity 概念,包含两大现象:

现象
直观解释
Resistance(阻抗)
把预训练模型往任何方向拉都很费劲,即 正向对齐(forward alignment)比 逆向对齐(inverse alignment)难得多。
Rebound(回弹)
越是“深度对齐”的模型,在遭遇反向微调时,性能崩得越快,随后迅速回到预训练分布。


图1:语言模型的弹性。经过扰动后,归一化压缩率的变化(ΔγDi/Dpθ)和数据集的大小(|Di|)遵循反比定律,这与耦合弹簧中弹簧变形(Δli)和刚度(ki)之间的关系相似。我们推测,这种弹性导致语言模型对齐时的抗拒,从而使得逆向对齐成为可能。

3. 理论框架:用“压缩理论”刻画对齐

作者将 LLM 训练 & 对齐等价于 无损压缩 过程:

  1. Token Tree:把每个可能的输出序列看成树的一条路径。
  2. 压缩协议:先剪枝到深度d,再对剪枝后的子树做 Huffman 编码。
  3. 压缩率 与 KL 散度 一一对应,因此可用压缩率变化衡量模型行为变化。

结论:当两个数据集体积差异巨大时,微调对“小体量”数据集的影响被显著稀释,使模型天然偏向保留“大体量”预训练分布。

4. 实验验证

4.1 实验一:Resistance——“正向对齐”更难

  • 设置:把 SFT 过程切成若干快照 θ₁,θ₂,…,θₙ。
  • 对比两条路径
    • Path A(正向):θₖ → 在 Dₗ 上继续训练
    • Path B(逆向):θₗ → 在 Dₖ 上“反训练”


图2:Resistance 实验流程示意

  • 结果(表1):逆向对齐的训练损失始终更低 ⇒ 对齐确实更难!

表1:正向 vs 逆向对齐的训练损失

4.2 实验二:Rebound——“回弹”速度与模型规模、预训练数据量正相关

  • 任务设计
    • 先用“正向”数据(安全 / 正面情感)做 SFT;
    • 再用“反向”数据(不安全 / 负面情感)做少量微调。


图3:Rebound 实验流程示意

  • 结果
    • 正向对齐越充分,后续只需更少的负面数据即可让性能迅速崩塌。(图4)
    • 模型参数越大(图5)、预训练数据越多(图6),回弹越剧烈。

图4:回弹(Rebound)现象确凿存在


图5:模型越大,回弹越快


图6:预训练数据量越大,回弹越明显

https://arxiv.org/pdf/2406.06144v5https://pku-lm-resist-alignment.github.io/Language Models Resist AlignmentEvidence From Data Compression

(文:PaperAgent)

发表评论