ACL’25最佳论文解读 大模型也会‘弹簧回弹’?揭秘 LLM 对齐的脆弱根源
分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》提出并量化了Elasticity概念,揭示语言模型具有“抗对齐”现象,即使轻微下游微调也会使模型迅速回弹至预训练分布。
分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》提出并量化了Elasticity概念,揭示语言模型具有“抗对齐”现象,即使轻微下游微调也会使模型迅速回弹至预训练分布。