ACL’25最佳论文解读 大模型也会‘弹簧回弹’?揭秘 LLM 对齐的脆弱根源
分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》提出并量化了Elasticity概念,揭示语言模型具有“抗对齐”现象,即使轻微下游微调也会使模型迅速回弹至预训练分布。
分享ACl 2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》提出并量化了Elasticity概念,揭示语言模型具有“抗对齐”现象,即使轻微下游微调也会使模型迅速回弹至预训练分布。
近期Google DeepMind的研究人员设计了一种能够根据词的重要性调整计算量的语言模型,通过一个轻量级的‘路由器’决定每个词在共享网络模块中的循环次数,显著提高了模型性能和效率。