ICLR 2025杰出论文揭晓:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态

ICLR 2025 杰出论文奖今天揭晓!
通过两阶段的遴选,大会共评选出3篇杰出论文和3篇荣誉提名论文:
1、杰出论文Safety Alignment Should be Made More Than Just a Few Tokens Deep.Learning Dynamics of LLM Finetuning.AlphaEdit: Null-Space Constrained Model Editing for Language Models.2、荣誉提名论文Data Shapley in One Training Run.SAM 2: Segment Anything in Images and Videos.Faster Cascades via Speculative Decoding.
一、Safety Alignment Should be Made More Than Just a Few Tokens Deep
机构:普林斯顿大学,Google DeepMind
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson.
当前大型语言模型(LLMs)的安全对齐是脆弱的。简单的攻击,甚至良性的微调,都可能破解对齐后的模型。许多这些漏洞都与一个共同的根本问题有关:安全对齐可能会走捷径,即对齐主要只调整模型在最初几个输出token上的生成分布。将这一问题统称为浅层安全对齐
通过案例研究来解释浅层安全对齐存在的原因,并展示这一问题如何普遍导致大型语言模型中最近发现的多种漏洞,包括对对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击的易感性。
将安全对齐扩展到最初几个token之外可以显著提高对一些常见攻击手段的鲁棒性。还设计了一个正则化的微调目标,通过限制对初始token的更新,使安全对齐在微调攻击下更具持久性。
总体而言,主张未来的安全对齐应该不仅仅局限于最初几个token的深度。
论文:https://openreview.net/pdf?id=6Mxhg9PtDE
二、Learning Dynamics of LLM Finetuning
机构:不列颠哥伦比亚大学
作者:Yi Ren, Danica J. Sutherland.

学习动态(Learning dynamics)描述了特定训练样本的学习如何影响模型对其他样本的预测,为我们理解深度学习系统的行为提供了一个强大的工具。通过分析不同潜在回答之间影响积累的逐步分解,研究了大型语言模型在不同类型微调(finetuning)过程中的学习动态。提出的框架允许对流行算法在指令微调(instruction tuning)和偏好微调(preference tuning)方面的训练进行统一解释。

特别是,提出了一个假设性的解释,说明为什么特定类型的幻觉(hallucination)在微调后会增强。例如,模型可能会使用回答问题B的短语或事实来回答问题A,或者在生成回答时反复重复类似的简单短语。还扩展了提出的框架,强调了一个独特的“挤压效应”(squeezing effect),以解释在离线直接偏好优化(off-policy direct preference optimization,DPO)中观察到的一个现象,即运行DPO时间过长甚至会使期望的输出变得不太可能。这一框架还揭示了在线DPO和其他变体的益处来源。

这种分析不仅为理解大型语言模型的微调提供了新的视角,还启发了一种简单而有效的方法来提高对齐性能(alignment performance)。

code:https://github.com/Joshua-Ren/Learning_dynamics_LLM论文:https://openreview.net/pdf?id=tPNHOoZFl9

ICLR 2025杰出与荣誉提名论文PDF已更新在AGI观测站更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG Manus+MCP GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)

三、AlphaEdit: Null-Space Constrained Model Editing for Language Models
机构:新加坡国立大学,中国科学技术大学
作者:Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua

大型语言模型(LLMs)常常表现出幻觉现象,生成错误或过时的知识。因此,模型编辑方法应运而生,以实现针对性的知识更新。为了实现这一目标,一种流行的范式是“定位-编辑”方法,该方法首先定位有影响力的参数,然后通过引入扰动来编辑这些参数。尽管这种方法有效,但当前研究表明,这种扰动不可避免地会破坏LLMs中原本保留的知识,尤其是在顺序编辑场景中。

为了解决这一问题,引入了一种名为AlphaEdit的创新性解决方案。该方案在将扰动应用于参数之前,先将其投影到保留知识的零空间中。从理论上证明,这种投影可以确保在查询保留知识时,经过编辑后的LLMs的输出保持不变,从而缓解了知识破坏的问题。

在包括LLaMA3、GPT2-XL和GPT-J在内的各种LLMs上进行的大量实验表明,AlphaEdit通过仅添加一行用于投影的额外代码,平均提升了大多数“定位-编辑”方法的性能达36.7%。

code: https://github.com/jianghoucheng/AlphaEdithttps://openreview.net/pdf?id=HvSytvg3Jhhttps://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

(文:PaperAgent)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往