
MLNLP学术Talk是MLNLP社区举办的学术交流活动,旨在邀请一线青年学者分享最前沿的技术,期待最精彩的思想火花碰撞。
本期MLNLP学术Talk邀请了香港城市大学潘文博在2025年4月26日10:00-11:00为我们带来“揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性”的主题报告。详细信息如下:

讲者简介

个人介绍:
潘文博,香港城市大学计算机科学系贾小华教授指导下的博士一年级学生。主要研究兴趣集中在大型语言模型的对齐与安全性和可解释性方法。在自然语言处理国际顶级会议EMNLP等上发表多篇论文。其开源的长上下文优化大模型Faro系列在Hugging Face上获得广泛关注(超23万次下载)。在攻读博士学位之前,潘文博曾在澜舟科技(Langboat Inc.)和哈工大社会计算与信息检索研究中心(HIT-SCIR)担任研究实习生。
报告摘要
大语言模型的安全对齐技术使其能够拒绝有害指令,看起来越来越安全。然而,这种安全性有时很脆弱,且现有研究通常将其建模为激活空间中的单一方向,限制了对其内部机制的深入理解。我们的研究表明,安全对齐行为实际上是由多个维度共同控制的。
我们通过分析安全微调(Safety Fine-Tuning)前后模型内部表征的变化,构建了一个“安全残差空间”(Safety Residual Space)。在此空间中,我们发现不仅存在一个主导模型拒绝行为的主要方向,还存在多个代表不同可解释特征(如假设性叙述、角色扮演)的次要方向。进一步分析揭示了这些次要方向如何影响主导方向,并塑造模型的最终安全决策。重要的是,我们发现通过移除或修改有害指令中的特定“触发词”(trigger tokens),可以削弱这些次要方向的影响,从而绕过模型学习到的安全能力,这为理解安全对齐的脆弱性提供了新的多维视角。
本次报告将主要介绍作者近期工作 “The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis”。
主持人介绍

王鹏,目前为中南大学访问学生,即将于9月入学澳门科技大学。研究兴趣为自然语言处理、大语言模型、大模型智能体。在ToMM、BDMA等会议、期刊上发表学术论文。
直播平台
视频号
B站


关于我们

(文:机器学习算法与自然语言处理)