潘文博@香港城市大学:揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

MLNLP学术TalkMLNLP社区举办的学术交流活动,旨在邀请一线青年学者分享最前沿的技术,期待最精彩的思想火花碰撞。

本期MLNLP学术Talk邀请了香港城市大学潘文博在2025年4月26日10:00-11:00为我们带来揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性的主题报告。详细信息如下:




1

讲者简介

个人介绍:

潘文博,香港城市大学计算机科学系贾小华教授指导下的博士一年级学生。主要研究兴趣集中在大型语言模型的对齐与安全性可解释性方法。在自然语言处理国际顶级会议EMNLP上发表多篇论文。其开源的长上下文优化大模型Faro系列在Hugging Face上获得广泛关注(超23万次下载)在攻读博士学位之前,潘文博曾在澜舟科技(Langboat Inc.)和哈工大社会计算与信息检索研究中心(HIT-SCIR)担任研究实习生。


2

报告摘要


大语言模型的安全对齐技术使其能够拒绝有害指令,看起来越来越安全。然而,这种安全性有时很脆弱,且现有研究通常将其建模为激活空间中的单一方向,限制了对其内部机制的深入理解。我们的研究表明,安全对齐行为实际上是由多个维度共同控制的。

我们通过分析安全微调(Safety Fine-Tuning)前后模型内部表征的变化,构建了一个“安全残差空间”(Safety Residual Space)。在此空间中,我们发现不仅存在一个主导模型拒绝行为的主要方向,还存在多个代表不同可解释特征(如假设性叙述、角色扮演)的次要方向。进一步分析揭示了这些次要方向如何影响主导方向,并塑造模型的最终安全决策。重要的是,我们发现通过移除或修改有害指令中的特定“触发词”(trigger tokens),可以削弱这些次要方向的影响,从而绕过模型学习到的安全能力,这为理解安全对齐的脆弱性提供了新的多维视角。

本次报告将主要介绍作者近期工作 “The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis”。


3

主持人介绍

王鹏,目前为中南大学访问学生,即将于9月入学澳门科技大学。研究兴趣为自然语言处理、大语言模型、大模型智能体。在ToMM、BDMA等会议、期刊上发表学术论文。


4

直播平台


视频号


B站




关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往