安全对齐
潘文博@香港城市大学:揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性
MLNLP社区举办学术Talk,邀请香港城市大学潘文博分享大模型安全对齐的研究成果,揭示其内部机制由多个维度控制,主持人王鹏介绍相关背景知识。
ICLR 2025杰出论文解读:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态
ICLR 2025杰出论文奖揭晓。包括普林斯顿大学、Google DeepMind等机构的论文在内,共评选出3篇杰出论文和3篇荣誉提名论文,涵盖安全对齐、学习动态及模型编辑等多个方向的研究成果。
USENIX Sec’25 LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了
本文介绍了一种通用的防御框架,用于对抗LLM提示词注入攻击。该框架包括安全前端、结构化指令微调和安全对齐三种策略,并已在USENIX Security 2025接受的第一篇论文中验证。