潘文博@香港城市大学:揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性

MLNLP社区举办学术Talk,邀请香港城市大学潘文博分享大模型安全对齐的研究成果,揭示其内部机制由多个维度控制,主持人王鹏介绍相关背景知识。

USENIX Sec’25 LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

本文介绍了一种通用的防御框架,用于对抗LLM提示词注入攻击。该框架包括安全前端、结构化指令微调和安全对齐三种策略,并已在USENIX Security 2025接受的第一篇论文中验证。