安全对齐归档

打破资源瓶颈！华南理工&北航等推出SEA框架：低资源下实现超强多模态安全对齐

2025年5月24日16时作者 AI前线

bedding 增强安全对齐），针对多模态大模型（MLLMs）的低资源安全对齐难题，创新性地通过合成

MLNLP社区举办学术Talk，邀请香港城市大学潘文博分享大模型安全对齐的研究成果，揭示其内部机制由多个维度控制，主持人王鹏介绍相关背景知识。

2024年12月17日22时作者机器之心

本文介绍了一种通用的防御框架，用于对抗LLM提示词注入攻击。该框架包括安全前端、结构化指令微调和安全对齐三种策略，并已在USENIX Security 2025接受的第一篇论文中验证。