AI 安全新挑战!“弱到强越狱攻击” 如何轻松破解大型语言模型防线?

MLNLP社区发布了一篇关于大型语言模型安全性的论文《Weak-to-Strong Jailbreaking on Large Language Models》,提出了弱到强越狱攻击方法,该方法能在一次前向传递中大幅提高对齐LLMs生成有害文本的成功率,并揭示现有防护措施的不足。