Weak-to-Strong Jailbreaking 归档

AI 安全新挑战！“弱到强越狱攻击” 如何轻松破解大型语言模型防线？

MLNLP社区发布了一篇关于大型语言模型安全性的论文《Weak-to-Strong Jailbreaking on Large Language Models》，提出了弱到强越狱攻击方法，该方法能在一次前向传递中大幅提高对齐LLMs生成有害文本的成功率，并揭示现有防护措施的不足。