客观性归档 - 每时AI

Jailbreak迎来“最后一卷”？港科大用“内容评分”重塑大模型越狱评估范式

2025年7月23日16时作者 PaperWeekly

港科大团队提出GuidedBench评估框架，系统评估LLM越狱攻击方法，并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估，结果发现没有一种方法的攻击成功率超过30%。

2025年1月24日23时作者乌鸦智能说

2024年被业界视作AI应用之年。很多人相信，今年将是属于Agent的一年。
今天，OpenAI发布