Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式

港科大团队提出GuidedBench评估框架,系统评估LLM越狱攻击方法,并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估,结果发现没有一种方法的攻击成功率超过30%。