准确性提高归档

Jailbreak迎来“最后一卷”？港科大用“内容评分”重塑大模型越狱评估范式

2025年7月23日16时作者 PaperWeekly

港科大团队提出GuidedBench评估框架，系统评估LLM越狱攻击方法，并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估，结果发现没有一种方法的攻击成功率超过30%。

2024年12月11日22时作者机器之心

机器之心报道
机器之心编辑部
一个非常简单的更改，就能提高 LLM 推理能力。
在认知科学领域，关于