Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式

港科大团队提出GuidedBench评估框架,系统评估LLM越狱攻击方法,并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估,结果发现没有一种方法的攻击成功率超过30%。

多模态大模型在OCR生成上表现如何?多页文档理解数据集Doc-750K

2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

保姆级教程:两步搭出Qwen3 Coder满血Claude Code版,OpenAI CodeX睡桥洞去吧

Qwen团队发布了新的Qwen3-Coder模型,参数480B,激活参数35B。该模型在Claude Code对话时表现优秀,并且可以接入多个平台使用。作者提供了详细的教程指南来帮助用户将Qwen3 Coder接入Claude Code、Gemini CLI以及Cline等工具。