深夜突袭!谷歌Gemini 2.5 Pro更新蝉联榜一:推理超越o3,编程超越opus4 下午11时 2025/06/06 作者 机器之心 05)。 在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力
ACL 2025 大模型遗忘之后患上失语症?通过学习新知识实现旧知识遗忘 下午4时 2025/05/22 作者 PaperWeekly arn —— 一种 将数据增强与模型微调相结合的高效知识遗忘框架 。 论文题目: ReLearn:
攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为 下午4时 2025/02/17 作者 新智元 后约48小时内,无人完全攻破新系统,将赏金提高到了最高2万美元。新方法真这么强? 最近,Anthro
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend 下午4时 2025/02/11 作者 机器之心 香港科技大学等团队提出SelfDefend框架,让大语言模型首次具备自我保护能力,有效抵御越狱攻击。该框架通过创建并行的影子LLM来检测潜在有害查询,并在不影响正常响应的情况下提升安全性。