学术
复旦主导,中美等8个国家25家单位44名学者联合发布大模型安全技术综述
AIxiv专栏发布了一篇系统性技术综述论文《Safety at Scale: A Comprehensive Survey of Large Model Safety》,全面调研了大模型安全领域的390篇研究工作,涵盖6种主流大模型和10种攻击类型。该论文介绍了各类模型的攻击与防御方法,并归纳了常用的数据集和评估基准,总结了4个重要研究趋势及主要挑战,呼吁学术界与国际社会加强合作,共同应对大模型安全问题。
马斯克大力出奇迹,Grok3 把 o3 干翻了
马斯克发布了最新的大模型Grok-3和推理版,其在多种评测中得分最高,包括1402分在所有类别中的排名首位。Grok-3具备Reasoning、DeepSearch等功能,且支持Big Brain选项,展示了强大的创意编程能力和搜索理解能力。
OpenAI:强化学习确实可显著提高LLM性能,DeepSeek R1、Kimi k1.5发现o1的秘密
IOI 上达到了金牌水平,并且在 CodeForces 上获得了与精英级人类相当的得分。
他们是怎