「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试,旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目,涵盖14个学科领域,验证集公开透明,测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露,并在Huggingface上开放了该数据集。

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

新智元报道
编辑:Aeneas
AI做奥数的神话被戳破!全球顶尖AI模型在最新出炉的2025 IMO数学竞赛中均未通过。即使是冠军Gemini也只得了可怜的31分,无法拿到铜牌。Grok-4更是表现极差,连DeepSeek-R1都令人失望。研究表明,AI想超越人类选手还需进步。

清华陈麟九人天团,攻克几何朗兰兹猜想!30年千页证明,冲刺菲尔兹大奖?

九位学者在长达千页的五篇论文中共同完成了对几何朗兰兹猜想的证明,该成就获得数学突破奖和新视野奖的认可。其中一位中国学者陈麟,曾在12岁时参加CMO竞赛并拿下满分,并于哈佛大学获得博士学位。这一系列研究为不同领域之间的桥梁架设铺平了道路。