SuperGPQA 归档 - 每时AI

杜昕润@M-A-P：SuperGPQA：探索LLMs知识与推理能力的边界

2025年3月29日14时作者机器学习算法与自然语言处理

MLNLP社区举办学术Talk邀请杜昕润分享SuperGPQA评估大模型能力，涵盖285个专业领域，覆盖轻工业等未被充分评估的学科。

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

2025年3月4日16时作者量子位

夜变天？？？
要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MML