阿里 Qwen3:持续开源,SOTA 连连! 2025年7月26日8时 作者 特工宇宙 文章介绍了阿里推出的Qwen系列模型,包括通用、编码和推理三个方向的模型,并在多个开源榜单上取得第一。这些模型不仅性能优越,而且具有良好的更新频率和社区口碑。
杜昕润@M-A-P:SuperGPQA:探索LLMs知识与推理能力的边界 2025年3月29日14时 作者 机器学习算法与自然语言处理 MLNLP社区举办学术Talk邀请杜昕润分享SuperGPQA评估大模型能力,涵盖285个专业领域,覆盖轻工业等未被充分评估的学科。
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科 2025年3月4日16时 作者 量子位 夜变天??? 要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MML