ICML 2025 会刷题≠懂数学!CogMath打造“认知显微镜”,深扒大模型的数学能力 2025年7月7日23时 作者 PaperWeekly 频繁刷榜,关于它们“是否真正理解数学”的讨论也日益增多。 针对这一问题,中国科学技术大学认知智能全国
告别刷榜内卷!清华×百度提出Feedbacker,开启LLM深度洞察新评估时代 2025年5月26日16时 作者 PaperWeekly 本文提出评估范式的转变,从排名竞争转向诊断反馈。通过引入树状能力图谱、动态评估标准和可视化分析等创新组件,开发了Feedbacker框架,用于提升LLM的评估效率与准确性。
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅? 2025年3月18日16时 作者 机器之心 交通大学博士生(导师:温颖副教授),研究方向为人智协同与多智能体系统,共同第一作者王锡淮为上海交通大