评估框架归档

ICML 2025 会刷题≠懂数学！CogMath打造“认知显微镜”，深扒大模型的数学能力

2025年7月7日23时作者 PaperWeekly

频繁刷榜，关于它们“是否真正理解数学”的讨论也日益增多。
针对这一问题，中国科学技术大学认知智能全国

2025年5月26日16时作者 PaperWeekly

本文提出评估范式的转变，从排名竞争转向诊断反馈。通过引入树状能力图谱、动态评估标准和可视化分析等创新组件，开发了Feedbacker框架，用于提升LLM的评估效率与准确性。

2025年4月6日11时作者新智元

长复杂。Rice大学的华人研究者提出高效推理概念，探究了如何帮助LLM告别「过度思考」，提升推理效率

2025年3月18日16时作者机器之心

交通大学博士生（导师：温颖副教授），研究方向为人智协同与多智能体系统，共同第一作者王锡淮为上海交通大

2025年2月23日8时作者 NLP工程化

CryptoBench 是一个评估大型语言模型在密码学方面能力的基准测试框架