高难度问题归档

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

2025年6月26日23时作者量子位

北京大学DS-Lab发布ScholarSearch数据集，评估LLMs在学术研究中的信息检索能力。结果显示现有模型普遍表现不佳，仅凭推理无法解决复杂问题，需结合搜索功能以提高准确率。

2025年2月8日12时作者机器之心

文章介绍了一个名为”人类的最后考试”（HLE）的新AI基准，旨在评估大规模语言模型的能力。该基准包含3000多个问题，涉及上百个学科领域，要求模型不仅给出正确答案，还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。