北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
北京大学DS-Lab发布ScholarSearch数据集,评估LLMs在学术研究中的信息检索能力。结果显示现有模型普遍表现不佳,仅凭推理无法解决复杂问题,需结合搜索功能以提高准确率。
北京大学DS-Lab发布ScholarSearch数据集,评估LLMs在学术研究中的信息检索能力。结果显示现有模型普遍表现不佳,仅凭推理无法解决复杂问题,需结合搜索功能以提高准确率。
文章介绍了一个名为”人类的最后考试”(HLE)的新AI基准,旨在评估大规模语言模型的能力。该基准包含3000多个问题,涉及上百个学科领域,要求模型不仅给出正确答案,还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。