PhysUniBenchmark:首个大规模多模态物理推理基准,专为评估多模态大语言模型在本科物理问题上的推理能力而设计。亮点:1. 包含3304道经人工验证的物理问题,涵盖光学、量子力学等八大核心物理领域;2. 题目配图,支持多语言(中英双语)评估;3. 即使是顶尖模型,开放性问题准确率也仅为26.5%,挑战性十足。


参考文献:
[1] http://github.com/PrismaX-Team/PhysUniBenchmark
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)