香港中文大学MMLab 归档

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

2025年6月6日23时作者量子位

复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位提出了MME-Reasoning，全面评估多模态大模型的推理能力。该基准分为三类推理：演绎、归纳和溯因，并涵盖三种问题类型。评测结果显示当前最优模型得分仅60%左右，显示了对逻辑推理能力的要求极高。