多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位提出了MME-Reasoning,全面评估多模态大模型的推理能力。该基准分为三类推理:演绎、归纳和溯因,并涵盖三种问题类型。评测结果显示当前最优模型得分仅60%左右,显示了对逻辑推理能力的要求极高。

怎么学习使用大模型?论大模型和汽车的关系

学习和使用大模型需要掌握提示词技术(Prompt Engineering),类似于学会开车技能。理解并应用大模型的功能,比如内容生成、自然语言理解和逻辑推理等,通过RAG、Function call或MCP协议与大模型交互。选择适合的模型,并根据需求优化提示词以达到最佳效果。