逻辑推理能力归档

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

2025年6月6日23时作者量子位

复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位提出了MME-Reasoning，全面评估多模态大模型的推理能力。该基准分为三类推理：演绎、归纳和溯因，并涵盖三种问题类型。评测结果显示当前最优模型得分仅60%左右，显示了对逻辑推理能力的要求极高。

2025年5月12日16时作者 PaperWeekly

符号逻辑推理的有效性与普遍性，
提升大模型的逻辑推理能力
成为解决幻觉问题的关键途径。
为推进大语言

2025年5月1日23时作者新智元

理学院联合多个院系，推出了首个专注于物理感知与推理能力的大模型基准——PHYBench。首次系统性揭

2025年4月14日14时作者 AI探索时代

学习和使用大模型需要掌握提示词技术（Prompt Engineering），类似于学会开车技能。理解并应用大模型的功能，比如内容生成、自然语言理解和逻辑推理等，通过RAG、Function call或MCP协议与大模型交互。选择适合的模型，并根据需求优化提示词以达到最佳效果。

2025年2月28日12时作者 AI寒武纪

来第一时间给大家更新，😄
废话不多说，先看看Sam Altman的对GPT 4.5的感受：
Sam：

2024年12月31日16时作者机器之心

机器之心报道
编辑：杜伟
2024 年的最后一天，智谱 GLM 模型家族迎来了一位新成员——
GLM