逻辑推理归档

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

2025年7月26日16时作者量子位

通义千问最新开源的Qwen3-235B-A22B-Thinking-2507推理模型，登顶全球开源最强。相比上个月发布的版本，其在各项测评中显著提升，在逻辑推理、数学和科学任务上表现尤为出色，并且支持更长上下文处理。

2025年7月11日23时作者 APPSO

拿昨天的 Grok 4 来说，马斯克放话「这是地球上最聪明的 AI」，还没上线，就已经把话题度拉满了

2025年7月7日23时作者 PaperWeekly

频繁刷榜，关于它们“是否真正理解数学”的讨论也日益增多。
针对这一问题，中国科学技术大学认知智能全国

2025年6月28日8时作者 NLP工程化

腾讯开源新模型Hunyuan-A13B，支持快速和慢速思考模式，在Agent能力和逻辑推理方面表现不错，可通过官网体验。

2025年6月26日11时作者 PaperWeekly

近期多模态推理模型在数学题、学科题上表现出色，但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准，首次系统性检验了MLLMs在复杂文本图像推理中的能力。

2025年6月25日14时作者 AI探索时代

不同的大模型在相同问题上可能给出截然不同风格的回答，这是由它们训练数据和设计目标的不同导致的差异性。

2025年6月18日23时作者 PaperWeekly

our Instructions?
作者单位：
北京大学、清华大学、中山大学、香港理工大学、OPPO

2025年6月16日14时作者 AI技术研习社

文章介绍了OpenAI最新发布的模型o3-pro及其降价策略，强调了其在推理、科学数据分析、代码编写等方面的强大能力，并讨论了其对AI产业生态可能产生的影响。