数学推理归档 - 第4页共7页

DeepSeek-V3-0324开源

2025年3月26日8时作者 NLP工程化

DeepSeek-V3-0324 在数学推理和前端开发方面表现优于 Claude 3.5 和 Claude 3.7 Sonnet，这是 DeepSeek 最佳非推理模型。

阿里开源Qwen2.5-VL新版本，视觉推理通杀，32B比72B更聪明

2025年3月25日16时作者 Founder Park

Qwen发布新版本Qwen2.5-VL-32B-Instruct，相比前代模型回复更符合人类偏好、数学推理能力更强、图像细粒度理解与推理表现优异。

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

2025年3月25日11时作者量子位

阿里通义千问Qwen发布新模型Qwen2.5-VL-32B-Instruct，尺寸为32B，具备更强的数学推理能力、图像解析能力和内容识别准确度，在多个基准上达到同规模SOTA表现。

通义开源32B视觉模型，阿里与DeepSeek前后脚上新！能看图说话

2025年3月25日11时作者智东西

新模型Qwen2.5-VL-32B-Instruct在视觉理解和数学推理方面表现出色，并且其纯文本能力优于GPT-4o mini。该模型已在GitHub和Hugging Face上开源，可用于多种场景，包括对图片的理解、解决复杂的数学问题等。

上交大等提出MM-Eureka：R1-Zero的「Aha Moment」同样存在于多模态推理

2025年3月18日16时作者 PaperWeekly

本文介绍了一种新的多模态大规模强化学习框架MM-Eureka，该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型，并使用较少的数据实现了性能的提升。

大模型全军覆没，中科院自动化所推出多图数学推理新基准 CVPR 2025

2025年3月11日16时作者量子位

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估MLLM（多模态大语言模型）的数学推理能力。结果发现，包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出，现有的多模态数学基准大多局限于单一视觉场景，而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景，覆盖11个数学领域，并分为三个难度级别。

QwQ-32B：阿里 320 亿参数开源推理大模型，性能惊艳！

2025年3月7日19时作者小兵的AI视界

阿里巴巴团队开源了最新研发的大模型QwQ-32B，该模型在数学推理、代码生成和逻辑分析等领域表现出色，性能媲美DeepSeek-R1。其轻量化部署特性使其成为中小团队的理想选择。

阿里半夜开源全新推理模型，QwQ-32B比肩DeepSeek-R1满血版

2025年3月6日16时作者机器之心

阿里开源发布新推理模型QwQ-32B，参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力，在数学和编程任务上表现优异，并提供了API使用指南。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31