数学推理归档

突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

2025年7月24日16时作者量子位

南洋理工大学提出CAFT技术，首次将多token预测引入模型微调阶段，实现模型对完整概念的理解，提高编程、数学和医学等多个领域的性能。

2025年7月15日14时作者 AI信息Gap

Kimi K2 是一款万亿参数级别的国产大模型，主打代码生成、工具调用和数学推理等功能。在OpenRouter上，其API使用量已超过xAI并排在第九名。Kimi K2分为基版和指令微调版，支持开发者和研究人员使用，并可通过官网、App及Hugging Face下载使用。

2025年7月11日23时作者多知

ucius3-Math，下称“子曰3”）。
子曰3是有道推理模型“子曰-o1” 在数学模型能力上的延

2025年7月11日8时作者机器之心

DreamPRM 是加州大学圣地亚哥分校团队开发的一种方法，它在数学推理测评榜上排名第一。通过双层优化框架解决多模态大语言模型的数据质量不均衡问题，显著提升了其数学推理能力。

2025年7月8日8时作者量子位

CMU研究发现，仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上，预示着强化学习可能是实现可迁移推理的关键方法。

MLNLP社区推出FineReason基准，评估大模型的审慎推理能力。通过逻辑谜题训练，提升模型在数学和通用推理任务上的表现，并揭示其反思与纠错能力的瓶颈。

2025年7月4日14时作者小兵的AI视界

Osmosis-Structure-0.6B 是一款小型语言模型，专注于结构化输出生成。通过强化学习和大量结构化数据训练，在数学推理任务中表现出色，并在多个领域如智能客服、数据分析和教育辅导中有广泛应用。

2025年6月18日8时作者 AIGC开放社区

专注AIGC领域的专业社区分享微软自研三大算法：rStar-Math、LIPS和CPL，提升LLM的数学推理能力。

2025年6月11日8时作者机器之心

大模型在数学推理和解答题上表现参差不齐，多数模型在图像识别方面仍存在问题。总体来看，大模型在复杂推理、严谨论证及多步骤计算能力上有较大提升空间。