数学竞赛归档

OpenAI重新开源！深夜连发两个推理模型，o4-mini水平，笔记本、手机可跑

2025年8月6日8时作者机器之心

-5，但也是「something big-but-small today.」
也就是
开源新语言模型

2025年7月16日12时作者量子位

报告指出，大模型在软件开发、数学竞赛等任务上的能力每2-6个月翻一番，表明其正在迈向高度自动化。METR选取9个基准测试评估AI agent的time horizon，发现这些智能体的能力呈现出‘摩尔定律’式的增长趋势。

2025年7月10日19时作者 AI先锋官

马斯克的Grok 4在多个测试中表现出色，包括数学竞赛、研究生水平问答和法律常识等多个领域。它不仅表现出了强大的推理能力，还在ARC-AGI通用人工智能测试中取得了高分，并且具备自然语音对话功能及懂互联网语言的能力。

2025年4月25日23时作者新智元

oSkills拔得头筹，开源了OpenMath-Nemotron系列AI模型，1.5B小模型击败14

2025年2月14日12时作者机器之心

微软研究院团队提出Transformer递归式自我提升方法，可在不修改基础架构的情况下解决长度泛化问题。通过多数投票和长度过滤，在10位数以内的乘法上实现近乎完美表现。

2025年2月11日14时作者小兵的AI视界

2025年开年，国产大模型DeepSeek凭借低成本、高性能和全开源特性震撼全球。从数学竞赛到汽车智能座舱，DeepSeek重塑了多个行业应用，并在技术突破和实际落地方面展现了巨大潜力。

2025年2月1日8时作者机器之心

OpenAI 发布 o3-mini 模型，包含低中高三个版本。o3-mini 是最具成本效益的推理模型之一，已上线 ChatGPT 和 API。o3-mini 在 STEM 领域表现优异，响应速度快且准确率高。同时保持了安全和智能水平。