AIME 归档 - 每时AI

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLMTransformer作者团队

2025年6月27日14时作者机器学习算法与自然语言处理

MLNLP社区是国内外知名的人工智能社区，专注于推动自然语言处理与机器学习的学术交流和技术进步。Sakana AI提出的新方法通过教师模型输出清晰解释来训练学生模型，显著提高了效率。

一键部署丨DeepSeek-R1 新版本小幅升级便登顶开源王座，多项评测超越 Qwen3

2025年5月30日23时作者 HyperAI超神经

近日，DeepSeek-R1-0528版本发布，通过提升配置优化算法显著提升了推理能力，并在多个基准测试中超越了Qwen3-235B和DeepSeek-R1。HyperAI超神经已上线一键部署教程，欢迎体验。

无需标注数据！清华TTRL让AI自学正确率飙升159%，数学题秒变送分题

2025年5月5日14时作者小兵的AI视界

清华大学和上海人工智能实验室提出测试时强化学习(TTRL)，通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

2025年5月2日16时作者新智元

南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升，成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。

OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理，AI看图思考新时代

2025年4月17日14时作者 AI先锋官

就在今天凌晨，OpenAI发布了满血版o3和o4-mini模型，实现了图像思考能力。两款新模型在数学竞赛及编程任务中表现优异，视觉推理功能增强，支持Python分析、网络搜索等工具协同工作，有望改写专业岗位角色。

智谱深夜开源新一代GLM模型，推理速度快DeepSeek-R1八倍，还启用了全新域名Z.ai

2025年4月15日16时作者机器之心

智谱宣布其核心技术链路完全开源，包括基座模型、推理模型和沉思模型等。新发布的GLM-4-32B-0414与GLM-Z1-32B-0414均以32亿参数量媲美更大规模的主流模型，并在工具调用、联网搜索、代码智能体任务等方面表现优异。同时，小尺寸的9B系列模型也开源了。智谱持续推动AI生态建设，为企业提供模型即服务（MaaS）解决方案。

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

2025年3月13日12时作者机器之心

高推理能力的潜力，比如 OpenAI 的 o1 系列。
通常来说，这些方法在训练模型时可以产生比典型

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31