MATH500 归档 - 每时AI

港科大Apple新研究：Tokens使用量减少，模型推理还更强了

2025年5月28日16时作者量子位

Laser团队提出的新方法提升了大模型的推理效率与准确性，通过统一视角看待不同奖励设计、基于目标长度和阶跃函数的奖励机制以及动态且带有难度感知的目标调整，实现了在减少Tokens使用量的同时保持或提升准确率。

Deepseek R1及Deep research复现回顾及近期前沿进展速递

2025年2月16日19时作者老刘说NLP

2025年02月16日，北京晴天。社区第39讲《DeepseekR1及Deepresearch复现》顺利结束，老刘报告了4小时深度讨论内容。介绍了大模型推理和复现进展，包括DeepSeek-MoE-ResourceMap、OpenR1-Math-Raw等资源库，并展示了OpenThinker-32B在MATH500测试中的表现。研究发现，长链推理的结构比内容更重要。老刘呼吁社区成员参与讨论。

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

2025年2月7日8时作者量子位

研究团队通过蒸馏技术从阿里通义Qwen2.5-32B-Instruct模型出发，结合Gemini 2.0 Flash Thinking实验版数据集训练出高性能推理模型s1-32B，在数学评测集中表现优异。

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

2025年1月16日23时作者机器之心

阶跃星辰发布的Step Reasoner mini是首个推理模型，擅长逻辑推理、代码和数学问题，并能进行文学创作。该模型通过强化学习训练，实现文理兼修。它在AIME 2024和Math500测试中均表现出色，且具有较好的泛化性。

450美元训练一个「o1-preview」？UC伯克利开源32B推理模型Sky-T1，AI社区沸腾了

2025年1月12日16时作者机器之心

加州大学伯克利分校发布Sky-T1-32B-Preview，其训练成本不到450美元。该模型在多个关键基准测试中与OpenAI o1的早期版本相当，并且是首个开源的推理模型。