超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码模型全开源 蚂蚁&清华出品

蚂蚁清华团队开源的AReaL-boba框架,显著提升了模型训练效率和推理能力。32B规模模型仅需200美元、200条数据即可复现,且在数学推理上达到SOTA水平,训练吞吐性能提升显著,成本大幅降低。

前 OpenAI 研究员、清华大学吴翼博士亮相 2025 ML-Summit,剖析大型推理模型强化学习系统

近日,ACM 将 2024 年图灵奖授予强化学习之父 Richard S. Sutton 和 Andrew G. Barto。吴翼博士将出席 4 月在上海召开的全球机器学习技术大会,并介绍针对推理模型和强化学习开发的训练系统 AReaL。