吴翼归档 - 每时AI

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL，一夜击穿14B SOTA

2025年6月5日16时作者新智元

现全异步强化学习训练系统，有效解耦模型生成与训练流程，GPU利用率大幅提升。14B模型在多个代码基准

2025年4月1日11时作者量子位

蚂蚁清华团队开源的AReaL-boba框架，显著提升了模型训练效率和推理能力。32B规模模型仅需200美元、200条数据即可复现，且在数学推理上达到SOTA水平，训练吞吐性能提升显著，成本大幅降低。