X-R1: 不到50元,人人都能复现0.5B Aha Moment 下午2时 2025/02/13 作者 PaperAgent X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
X-R1:人人都能复现0.5B Aha Moment 上午8时 2025/02/13 作者 NLP工程化 X-R1 提出了一种低成本、易于使用的强化学习训练框架,成功训练出0.5B参数的R1-Zero模型。
首个DeepSeek-R1全开源复现Open-R1来了 下午2时 2025/01/26 作者 PaperAgent Open-R1是一个完全开源的DeepSeek-R1复现项目,包含训练、评估和生成合成数据脚本,目标帮助用户复现并在此基础上进行开发。