X-R1:人人都能复现0.5B Aha Moment

X-R1 旨在构建一个易于使用、低成本的基于强化学习的训练框架,以加速扩展后训练(Scaling Post-Training)的发展。受 DeepSeek-R1 和 open-r1 的启发,我们以最低成本从基础模型训练出了 0.5B 参数的 R1-Zero “顿悟时刻” 模型。

参考文献:
[1] X-R1开源仓库:https://github.com/dhcode-cpp/X-R1


(文:NLP工程化)

发表评论