X-R1 旨在构建一个易于使用、低成本的基于强化学习的训练框架,以加速扩展后训练(Scaling Post-Training)的发展。受 DeepSeek-R1 和 open-r1 的启发,我们以最低成本从基础模型训练出了 0.5B 参数的 R1-Zero “顿悟时刻” 模型。


参考文献:
[1] X-R1开源仓库:https://github.com/dhcode-cpp/X-R1
(文:NLP工程化)
X-R1 旨在构建一个易于使用、低成本的基于强化学习的训练框架,以加速扩展后训练(Scaling Post-Training)的发展。受 DeepSeek-R1 和 open-r1 的启发,我们以最低成本从基础模型训练出了 0.5B 参数的 R1-Zero “顿悟时刻” 模型。
参考文献:
[1] X-R1开源仓库:https://github.com/dhcode-cpp/X-R1
(文:NLP工程化)