X-R1：人人都能复现0.5B Aha Moment

2025年2月13日8时作者 NLP工程化

X-R1 旨在构建一个易于使用、低成本的基于强化学习的训练框架，以加速扩展后训练（Scaling Post-Training）的发展。受 DeepSeek-R1 和 open-r1 的启发，我们以最低成本从基础模型训练出了 0.5B 参数的 R1-Zero “顿悟时刻” 模型。

参考文献：
[1] X-R1开源仓库：https://github.com/dhcode-cpp/X-R1

（文：NLP工程化）