强化学习训练框架归档 - 每时AI

X-R1：人人都能复现0.5B Aha Moment

2025年2月13日8时作者 NLP工程化

X-R1 提出了一种低成本、易于使用的强化学习训练框架，成功训练出0.5B参数的R1-Zero模型。