跳至内容
每时AI
菜单
菜单
资讯
国际
分享
大模型
学术
开源
机器人
关于我们
强化学习训练框架
X-R1:人人都能复现0.5B Aha Moment
2025年2月13日8时
作者
NLP工程化
X-R1 提出了一种低成本、易于使用的强化学习训练框架,成功训练出0.5B参数的R1-Zero模型。
下载我们的APP,AI秒送达!
立即下载
×