R1-Zero 归档 - 每时AI

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

2025年2月18日12时作者机器之心

复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力，项目代码简洁，仅依赖基础库实现，训练 7B 模型成本低至 7.3 元。

2025年2月13日8时作者 NLP工程化

X-R1 提出了一种低成本、易于使用的强化学习训练框架，成功训练出0.5B参数的R1-Zero模型。

2025年2月8日23时作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

2025年2月7日16时作者机器之心

有时对模型性能的助益不大。
在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。
一项

2025年2月4日23时作者 AI寒武纪

春节假期最后一天祝大家蛇年上班快乐。DeepSeek研究员过年都没歇，春节期间透露了DeepSeek R1模型性能持续提升的信息，并对强化学习的潜力表示乐观。Daya Guo解释了R1-Zero模型仍处于早期阶段且具备泛化能力，以及其未来可能的应用方向如形式化证明环境等。

2025年1月26日12时作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
就在刚刚，网上已经出现了一波复现DeepSeek的