200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源
复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力,项目代码简洁,仅依赖基础库实现,训练 7B 模型成本低至 7.3 元。
复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力,项目代码简洁,仅依赖基础库实现,训练 7B 模型成本低至 7.3 元。
春节假期最后一天祝大家蛇年上班快乐。DeepSeek研究员过年都没歇,春节期间透露了DeepSeek R1模型性能持续提升的信息,并对强化学习的潜力表示乐观。Daya Guo解释了R1-Zero模型仍处于早期阶段且具备泛化能力,以及其未来可能的应用方向如形式化证明环境等。