200多行代码,复旦大学超低成本复现DeepSeek R1「Aha Moment」! 2025年2月19日16时 作者 PaperWeekly 复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。