多阶段策略归档

看DeepSeek R1的论文时，我突然想起了AlphaGo

MLNLP社区介绍了DeepSeek R1论文，并重点提到了基于规则的奖励模型和多阶段训练策略，作者通过与AlphaGo的对比分享了个人见解。文章还提及技术交流群邀请函和MLNLP社区介绍。