多GPU 归档 - 每时AI

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

2025年4月1日23时作者机器之心

对策略优化）。
不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 c