ART 强化学习实战:用 GRPO 让 LLM 学会 2048 下午2时 2025/05/01 作者 子非AI ,核心采用 GRPO 算法。 • 为什么牛: 它极大简化了 RL 训练流程,允许在 现有代码 中无缝