RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力 下午4时 2025/05/09 作者 PaperWeekly 可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evalua