超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场 2025年3月13日12时 作者 机器之心 高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型