微调Qwen2.5-coder,只用GRPO!打造能“懂你时间表”的AI工具人! 2025年5月9日14时 作者 AI技术研习社 用GRPO训练自己的推理模型: “不用表标、不用表达式,只用“提示 + 奖励”也能教会模型学习。”