微调Qwen2.5-coder,只用GRPO!打造能“懂你时间表”的AI工具人! 下午2时 2025/05/09 作者 AI技术研习社 用GRPO训练自己的推理模型: “不用表标、不用表达式,只用“提示 + 奖励”也能教会模型学习。”