Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook) 上午8时 2025/05/15 作者 NLP工程化 Unsloth 发布了GRPO的新互动教程,用户可以轻松微调Qwen3-Base并开启其思考模式,实现几乎无监督学习。