Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook)

Unsloth 发布了他们的  GRPO 的新互动教程 (ipynb notebook),只需要跟着教程一步步来就能微调 Qwen3-Base 并且开启思考模式,并且是 GRPO 的所以可以几乎让模型无监督学习。

参考文献:
[1] 地址:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-GRPO.ipynb


知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往