GSM8K-RLVR:用强化学习提升语言模型的数学解题能力

GSM8K-RLVR:用强化学习提升语言模型的数学解题能力,让模型在GSM8K数据集上表现更出色。亮点:

  1. 不依赖预训练奖励模型,直接优化基础模型;

  2. 通过RLVR,模型准确率提升显著,如Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%,提升6.67个百分点;

  3. 简化提示格式,无需复杂标签

参考文献:
[1] http://github.com/Mohammadjafari80/GSM8K-RLVR


(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往