被OpenAI带火的强化微调RFT技术解析~ 2024年12月8日14时 作者 PaperAgent OpenAI推出强化微调RFT技术,通过监督式微调和在线PPO算法进一步微调模型,在GSM8K等数据集上显著提升性能,相比传统SFT方法效果更优。