
分享一个好消息!还记得去年12月就提过的强化微调(Reinforcement Fine-Tuning, RFT)吗?现在,它正式登陆 OpenAI o4-mini 模型了!
简单说,RFT 就是用思维链推理和任务专属的评分机制来提升模型在特定复杂领域的表现,可以将AI模型从高中学生水平轻松提升到了专家博士水平。 通过强化微调,你可以轻松将模型的某一个领域的专业能力迅速提升,打造出各种AI专家
另外,GPT-4.1 nano 现在也开放微调了!这意味着你可以把OpenAI最快、最便宜的模型,针对你的具体场景进行“特训”,性价比拉满!
目前,RFT已向经过验证的组织开放。OpenAI还给出了个福利:分享你的数据集,不仅能帮助改进未来的OpenAI模型,还能获得50%的折扣。
官方已经准备了强化微调指南,第一时间给大家划个重点
强化微调RFT:到底能干啥?
RFT的核心目标是提升模型在特定、答案可验证任务上的性能
啥时候最该用RFT?
特别适合那些需要模型做出正确且可验证决策的“智能体式”工作流。RFT通过明确的评分标准,以及基于代码或大语言模型(LLM)的“裁判”(Grader)来衡量任务的成功度、事实准确性或政策合规性
OpenAI的早期用户主要集中在三个场景:
-
1. 指令变代码:把开放式指令转换成结构化的代码、配置或模板,并且这些产出必须通过确定性的测试。 -
2. 杂乱文本提炼精华:从非结构化文本中提取可验证的事实和摘要,并以JSON或其他结构化模式输出。 -
3. 复杂规则精准应用:当信息细微、量大、层级复杂或事关重大时,进行精细的标签或策略决策。
实战案例秀肌肉 💪
下面这些公司已经用RFT搞出了名堂:
1. 指令变代码
模型需要理解隐藏的领域限制,生成结构化输出,如代码、查询语句或基础设施模板。输出必须满足多重正确性条件,成功与否通常是确定性评分。
🔹ChipStack:为半导体设计“智能布线”
-
• 公司:ChipStack,搞AI驱动的芯片设计和验证工具。 -
• 痛点:将设计接口绑定到验证IP(预制验证组件)是件耗时耗人力的苦差事,涉及大量信号映射,需要深厚的领域知识。 -
• 目标:训练OpenAI模型自动完成这项任务。ChipStack准备了不到50个样本的数据集,进行了多次RFT实验。 -
• 评分器思路:用Python定义了一个比较预测输出(一系列名值对)与期望答案的评分器,计算精确率和召回率的F1分数。 -
• 成果:o1-mini和o3-mini模型性能均提升了约12个百分点。微调后的模型在识别何时“不”应用布线方面进步巨大,这对于包含大量可选信号的商业验证IP至关重要
2. 杂乱文本提炼精华
这类任务通常涉及细微差别,需要明确的分类指南和领域专家的共识。评分信号的一致性对RFT效果至关重要。
🔹 Ambience Healthcare:精准分配ICD-10医疗编码
-
• 公司:Ambience,AI平台,为临床医生减轻行政负担,确保文档准确合规。 -
• 痛点:ICD-10编码(约7万个代码)是医学中最复杂的行政任务之一,错误可能导致巨额罚款。 -
• 目标:训练一个能听取就诊音频、结合EHR信息、推荐ICD-10编码且准确率超过专家临床医生的推理系统。 -
• 成果:在包含数百次就诊的黄金测试集上,RFT将模型性能从落后人类专家13个百分点提升到领先12个百分点,大致消除了训练有素医生所犯编码错误的四分之一。 -
• o3-mini (基础): 0.39 -
• 医生基线: 0.45 -
• RFT调优的 o3-mini: 0.57
3. 复杂规则精准应用
将非结构化输入中的可验证事实或实体提取到定义清晰的模式中(如JSON、代码、引文等)。精确、连续的评分方法(如F1、模糊匹配、数值准确性)是关键。
🔹 Accordance:税务分析的“专家级”推理
-
• 公司:Accordance,为税务、审计和CPA团队打造平台。 -
• 痛点:税务领域极其复杂,法规多变,推理要求高。 -
• 目标:构建一个能处理复杂税务场景并保持高准确率的系统,且能随税法变化而适应。 -
• 评分器思路:一个细致的评分清单,针对税务分析的各个方面分别给分,例如: -
• [+0.05]
正确识别股权百分比 -
• [+0.1]
正确计算年度分配 -
• [+0.15]
正确分配普通收入 -
• …等等多达十余项细致的评分点。 -
• 成果:税务分析任务性能比基础模型提升近40%,在TaxBench等基准上优于其他主流模型。经税务专家评估,微调模型展现出专家级推理能力。
评估 (Evals) 是基石
OpenAI强烈建议:在实施RFT之前,务必为你的任务创建并运行评估 (eval)。
如果你的模型在评估中得分是最低或最高,RFT就没啥用了。RFT需要模型在不同答案质量间有区分度才能学习。如果评估得分在最低和最高分之间,那就有戏。
一个有效的评估能揭示出人类专家普遍认同、但当前模型难以解决的痛点——这正是RFT大显身手的好机会。
如何从RFT中获得更好结果?
想让微调模型效果更好,主要从两方面下功夫:明确任务定义和强化评分方案。
重新定义或澄清你的任务
好任务能让模型有公平的学习机会,也让你能量化改进。
-
• 从模型偶尔能解决的任务开始:如果模型现在完全做不对,RFT也无从下手。 -
• 确保每个答案都能被评分:评分器必须能自动打分。支持多种评分器类型(包括自定义Python和LLM裁判)。 -
• 消除“正确答案”的模糊性:如果专家对答案都有分歧,任务就太模糊了。改写提示、增加上下文,或拆分任务。 -
• 限制“蒙对”的可能性:如果是选择题且答案明显,模型可能靠猜。增加类别、要求简短开放式文本,或调整格式让猜测代价变高。
强化你的评分器
清晰、鲁棒的评分方案对RFT至关重要。
-
• 用平滑分数而非“通过/失败”:渐变的分数能提供更好的训练信号。 -
• 警惕“奖励作弊” (Reward Hacking):模型可能找到捷径获得高分,而非真正掌握技能。 -
• 避免数据倾斜:如果数据集中某个标签占比过高,平衡数据集或增加稀有案例权重。 -
• 当代码评分不足时,使用LLM裁判:对于复杂的开放式回答,让另一个OpenAI模型来评分。确保: -
• 评估裁判本身:用多个候选答案和正确答案测试LLM裁判,确保评分稳定且符合偏好。 -
• 提供少样本示例:在提示中包含优秀、一般和差劲的答案示例,提升裁判效果。
写在最后
RFT的潜力巨大,尤其是在那些对精度和可靠性要求极高的专业领域。想了解更多,可以去OpenAI Cookbook翻翻菜谱,或者深入研究官方文档
-
• 模型介绍
https://platform.openai.com/docs/models -
• 强化微调指南
https://platform.openai.com/docs/guides/reinforcement-fine-tuning -
• 评分器
https://platform.openai.com/docs/guides/graders -
• 模型优化概览
https://platform.openai.com/docs/guides/model-optimization
参考:
https://platform.openai.com/docs/guides/rft-use-cases?chipstack=use-case
⭐
(文:AI寒武纪)