One-Shot CFT团队 投稿
量子位 | 公众号 QbitAI
大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是“一题强化学习”(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。
但与此同时,一个现实难题也随之而来:
哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。
有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力?
加拿大滑铁卢大学TIGER Lab的华人学者团队提出了一种名为One-Shot Critique Fine-Tuning(One-Shot CFT)的新方法。
本质上,这也是一种监督学习,只不过与传统SFT的“模仿答案”不同,CFT训练模型“逐步分析判断一个答案的好坏”。在这个过程中,模型能接触到多样的推理路径和错误类型,更贴近人类真实的学习方式。

一题、多解、多点评:One-Shot CFT如何工作?
One-Shot CFT的整体流程设计并不复杂,但背后的思想却极具启发性。
研究者首先选取一个具有代表性的任务问题(如数学推理题),然后利用多个主流开源模型(如MiMo、Qwen3、Phi-4等)生成多个不同版本的解答。这些答案再交由GPT-4、Claude等更强大的“点评者”模型进行点评,解释每个答案的优劣。
最终,研究者将这些点评作为监督信号,训练目标模型(如Qwen2.5、LLaMA3.2等),让其从“批判答案”中学习推理规律。
整个过程只需要一题数据 + 多个解答 + 多个点评,便能完成微调。而令人惊讶的是,完整训练仅需约5个GPU小时,远远低于RL方法的资源消耗,而且One-Shot CFT在多个领域均展现了惊人的效果。

数学与逻辑双线突破,超越RLVR与小规模SFT
在实验中,研究团队围绕数学和逻辑推理两大方向展开验证,使用主流基准任务(如MATH-500、OlympiadBench、AMC、BBEH等)进行全面评测。

在数学任务上,Qwen2.5-Math-7B仅用一题进行CFT微调后,准确率即提升+15%,不仅超越了RLVR框架下的One-Example RL表现,甚至超过了在DeepScaleR上使用4万多个训练样本的全监督微调模型。

在BBEH逻辑推理任务中,包括因果推理、歧义消解等子任务也获得了+10~16%的准确率增幅,表现出极强的跨任务迁移能力。

更重要的是,实验表明One-Shot CFT的效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性。
“点评”凭什么比“答案”更有用?
One-Shot CFT的显著效果,归因于三个核心机制:
首先,它强调批判性学习。传统SFT是让模型去模仿参考答案,而CFT是让模型理解“一个答案为何正确或错误”,其学习信号更具深度;
其次,它引入了多视角输入。一个任务下生成多个答案,每个答案再生成多个点评,等于用一个问题模拟出多种推理路径与错误类型,这种多样性非常接近人类的学习方式;
第三,CFT的训练信号具有强泛化性。与RL或SFT中的奖励信号不同,点评语言往往包含更通用的逻辑判断规则,因此能更自然地迁移至新任务中,降低过拟合风险。
这一机制的有效性也被多项ablation study所验证:无论更换问题、模型、甚至点评风格,CFT训练的提升幅度都能保持在稳定区间内。
一题五小时,人人可复现:低门槛、强效果的新选择
相比RL动辄几十甚至上百GPU小时的训练需求,One-Shot CFT的“低成本”属性无疑让它具备了更强的落地潜力。
-
训练只需5 GPU小时,一张A100也能轻松搞定; -
无需RL框架与奖励模型,训练与推理过程更透明、易调试; -
全流程开源,包括训练脚本、模型参数、数据集等,极大降低复现门槛。
对个人研究者、资源有限的实验室,甚至初创团队而言,One-Shot CFT提供了一种极具性价比的推理能力增强方案。

论文地址:https://arxiv.org/abs/2506.03295
项目主页:https://tiger-ai-lab.github.io/One-Shot-CFT/
Hugging Face 数据集与模型合集:https://huggingface.co/collections/TIGER-Lab/one-shot-cft-683fbb4d2bcf698dbea8fb21
GitHub 仓库:https://github.com/TIGER-AI-Lab/One-Shot-CFT
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)