全监督微调归档

监督学习未死，一题训练五小时起飞！华人学者新方法20倍训练效率释放大模型推理能力

2025年8月4日16时作者量子位

加拿大滑铁卢大学TIGER Lab华人学者团队提出One-Shot Critique Fine-Tuning (One-Shot CFT) 新方法，通过生成多个不同版本的解答和多个点评者模型进行点评，让目标模型从“批判答案”中学习推理规律。该方法在计算资源消耗、效果稳定性方面表现优异，比传统的监督式微调和强化学习有明显优势。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28