监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力

加拿大滑铁卢大学TIGER Lab华人学者团队提出One-Shot Critique Fine-Tuning (One-Shot CFT) 新方法,通过生成多个不同版本的解答和多个点评者模型进行点评,让目标模型从“批判答案”中学习推理规律。该方法在计算资源消耗、效果稳定性方面表现优异,比传统的监督式微调和强化学习有明显优势。

多模态数学推理新突破:多样化视角让模型“开窍”!

MLNLP社区发布了关于多模态数学推理的研究论文《Multimodal Mathematical Reasoning with Diverse Solving Perspective》。该研究提出了一种新的数据集MathV-DP,以及基于Qwen-VL模型的Qwen-VL-DP,旨在提升大型多模态语言模型在数学推理任务中的表现,并强调了从多样化的解题视角学习的重要性。

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

苹果研究人员提出蒸馏扩展定律,基于计算预算及其在学生和教师之间的分配,能够预测蒸馏模型的性能。该发现降低了大规模使用蒸馏的风险,并指导了优化教师和学生模型的计算资源以最大化学生模型性能的方法。