浙大+阿里提出快慢思考新方法:在多模态Reasoning上准确率涨10%,长度砍半


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

为什么大模型会“想太多”?

当你被问到“1+1等于几”时,如果非要先写一篇《论加法本源》再回答“2”,这就是典型的“过度思考”。当前的大型视觉语言模型(LVLM)也面临同样问题:无论问题难易,它们都会生成冗长的推理过程,导致效率低下,甚至因“话多必失”降低准确率。

论文:Fast-Slow Thinking for Large Vision-Language Model Reasoning
链接:https://arxiv.org/pdf/2504.18458

如下表中简单题反被长答案拖累:

论文将这种现象称为“overthinking”,并指出其核心矛盾:

  • 简单问题:长答案浪费算力,还可能引入错误细节
  • 复杂问题:短答案无法覆盖关键推理步骤
传统方法与FAST在准确率与推理长度上的对比

学会“偷懒”:FAST框架的三大绝招

FAST的核心是动态调节推理深度,其秘诀在于三个创新设计:

问题难度

  • 难度分:通过模型多次尝试的正确率计算(公式:),实时判断题目难度。
  • 复杂度分:结合图像纹理(GLCM熵)和语义(ViT分类熵),量化问题是否需要详细推理(公式:)。

奖励机制

  • 准确奖:答案正确+1分
  • 格式奖:按要求用标签包裹答案+0.5分
  • 思维奖:简单题答得短/难题答得长+0.5分
    (公式:动态调节长度奖励,见下表对比)

动态刹车系统

通过KL散度系数控制模型“放飞自我”的程度:

  • 难题(如微积分):松开刹车(β趋近0.001),鼓励探索
  • 简单题(如识图):踩紧刹车(β趋近0.03),避免跑偏
不同难度数据训练对模型表现的影响

实验:准确率飙升10%,推理长度砍半

论文在7个多模态推理基准测试中验证FAST:

  • 准确率:相比基础模型平均提升超10%,在MathVista等复杂任务中超越GPT-4o
  • 效率:推理长度比传统“慢思考”方法减少32.7%-67.3%(如下表中R1-OneVision长度692 vs. FAST仅204)
  • 智能平衡:对难题自动延长推理(如几何题硬核模式长度+60%),简单题则“秒答”
案例对比

技术灵魂:动态调节的“刹车”与“油门”

FAST最精妙的设计在于动态性

  • 数据筛选:训练前期专攻难题(“慢思考”),后期专练速答(“快思考”)
  • 奖励机制:不是一刀切鼓励长或短,而是根据题目类型“按需分配”
  • 正则化调节:KL系数随难度浮动,如同开车时自动切换经济/运动模式

这种设计让AI像人类一样具备元认知能力——知道何时该深思熟虑,何时该果断决策。

最后,论文也指出待解难题:如何让模型自主判断“未知问题”该快该慢?这可能成为下一阶段的研究重点。


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往