多模态后训练反常识:长思维链SFT和RL的协同困境

华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。

ICCV 2025 UV-CoT登场!无监督也能搞图像级思维链,偏好优化助力CoT跃迁

本文提出了一种无监督视觉思维链推理新框架UV-CoT,通过自动化的偏好数据生成与评估机制,在不依赖人工标注的情况下实现了图像级思维链学习。该方法显著提升了模型的空间感知与图文推理能力。

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。

你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞

上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。