首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
研究团队提出VL-Rethinker模型,通过优势样本回放和强制反思技术解决多模态推理中的优势消失和反思惰性问题。该模型在多个数学和科学任务上超过GPT-o1,并显著提升Qwen2.5-VL-72B在MathVista和MathVerse上的性能。
研究团队提出VL-Rethinker模型,通过优势样本回放和强制反思技术解决多模态推理中的优势消失和反思惰性问题。该模型在多个数学和科学任务上超过GPT-o1,并显著提升Qwen2.5-VL-72B在MathVista和MathVerse上的性能。
SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型,它不仅奖励结果的准确性,还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法,SophiaVL-R1 提升了模型的推理质量和泛化能力,在多模态数学和通用测试数据集上表现优于大型模型。
字节发布轻量级多模态推理模型Seed1.5-VL,在60个主流基准测试中拿下38项第一,仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。
GitHub项目Awesome-Large-Multimodal-Reasoning-Models总结了多模态推理模型的四阶段发展历程,覆盖感知驱动、语言中心短推理、长推理以及原生多模态推理,并提供详细数据集和图表支持。
阶跃星辰在 Step UP 生态开放日公布了其探索 AGI 的方式,重点押注智能终端。公司强调多模态能力和推理能力的重要性,并已发布11款多模态大模型和开源了Step-Video-T2V视频生成模型与Step-Audio语音模型。姜大昕认为智能体技术的发展依赖于多模态能力和推理能力,两者结合能让AI像人一样理解和行动。
OpenAI发布的o3-mini模型实现了GPT-4级别的STEM能力,数学竞赛准确率达83.6%,推理速度提升24%。这款高性价比模型支持三档动态算力调节,并且首次向免费用户开放。