美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
美团团队提出Metis-RISE框架,通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型,在OpenCompass多模态推理榜单上取得了优异成绩,验证了方法的有效性和可扩展性。
美团团队提出Metis-RISE框架,通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型,在OpenCompass多模态推理榜单上取得了优异成绩,验证了方法的有效性和可扩展性。
首个大规模多模态物理推理基准PhysUniBenchmark发布,包含3304道经验证的物理问题,支持多语言评估,开放性问题准确率仅为26.5%。
加州大学圣克鲁斯分校提出GRIT模型,让多模态大语言模型既能条理清晰地思考又能真正将推理过程『落到画面』上。仅需20个带标注图像与问题的数据就能教会模型画框+推理,实现真正的‘图像思维’。
香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。
TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究,通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题,显著提高OCR相关任务性能。
本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。
纽约大学与Adobe联合研究团队提出Satori系统,通过结合BDI模型、大语言模型结构认知及多模态指示生成技术,实现AR辅助系统的理解和行为判断能力升级。
研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。
SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型,支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。