多模态大语言模型归档

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

2025年7月21日23时作者量子位

美团团队提出Metis-RISE框架，通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型，在OpenCompass多模态推理榜单上取得了优异成绩，验证了方法的有效性和可扩展性。

2025年6月30日8时作者 NLP工程化

首个大规模多模态物理推理基准PhysUniBenchmark发布，包含3304道经验证的物理问题，支持多语言评估，开放性问题准确率仅为26.5%。

2025年6月18日23时作者新智元

加州大学圣克鲁斯分校提出GRIT模型，让多模态大语言模型既能条理清晰地思考又能真正将推理过程『落到画面』上。仅需20个带标注图像与问题的数据就能教会模型画框+推理，实现真正的‘图像思维’。

2025年6月16日23时作者量子位

香港中文大学MMLab团队发布视觉推理方案MINT-CoT，专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理，显著提升多模态大模型在数学视觉推理任务中的表现。

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

2025年5月27日16时作者机器之心

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域，推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色，并展示了扩散模型在多模态理解领域的巨大潜力。

2025年4月28日16时作者机器之心

纽约大学与Adobe联合研究团队提出Satori系统，通过结合BDI模型、大语言模型结构认知及多模态指示生成技术，实现AR辅助系统的理解和行为判断能力升级。

2025年4月25日23时作者机器之心

研究提出「描述一切模型」(DAM)，能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域，DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异，并支持多粒度输出。

2025年4月22日23时作者开源AI项目落地

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型，支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。

2025年4月17日16时作者 PaperWeekly

Driving）的端到端解决方案已成为主流趋势，并在视觉语义理解任务中取得了显著进展。
然而，它们在