多模态理解归档

Meta和NYU联合出品MetaQuery：融合 MLLM 深度理解与 Diffusion，开启图像生成的新跃迁

2025年7月25日8时作者极市干货

标即可训练，既保持了 MLLM 的理解实力，又在图像生成任务上达到了强劲表现，包括图像编辑和主体驱动

2025年7月16日16时作者机器之心

香港科技大学联合Snap Research提出ThinkDiff方法，仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。

2025年7月11日23时作者极市干货

在ICCV 2025上，作者提出了Ross3D方法，通过重构式视觉指令微调和3D感知自监督实现了超越其他模型的出色表现。

2025年7月6日8时作者 NLP工程化

HiRA分层推理框架：支持多模态理解与代码执行，规划与执行分离，即插即用特性显著提升搜索和推理效率。

2025年6月27日23时作者硅星人Pro

ompt | 骆轶航
高考是左右命运的人生“大考”，也是人工智能的试金石。
AI 写作文到 AI 解

2025年6月26日16时作者量子位

技术的单一文本局限，实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。
香港大学黄超教授团

2025年6月10日23时作者极市干货

本文介绍了一次视频生成的教程，探讨了其作为世界模型的强大潜力，涵盖学术界和产业界的顶尖研究者分享，涉及生成建模、3D理解、强化学习与物理推理等方向。

2025年6月9日23时作者极市干货

kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长

2025年5月22日23时作者机器之心

论文提出MMaDA，首个系统性探索扩散架构的多模态基础模型，实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色，并通过混合长链思维微调和统一策略梯度优化提升性能。