Meta和NYU联合出品MetaQuery:融合 MLLM 深度理解与 Diffusion,开启图像生成的新跃迁
标即可训练,既保持了 MLLM 的理解实力,又在图像生成任务上达到了强劲表现,包括图像编辑和主体驱动
标即可训练,既保持了 MLLM 的理解实力,又在图像生成任务上达到了强劲表现,包括图像编辑和主体驱动
香港科技大学联合Snap Research提出ThinkDiff方法,仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。
百度如期开源文心4.5系列共10款模型,涵盖文本和视觉理解,支持跨模态知识融合。参数从300B到424B不等,性能达到SOTA水平,在多任务测试中表现优异,并采用飞桨框架训练和部署。
本文介绍了一次视频生成的教程,探讨了其作为世界模型的强大潜力,涵盖学术界和产业界的顶尖研究者分享,涉及生成建模、3D理解、强化学习与物理推理等方向。
kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
太长
论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。