ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
香港科技大学联合Snap Research提出ThinkDiff方法,仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。
香港科技大学联合Snap Research提出ThinkDiff方法,仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。
百度如期开源文心4.5系列共10款模型,涵盖文本和视觉理解,支持跨模态知识融合。参数从300B到424B不等,性能达到SOTA水平,在多任务测试中表现优异,并采用飞桨框架训练和部署。
本文介绍了一次视频生成的教程,探讨了其作为世界模型的强大潜力,涵盖学术界和产业界的顶尖研究者分享,涉及生成建模、3D理解、强化学习与物理推理等方向。
kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
太长
论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。
在百度AI Day活动上,文心4.5 Turbo和X1 Turbo大模型展示了多项技术创新。通过混合训练技术提升跨模态学习效率和多模态融合效果,后训练采用自反馈增强技术优化生成结果质量,同时具备数据建设闭环以提供丰富多样高质量数据。百度文心大模型在推理能力评估中获得最高级评级,并成功应用到数字人主播等实际场景中。