舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。
本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。
上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。
CVPR 2025 论文分享会将在北京举办,主题包括多模态和视频生成。邀请顶级专家、论文作者参加Keynote演讲和圆桌对话,同时发布部分论文的摘要。