CVPR 2025|GoalFlow:目标点驱动,解锁端到端生成式策略新未来
本文提出了一种基于GoalPoint的端到端生成式方法GoalFlow,通过引入密集的GoalPoint词汇表和高效的扩散模型FlowMatching来生成高质量多模态轨迹,在PDMS上达到了90.3%的最佳性能。
本文提出了一种基于GoalPoint的端到端生成式方法GoalFlow,通过引入密集的GoalPoint词汇表和高效的扩散模型FlowMatching来生成高质量多模态轨迹,在PDMS上达到了90.3%的最佳性能。
文章介绍了一种名为DCPT的新图像复原预训练方法,通过退化分类预训练提升模型对不同退化类型的判别能力和高质量图像生成能力,在多种复原任务上取得显著性能提升。
本文提出了一种轻量化多模态语言模型LLaVA-MoD,通过稀疏专家混合架构和渐进式蒸馏策略,在2B规模下使其性能超过7B大模型8.8%,并在幻觉检测任务中超越教师模型。
上海人工智能实验室发布通用具身智能仿真平台GRUtopia 2.0,通过通用模块化框架、场景资产自动化生成和高效数据采集系统三大革新,实现仅用三行代码定义任务,数据采集效率最高提升20倍。
智元 X-Lab 发布灵犀 X2 具身智能机器人,具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型,实现高效协同作业、任务分解与精细动作序列生成。
本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。