ICCV 2025 地平线联合多所高校提出 Epona:首个融合自回归与扩散的自动驾驶世界模型
地平线提出Epona,融合扩散与自回归模型,在单一框架下实现分钟级长视频生成、轨迹控制生成和实时运动规划。
地平线提出Epona,融合扩散与自回归模型,在单一框架下实现分钟级长视频生成、轨迹控制生成和实时运动规划。
北大学者提出MP1框架,引入MeanFlow范式提升机器人动作生成速度和泛化能力。该方法实现毫秒级推理速度,且无需外部一致性约束,大幅提高任务成功率和数据效率。
北京大学卢宗青团队提出创新性解决方案,利用海量人类操作视频数据构建大规模预训练VLA模型Being-H0,并成功应用于真实机器人平台上。该研究解决具身智能领域真机数据不足的问题,提升机器人操作任务的成功率和效率。
北京大学、清华大学与京东联合提出EventVAD框架,无需训练即可实现高效精准的视频异常检测。通过事件感知动态图构建、图注意力传播等技术,显著提升了检测精度和效率。
北大团队推出OpenS2V-Nexus,包含全球首个面向主体一致性、自然度和文本对齐的S2V细粒度评测基准OpenS2V-Eval及500万高质量720P人物文本视频三元组数据集OpenS2V-5M,解决S2V模型泛化能力差、复制粘贴问题和人物一致性不足等问题。
来自北京大学与香港中文大学的最新研究提出 ReCAP 框架,成功打破熵最小化在 Test-Time Training 的性能瓶颈。论文提出区域置信度代理概念,通过优化区域内模型预测不确定性与稳定性之间的联系来提升下游任务泛化性能。