机器之心编辑部
刚刚,在美国田纳西州纳什维尔举办的 CVPR 2025 公布了最佳论文等奖项。
今年共有 14 篇论文入围最佳论文评选,最终 5 篇论文摘得奖项,包括 1 篇最佳论文、4 篇最佳论文荣誉提名。此外,大会还颁发了 1 篇最佳学生论文、1 篇最佳学生论文荣誉提名。

根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文。相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。

计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席(AC)数量均创下新高。

今年前来现场参会的学者也超过 9000 人,他们来自 70 余个国家和地区。
CVPR 官方公布了各个细分领域的论文接收情况,如下图所示。可以看到,图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角和传感器的 3D 以及基于单图像的 3D。

此次,最佳论文奖委员会成员中有 AI 圈非常熟悉的 ResNet 作者何恺明。

最佳论文
VGGT:Visual Geometry Grounded Transformer
CVPR 2025 的最佳论文来自牛津大学、Meta AI,提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,其能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。

-
作者:Jianyuan Wang,Minghao Chen,Nikita Karaev 等
-
机构:牛津大学,Meta AI
-
链接:https://arxiv.org/abs/2503.11651
-
HuggingFace:https://huggingface.co/spaces/facebook/vggt
下图为架构概览。无需任何后处理优化,该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型,推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式,展示了「越简单,越有效」的强大潜力。

论文第一作者王建元为牛津大学视觉几何组(VGG)与 Meta AI 的联合培养博士生(博士三年级),他长期致力于 3D 重建方法研究。

他的博士工作聚焦于端到端几何推理框架的创新,曾主导开发了 PoseDiffusion、VGGSfM,以及本次提出的通用 3D 基础模型 VGGT,相关成果均发表于 CVPR、ICCV 等顶级会议,推动了数据驱动式 3D 重建技术的演进。
王建元同样作为第一作者的研究 VGGSfM 曾被 CVPR 2024 接收,并收录为 Highlight 论文。
今年 3 月,机器之心专栏曾介绍过 VGGT 研究,更多详情请参阅:《3D 基础模型时代开启?Meta 与牛津大学推出 VGGT,一站式 Transformer 开创高效 3D 视觉新范式》
最佳论文荣誉提名
论文 1:MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

-
作者:Zhengqi Li,Richard Tucker,Forrester Cole,Qianqian Wang, Linyi Jin, Vickie Ye,Angjoo Kanazawa, Aleksander Holynski, Noah Snavely
-
机构:Google DeepMind,加州大学伯克利分校,密歇根大学
-
链接:https://arxiv.org/abs/2412.04463
-
项目:https://mega-sam.github.io/
该论文提出了一个系统,能够从日常的单目动态视频中准确、快速且稳健地估计相机参数和深度图。大多数传统的运动恢复结构和单目 SLAM 技术都假设输入视频主要为静态场景,且存在大量视差。在缺乏这些条件的情况下,此类方法往往会产生错误的估计。近期基于神经网络的方法试图克服这些挑战。然而,此类方法在处理相机运动不受控制或视野未知的动态视频时,要么计算成本高昂,要么性能脆弱。
该论文展示了一个深度视觉 SLAM 框架的惊人有效性:通过对其训练和推理方案进行精心修改,该系统可以扩展到现实世界中相机路径不受约束的复杂动态场景视频,包括相机视差较小的视频。在合成视频和真实视频上进行的大量实验表明,与之前和同期的研究相比,该系统在相机姿态和深度估计方面显著提高了准确性和稳健性,并且运行时间更快或相当。

从随意捕获的动态场景的单目视频中,MegaSaM 可以准确、快速和稳健地估计相机和场景结构。
论文 2:Navigation World Models

-
作者:Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
-
机构:Meta FAIR,纽约大学,伯克利人工智能研究中心
-
链接:https://arxiv.org/pdf/2412.03572
-
项目:https://www.amirbar.net/nwm/
这也是我们之前曾报道过的一项研究成果。整体而言,LeCun 团队的这项导航世界模型(NWM)研究的贡献包括:提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多;使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能;通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。

更多详情请参阅《LeCun 团队新作:在世界模型中导航》。
论文 3:3D Student Splatting and Scooping

-
作者:Jialin Zhu,Jiangbei Yue,贺飞翔、He Wang
-
机构:伦敦大学学院(UCL),利兹大学
-
链接:https://arxiv.org/abs/2503.10148
近年来,3D 高斯泼溅(3D Gaussian Splatting,3DGS)为新型视图合成提供了一个新的框架,并掀起了神经渲染及相关应用领域的新一轮研究浪潮。随着 3DGS 逐渐成为众多模型的基础组件,任何对 3DGS 本身的改进都可能带来巨大的收益。本文中,研究者致力于改进 3DGS 的基本范式和构成。
研究者认为,作为非正则化的混合模型,它既不需要是高斯分布,也不需要是泼溅。为此,他们提出了一个新的混合模型,该模型由灵活的学生分布组成,兼具了正密度(Splatting)和负密度(Scooping)特性。
研究者将该模型命名为 Student Splatting and Scooping(SSS)。SSS 在提供更好表达能力的同时,也为学习带来了新的挑战。因此,他们还提出了一种新的原则性采样优化方法。
根据对多个数据集、设置和指标的详尽评估和比较,研究者证明了 SSS 在质量和参数效率方面均优于现有方法。下图为本文方法与现有基线的比较。

论文 4:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

-
作者:Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang 等
-
机构:艾伦人工智能研究所,华盛顿大学,宾夕法尼亚大学
-
链接:https://arxiv.org/pdf/2409.17146
-
项目:https://allenai.org/blog/molmo
同样,这也是一篇我们曾经报道过的论文,其中提出了可比肩当时前沿模型的开源模型。其实现在也是如此,当今最先进的视觉语言模型 (VLM) 仍然是专有的。最强大的开放权重模型严重依赖来自专有 VLM 的合成数据来实现良好的性能,这样才能有效地将这些封闭的 VLM 蒸馏为开放的 VLM。因此,社区一直缺乏关于如何从头构建高性能 VLM 的基础知识。
而该团队推出的 Molmo 就为此做出了贡献。这是一个全新的 VLM 系列,在同类开放模型中处于领先地位。该研究的主要贡献是一组名为 PixMo 的新数据集,其中包括一个用于预训练的高精度图像字幕数据集、一个用于微调的自由格式图像问答数据集以及一个创新的 2D 指向数据集,所有这些数据集均无需使用外部 VLM 即可收集。
实际上,该方法的成功依赖于谨慎的模型选择、经过精心调优的训练流程,以及他们新收集的数据集的质量。实际效果也非常不错,他们开源的 72B 模型不仅在开放权重和数据模型方面胜过其他模型,而且还胜过更大的专有模型,包括 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Flash,在学术基准和大量人工评估方面均仅次于 GPT-4o。

更多详情,请访问《号称击败 Claude 3.5 Sonnet,媲美 GPT-4o,开源多模态模型 Molmo 挑战 Scaling law》。
最佳论文候选名单
除了这些获奖论文,CVPR 官方也公布了获奖论文的候选名单。这些论文同样值得一看,比如商汤及南洋理工 S-Lab 合作的论文「TacoDepth」为雷达 – 相机深度估计提供了新思路,而英伟达的 FoundationStereo 则是一个旨在实现零样本泛化能力的用于立体深度估计的基础模型。

感兴趣的读者请访问这里查看详情:
https://cvpr.thecvf.com/virtual/2025/events/AwardCandidates2025
最佳学生论文
Neural Inverse Rendering from Propagating Light

-
作者:Anagh Malik、Benjamin Attal 、Andrew Xie 、Matthew O’Toole 、David B. Lindell
-
机构:多伦多大学、Vector Institute、CMU
-
论文地址:https://arxiv.org/pdf/2506.05347
-
论文主页:https://anaghmalik.com/InvProp/
本文提出了首个基于物理的多视角动态光传播神经逆渲染系统。该方法依赖于神经辐射缓存的时间分辨扩展 —— 这是一种通过存储从任意方向到达任意点的无限反射辐射来加速逆向渲染的技术。由此产生的模型能够准确地计算直接和间接光传输效应,并且当应用于从闪光激光雷达系统捕获的测量结果时,能够在强间接光存在的情况下实现最先进的三维重建。此外,本文还演示了传播光的视图合成、将捕获的测量结果自动分解为直接和间接分量,以及诸如对捕获场景进行多视图时间分辨重新照明等新功能。

本方法相较于基线方法能够重建更精确的法线信息,并在强度图像还原方面达到相当或更优的质量。

最佳学生论文荣誉提名
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

-
作者:Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang
-
机构:浙江大学,南洋理工大学,北京大学,华为新加坡研究中心
-
链接:https://arxiv.org/pdf/2504.14666
-
项目页面:https://ddt-llama.github.io/
近期,多模态大语言模型(MLLMs)的研究致力于通过结合大语言模型(LLM)和扩散模型来统一视觉的理解与生成。现有的方法依赖于空间视觉 token,即图像块按照空间顺序(例如光栅扫描)进行编码和排列。然而,该团队发现空间 token 缺乏语言所固有的递归结构,因此对于大语言模型来说,这是一种无法掌握的语言。
针对此问题,该团队构建了一种合适的视觉语言,可通过利用扩散时间步来学习离散的、递归的视觉 token。

该团队提出的 token 可随着时间步的增加,递归地补偿噪声图像中逐渐损失的属性,使扩散模型能够在任何时间步重建原始图像。这种方法能够有效地整合大语言模型在自回归推理方面的优势以及扩散模型在精确图像生成方面的优势,在一个统一的框架内实现无缝的多模态理解和生成。
其他奖项
年轻研究者奖
本次大会颁发了两个年轻研究者奖,获奖者为加州大学圣迭戈分校副教授 Hao Su 和纽约大学计算机科学助理教授谢赛宁。该奖项每年颁发给在计算机视觉领域做出杰出研究贡献的年轻研究人员,不过这些研究人员获得博士学位算起不能超过七年。

Hao Su,北京航空航天大学应用数学博士、斯坦福大学数学与计算机科学博士,目前在加州大学圣迭戈分校担任副教授(兼职)。他的研究领域涵盖了计算机视觉、计算机图形学、机器学习和通用人工智能以及机器人技术。去年,他参与创办了一家名为 Hillbot 的机器人公司,并担任 CTO。目前,他的论文被引量已超过 12 万。

谢赛宁 2013 年本科毕业于上海交通大学;2018 年,他在加州大学圣迭戈分校的计算机科学与工程系获得博士学位,主要研究方向为深度学习和计算机视觉。之后,他曾任 Facebook 人工智能研究室(FAIR)研究科学家,并在 2022 年和 William Peebles 合作发表了 DiT 论文,首次将 Transformer 与扩散模型结合到了一起。目前谢赛宁的论文被引量已经超过 7.5 万。

Longuet-Higgins 奖
Longuet-Higgins 奖可以理解为时间检验奖。今年的奖项颁给了两篇论文。
第一篇是 Christian Szegedy、Wei Liu、贾扬清等人 2015 年发表在 CVPR 上的 「Going Deeper with Convolutions」(隶属谷歌)。

这篇论文提出了著名的深度卷积神经网络架构 Inception,它在 2014 年 ImageNet 大规模视觉识别挑战赛(ILSVRC2014)中达到了分类和检测领域的新高度。该架构的主要特点是提高了网络内部计算资源的利用率。
这也是贾扬清被引次数最多的论文,已经超过 6.7 万次。

第二篇是 UC 伯克利 Jonathan Long、Evan Shelhamer、Trevor Darrell 2015 年在 CVPR 发表的「Fully Convolutional Networks for Semantic Segmentation」。

这篇论文的关键在于它开创性地建立了一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络。在这篇文章中,作者定义了全卷积神经网络 (FCN) 的空间结构、解释了 FCN 在空间密集型预测任务上的应用并且给出了他与之前其他网络之间的联系。它启发了很多后续研究。
目前,这篇论文的引用量已经超过 4.9 万。

Thomas S. Huang 纪念奖
Thomas S. Huang 纪念奖于 CVPR 2020 设立,并于 CVPR 2021 起每年颁发,以表彰在研究、教学 / 指导和服务计算机视觉领域中被认可为典范的研究人员。该奖项旨在纪念已故的 Thomas S. Huang(黄煦涛)教授,他是一位在计算机视觉和图像处理等多个领域留下深刻影响的先驱学者,也是为社区几代研究人员的成长和福祉做出贡献的典范。
该奖项每年颁发一次,授予获得博士学位至少 7 年的研究人员,最好是在职业生涯中期(不超过 25 年)。所有计算机视觉领域的研究人员都将被考虑。该奖项包括 3000 美元的现金奖励和一块奖牌。
今年的获奖者是德克萨斯大学奥斯汀分校计算机科学系的教授 Kristen Grauman,她领导着该大学的计算机视觉研究组。

CVPR 2025 还将持续到本周日,我们会保持跟进。
©
(文:机器之心)