
极市导读
英伟达提出了DIFIX3D+框架,结合单步图像扩散模型和渐进式3D模型优化策略,显著提升了基于NeRF和3DGS的3D重建与新视角合成质量,尤其在欠约束区域的渲染效果和多视角一致性方面表现出色。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
近年来,基于神经渲染的三维重建技术,尤其是Neural Radiance Fields(NeRF)和3D Gaussian Splatting(3DGS),在新视角合成(Novel View Synthesis, NVS)领域取得了突破性进展。它们通过学习隐式或显式的场景表示,实现了从多视角输入图像生成高质量、逼真3D渲染的目标。尽管如此,当面对较为稀疏的输入视角或极端的新颖视角时,当前方法仍存在明显不足,主要表现为伪影、结构模糊和渲染不一致等问题。这严重限制了这类技术在实际应用中的普适性和鲁棒性。在本文中,作者介绍了一种名为DIFIX3D+的新型框架,结合了单步图像扩散模型(DIFIX)的高效修复能力和渐进式3D模型优化策略,旨在提升基于NeRF和3D 3DGS的3D重建与新视角合成质量。
DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
摘要
近年来,基于神经渲染的3D重建技术,在新视角合成任务中取得了显著进展,但在欠约束区域仍存在伪影和一致性不足的问题。受此启发,本文提出了DIFIX3D+,一种结合单步图像扩散模型的3D重建增强框架。DIFIX3D+通过两个关键步骤实现提升:首先,基于单步扩散模型的图像修复模块(DIFIX)对渲染视图中的伪影进行修正,生成高质量的伪训练视图;其次,采用渐进式3D更新策略,将修复后的视图蒸馏回3D表示,逐步增强欠约束区域的重建质量。该方法兼容NeRF与3DGS两类表示形式,并支持实时渲染阶段的神经后处理,无需复杂优化。论文在多个公开数据集和真实场景中验证了方法的有效性,实验结果显示DIFIX3D+在图像质量和多视角一致性方面均优于现有方法。
论文链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Wu_DIFIX3D_Improving_3D_Reconstructions_with_Single-Step_Diffusion_Models_CVPR_2025_paper.pdf
代码链接:https://research.nvidia.com/labs/toronto-ai/difix3d/
方法概述
给定一组RGB图像及其对应的相机位姿,本文旨在重建一个高质量的三维表示,使其能够从任意视角生成逼真的新视角图像,尤其关注对距离输入相机较远、欠约束区域的合成质量。为实现这一目标,本文充分利用预训练扩散模型所蕴含的强大生成先验,主要在两个阶段发挥作用:一是在优化过程中,迭代生成更为清晰的伪训练视图,以提升欠约束区域的三维表示质量;二是在推理阶段,作为实时后处理手段,有效去除因训练监督不足或三维模型容量限制带来的残余伪影。
首先,本文介绍了如何将预训练扩散模型调整为图像到图像的转换模型,专门用于消除神经渲染过程中出现的伪影,并详细阐述了用于微调该模型的数据构建和监督策略。随后,展示了如何基于该微调模型,提升三维表示的新视角合成质量。图2展示了整个DIFIX3D+管道的工作流程,图3则给出了DIFIX扩散模型的具体架构。

DIFIX:从预训练扩散模型到3D伪影修复器实例分割模块(ISM)
给定一幅可能包含三维表示伪影的渲染新视角图像 和一组干净的参考视图 ,模型旨在生成修复后的预测新视角图像 。基于单步扩散模型SD-Turbo构建该修复器,该模型在图像到图像转换任务中表现出高效且出色的性能,使得推理阶段能够实现实时处理。
参考视图条件
将模型的条件输入设置为一组干净的参考视图 ,实际操作中通常选取与目标视角最邻近的训练视图。借鉴视频及多视角扩散模型[的思路,将自注意力层改造为参考混合层,以捕获视角间的交叉依赖。具体做法是将新视角图像 和参考视图 沿视角维度拼接,并编码到潜空间中:

其中 是潜在通道数, 是视角数量(包括参考视角和目标视角), 是空间潜在尺寸。参考混合层通过调整张量形状并在视角与空间维度上应用自注意力机制,实现视角间信息的交互:

其中\operatorname{li}_\phi表示作用于维度v h w上的自注意力层。该设计允许继承预训练2D自注意力模块的所有权重,且有效捕获参考视图中的关键信息(如物体、颜色和纹理),特别是在原始渲染视图质量较差时表现尤为出色。图3给出了DIFIX扩散模型的具体架构。

微调过程
本文参考了Pix2pix-Turbo的训练方法,采用冻结的VAE编码器和通过LoRA微调的解码器。与Image2Image-Turbo类似,模型的输入是带有伪影的渲染图像\tilde{I},而非随机添加的高斯噪声。本文选择了较低的噪声水平(τ=200),这一设置基于实验观察发现:神经渲染产生的图像伪影的分布与扩散模型训练时对应噪声水平下的图像分布高度相似。实验证明,在噪声水平τ=200下进行单步去噪,既能有效去除伪影,又能保持图像的上下文信息完整性,且在定量指标上表现最佳。
损失函数
模型训练采用多重监督损失,包括:
• 像素级L2重建损失,度量输出图像\tilde{I}与真实图像的差异; • 感知损失LPIPS,用以提升修复图像的细节质量;
• 基于VGG-16特征的风格损失(Gram矩阵损失),促进图像细节的锐化和纹理还原。最终损失函数为这三项加权和:

数据构建
为了有效监督模型训练,本文构建了一个包含神经渲染伪影图像与对应干净真实图像的大规模配对数据集。针对多数新视角合成数据集视角重叠度高、稀疏重建效果有限的问题,设计了多种数据增强策略:包括在接近线性轨迹数据上通过循环重建生成多视角伪影样本;故意缩短训练周期制造欠拟合模型以产生更显著伪影;以及在多摄像头场景中利用部分摄像头训练并用其他摄像头视角渲染生成带伪影输入,同时保证视觉一致性。该多策略数据构建为DIFIX模型提供了丰富多样的训练样本,有效提升了其去伪影能力。

DIFIX3D+:基于扩散先验的新视角合成姿态估计模块(PEM)
经过训练的DIFIX扩散模型可以直接应用于推理阶段,用以提升渲染的新视角图像质量(详见表4中的方案(a))。然而,由于扩散模型的生成特性,不同视角或帧之间可能存在不一致,尤其是在欠观测区域和噪声较多的区域,模型需生成高频细节或大范围内容时,这种不一致问题尤为明显。
为解决这一问题,本文采用了将扩散模型输出反向蒸馏回三维表示的策略。在训练过程中,将经DIFIX修复的视图纳入训练集以优化三维模型,这不仅提升了多视角之间的一致性,也显著改善了新视角图像的感知质量。此外,在推理渲染阶段,DIFIX还被用作实时神经后处理步骤,进一步去除残余伪影。
DIFIX3D:渐进式三维更新
为了实现多视角一致性并高度还原输入视角,扩散模型对渲染的新视角图像及参考视图的强条件依赖至关重要。当目标新视角轨迹距离输入视角过远时,条件信号会变弱,扩散模型不得不进行更多“补全”或“幻想”,使修复难度显著增加。
因此,本文采用了类似Instruct-NeRF2NeRF的迭代训练方案,通过逐步扩展可渲染的三维信息集合,使其能够多视角一致地覆盖更多新视角,从而增强扩散模型的条件输入。具体而言,给定一组目标视角,训练流程如下:
-
初始阶段先使用参考视角优化三维场景表示; -
每进行约1500次训练迭代后,轻微扰动目标视角对应的真实相机位姿,渲染出新的新视角图像; -
利用训练的扩散模型对该图像进行修复; -
将修复后的图像加入训练集,继续进行1500次训练迭代。
通过逐步扰动相机位姿、修复新视角图像并更新训练集,该方法实现了渐进式的三维一致性提升,确保目标视角下的渲染图像具备高质量且无伪影。
这一渐进式过程不断增加参考视角与目标视角之间三维信息的重叠,最终实现了多视角一致且无伪影的高质量渲染。
DIFIX3D+:实时渲染后期处理
由于在蒸馏过程中增强的新视角图像仍存在轻微的多视角不一致性,且当前三维重建方法在锐利细节表达上的能力有限,部分区域渲染结果仍显模糊。
为进一步提升新视角图像质量,本文在渲染推理阶段引入扩散模型作为最终的后期神经处理步骤,显著改善了所有感知指标,同时保持了较高的多视角一致性。得益于DIFIX采用的单步扩散架构,该后期处理仅额外增加约76毫秒的渲染时间(基于NVIDIA A100 GPU测试),相比传统的多步扩散模型推理速度提升超过十倍,满足了近实时处理的需求。
实验
本文首先在自然场景中评估DIFIX3D+,验证其对NeRF和3DGS两种骨干方法的增强效果。随后,在自动驾驶场景数据集上进一步评测该方法的泛化能力与实用价值。最后通过消融实验分析方法各组成部分的贡献。
自然场景中的伪影去除
在自然场景下,DIFIX3D+对NeRF和3DGS骨干模型进行了增强验证。基于DL3DV和Nerfbusters数据集,采用PSNR、SSIM、LPIPS和FID四项指标进行量化评估。结果显示,DIFIX3D+在所有指标上均显著优于基线及多种先进方法,尤其在感知质量和视觉真实感(LPIPS、FID)提升明显,同时保持较高的色彩还原度(PSNR)。定性分析也展示了其对大范围视角伪影的有效修正和多视角连贯性。


自动驾驶场景增强
在自动驾驶真实场景(RDS)数据集上,DIFIX3D+结合NeRF骨干模型进行了泛化性能测试。训练阶段仅使用中心摄像头数据,测试则评估另外两台摄像头视角的合成效果。通过与基础NeRF模型及NeRFLiX方法的对比,采用与上一节相同的评价指标,结果显示DIFIX3D+在所有指标上均显著优于对比方法。定性分析(见图6)进一步验证了其在复杂动态驾驶环境中有效减少伪影、提升视觉质量的能力。


消融分析
(1)组件分析
本文对DIFIX3D+的各个模块进行了逐步评估,基于Nerfacto骨干模型测试了以下方案:
(a)直接在渲染图像上应用DIFIX,无三维更新;
(b)将DIFIX修复结果以非递增方式蒸馏回三维模型;
(c)采用递增式三维更新蒸馏;
(d)在渲染推理阶段增加DIFIX后期神经处理。
实验结果显示,单独应用DIFIX虽提升了参考视角附近的图像质量,但欠约束区域表现有限且存在闪烁现象。引入三维蒸馏显著改善了渲染质量,其中递增式更新优于非递增式。最终,后期处理进一步提升了图像清晰度和感知指标,验证了各模块的有效性和协同增益。


(2)DIFIX训练策略分析
本文方法与pix2pix-Turbo进行了对比,后者采用较高噪声水平(τ=1000),且未使用参考视图条件和风格损失。实验结果(见表5)表明,降低噪声水平、引入参考视图条件以及加入Gram损失,均显著提升了修复效果。较低的噪声水平有效避免了过度生成导致的上下文偏离问题,从而增强了模型的泛化能力。

总结
本文提出的DIFIX3D+框架创新性地将单步图像扩散模型应用于3D重建与新视角合成任务,通过联合优化图像修复与三维表示更新,显著提升了欠约束区域的渲染质量与多视角一致性。多样化的数据构建策略与渐进式三维更新机制有效增强了模型的泛化能力和细节还原水平。实验结果充分验证了DIFIX3D+在多个公开及真实场景数据集上的优越性能,展示了其在实际应用中实现高质量、实时3D视觉表现的潜力。未来,随着扩散模型技术的不断发展,DIFIX3D+为高效精准的三维重建开辟了新的研究方向和应用前景。
(文:极市干货)