HRAvatar团队 投稿
量子位 | 公众号 QbitAI
在数字人、虚拟主播、AR/VR等场景快速发展背景下,如何高效生成真实、可动、可重光照的3D头像成为关键。
来自清华和IDEA的研究团队,联合开发了HRAvatar(High-Quality and Relightable Gaussian Head Avatar),一种基于单目视频的3D高斯头像重建方法。采用可学习形变基和线性蒙皮技术,实现灵活且精确的几何变形,并通过精准的表情编码器减少追踪误差,提升重建质量。

相关研究论文已成功被国际计算机视觉与模式识别会议CVPR 2025录用。

HRAvatar:从单目视频到可重光照头像化身的突破
创建3D头像化身对于电影、游戏、沉浸式会议、AR/VR等领域至关重要。在这些应用中,头像化身必须满足几个要求:可动画化、实时、高质量和视觉上逼真。
然而,从易获取的单目视频中创建高度逼真且可动画化的头像仍然具较大的挑战性。尽管基于3D 高斯(3DGS)的方法在可动画性和实时渲染方面取得进展,但其重建质量仍受三方面限制。
几何变形灵活性不足:现有方法依赖通用参数模型(3DMM)驱动高斯点变形,难以准确捕捉个性化表情变化;
表情追踪不准确:训练前通过2D关键点拟合获取表情参数不够准确,直接优化表情参数则泛化性差,需在测试时进行后优化;
无法实现真实重光照:在单目未知光照下直接拟合头像外观颜色,无法解耦头像本征外观与环境光照,而难以在新环境光下实现重光照渲染。
为解决上述问题,该方法提出HRAvatar,一种基于3D高斯点实现从单目视频到高质量、可重光照且可驱动的虚拟头像化身重建。
该方法通过可学习的形变基与蒙皮权重策略,实现高斯点从标准姿态到各种表情和姿态的灵活变形。同时,引入端到端的表情编码器,提升表情参数提取准确性,减少预追踪参数误差对重建的影响,并确保一定的泛化能力。
为实现真实重光照,该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性,并引入反照率伪先验以更好解耦材质信息,使用简化的BRDF物理模型进行着色。
整体方法在保证实时性的前提下,实现了细节丰富、表现力强且支持重光照效果的虚拟头像重建。
HRAvatar架构剖析

精确表情追踪
现有面部跟踪方法获取的表情参数不够准确,为解决表情参数误差影响面部重建质量的问题,该方法提出使用表情编码器,更精确提取表情参数。
编码器与3D头像重建联合优化,实现端到端的训练,利用高斯重建损失进行监督,提高重建准确性。

几何变形模型
该方法使用形变模型将高斯点从标准空间变换到姿态空间,实现基于表情和姿态参数的变形。
为解决通用参数模型难以还原个性化变形的问题,提出自适应学习每个点的形变基与混合蒙皮权重,实现更灵活、精确的几何变形。
类似FLAME模型,采用可学习的线性形变基(Linear Blendshapes)建模几何位移,对每个高斯点引入三个可学习属性:形状基,表情基,姿态基。
完成线性位移形变后,通过线性蒙皮将高斯点变换到姿态空间。每个高斯点配备一个可学习的混合权重属性,用于适应个体的姿态变形。

为简化和加速训练收敛,该方法依赖FLAME模型的几何与形变先验进行初始化:对FLAME网格面进行插值,初始化高斯点位置。采用相同插值策略初始化形变基和蒙皮权重。
外观建模
相比3DGS使用球谐函数建模点的外观,该方法采用一种新的外观建模方法,将外观分解为三个属性:反照率、粗糙度和菲涅尔基础反射率,并采用BRDF物理渲染模型进行着色。
为提升效率,进一步引入SplitSum近似技术,对环境光照图进行预计算,从而实现高质量、可重光照的实时渲染。
该方法使用光栅化器渲染出反照率图、粗糙度图、反射率图和法线图。接着,计算镜面反射和漫反射图:
并使用近似的菲涅尔方程来计算镜面反射系数 :

最终的着色图像由漫反射和镜面反射图相加得到。
法线估计。平滑且准确的法线对于物理渲染至关重要,该方法使用每个高斯点的最短轴作为其法线。为确保方向正确和几何一致性,该方法通过深度导数获得的法线图来监督渲染的法线图。

材质先验。在恒定未知光照下解耦材质属性具有不适定性,非均匀光照下重建容易误将局部光照混入反照率,导致不真实重光照结果。该方法使用现有模型提取伪真实反照率,监督渲染反照率,并限制粗糙度和基础反射率在预定义范围内,以获得更真实材质。

真实细节与实时性能兼得:HRAvatar 实验结果全维度领先
实验设置:
该方法在INSTA数据集的10个对象、HDTF数据集的8个对象和5个手机自采集对象上评估了不同方法,使用每个视频的最后350帧(INSTA)或500帧(HDTF、自采集)作为测试集。所有方法采用相同裁剪和分割流程,确保评估一致性和可靠性。图像质量通过 PSNR、MAE、SSIM 和 LPIPS 指标进行评估。
实验结果:
该方法在所有指标上均优于现有方法,尤其是在LPIPS上表现突出,表明重建的头像细节更丰富、质量更高。
此外,该方法在驱动和重光照设定下测试了渲染速度,达到约155 FPS的实时性能。
应用:
重建的头像化身除了可进行驱动,也可以在新的环境光图下进行重光照或简单的材质编辑。
消融实验:
为了验证方法中各个组件的有效性,论文中进行了详细的消融实验。
以上实验结果表明,HRAvatar在整体质量上优于现有方法,支持高质量的实时重光照和简单的材质编辑。
HRAvatar的提出拓展了单目高斯虚拟头像建模的应用场景,目前,相关代码已全面开源,欢迎关注与使用。
论文地址: https://arxiv.org/pdf/2503.08224
项目主页:https://eastbeanzhang.github.io/HRAvatar/
开源代码:https://github.com/Pixel-Talk/HRAvatar
视频Demo:https://www.youtube.com/watch?v=ZRwTHoXKtgc
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)