DIB-R++

基本信息

项目 内容
论文标题 DIB-R++: Learning to Predict Lighting and Material with a Hybrid Differentiable Renderer
作者 Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang, Clement Fuji Tsang, Sameh Khamis, Or Litany, Sanja Fidler
作者单位 NVIDIA
时间 2021
发表会议/期刊

方法概览

特点 文章性质
输入 单张RGB图像
输出 三维网格(Mesh)以及材质参数(漫反射反照率、粗糙度、镜面反照率等)和光照参数(环境光照图或球面高斯系数)
所属领域 单视图三维重建(无监督)

一、摘要精简

DIB-R++ 提出一种混合可微渲染器,结合光栅化的速度优势与光线追踪的真实感优势,支持非朗伯反射等真实世界常见的高光效果。该渲染器集成环境光照和空间变化材质模型,通过蒙特卡洛(MC)采样或球面高斯(SG)基两种方式高效近似光传输。相较于基于路径追踪的物理基可微渲染器,DIB-R++ 凭借紧凑高效的着色模型,可轻松集成到学习框架中,实现无 3D 监督的单图像几何、反射率与光照联合预测。实验表明,其在合成与真实数据上的材质和光照解纠缠性能优于现有光栅化基方法,并支持材质编辑、重新打光等艺术化应用。


二、引言与动机

  • 问题::

    • 物理基方法(如路径追踪)能建模完整光传输,但计算成本高、需精细初始化,难以融入大规模端到端学习;性能导向的光栅化基方法(如 DIB-R)虽高效,但假设朗伯反射和低频光照,无法建模真实世界中普遍存在的高光、镜面反射等复杂效果。
    • 同时,单图像逆渲染(联合估计几何、材质、光照)是计算机视觉的经典难题,现有方法多依赖强监督或特定数据先验,泛化性差。
    • 因此,DIB-R++ 的出发点是构建一种兼顾速度与真实感的混合可微渲染框架,突破朗伯反射假设,实现无 3D 监督的单图像逆渲染,精准解纠缠几何、材质与光照,填补现有方法在真实感与实用性之间的缺口。
  • 出发点:设计一种混合可微分渲染器,结合光栅化与光线追踪的优势,从单张图像中联合推断几何、材质和光照,解决无监督逆渲染问题。


三、创新点

  1. 混合可微渲染架构:首次将光栅化与光线追踪结合,通过延迟着色流水线实现高效逆渲染。光栅化阶段快速生成几何缓冲区(G-buffer,含表面法向量、材质参数、掩码),着色阶段通过 MC 采样或 SG 基近似光传输,兼顾渲染速度与真实感。
  2. 双模式着色模型:支持两种互补的着色方案 ——MC 采样适合镜面反射强的金属材质(低样本数即可精准估计),SG 基适合粗糙表面(解析积分无噪声、计算高效),可根据材质类型自适应选择,覆盖广泛的表面反射特性。
  3. 物理基材质与光照建模:采用简化的 Disney BRDF 模型,统一建模金属与非金属材质(含漫反射反照率、粗糙度、金属度、高光反照率参数);光照支持环境贴图(MC 模式)或球面高斯混合(SG 模式),可精准捕捉高频光照细节。
  4. 无监督单图逆渲染流水线:基于 U-Net 架构预测 Mesh 参数、材质与光照,通过渲染图像与输入图像的一致性损失闭环优化,无需 3D 监督、相机姿态或光照先验,可泛化到真实图像场景。

四、网络架构

DIB-R++ 的核心架构为 “预测网络 + 混合可微渲染器” 的闭环系统:

  1. 预测网络:采用 U-Net 架构,输入为单张 RGB 图像,输出三类参数:

    • 几何参数:固定拓扑 Mesh(642 个顶点)的顶点偏移量,控制 Mesh 形状变形;
    • 材质参数:256×256 漫反射反照率纹理图,以及全局粗糙度(β)、金属度(m)、高光反照率(s);
    • 光照参数:MC 模式下为 256×256 RGB 环境贴图,SG 模式下为 K 个球面高斯基的参数(轴 ξ、锐度 λ、振幅 μ)。
  2. 混合可微渲染器:分为两阶段延迟着色:

    • 光栅化阶段:基于 DIB-R 的可微光栅器,将 Mesh 渲染为 G-buffer,包含表面交点、法向量、材质参数和前景掩码;
    • 着色阶段:根据材质类型选择 MC 或 SG 模式,输入 G-buffer、材质和光照参数,计算出射辐射度,生成渲染图像。
  3. 优化闭环:渲染图像与输入图像计算损失,梯度通过渲染器反向传播至预测网络,迭代优化所有参数。

  • 整体流程:两阶段可微分渲染
    1. 光栅化阶段:使用 DIB-R 可微分光栅化器生成几何缓冲区(G-buffers),包括表面位置 xpx_p、法线 npn_p、漫反射反照率 $ heta_p$ 和可见性掩码 vpv_p
    2. 着色阶段:基于几何缓冲区,使用 MC 或 SG 着色模型计算 outgoing radiance,生成最终图像。
  • 预测网络:采用 U-Net 架构,输入单张图像,输出网格顶点偏移、纹理贴图、全局材质参数和光照参数。

五、特征提取

  • 网络输出:卷积神经网络(U-Net)从输入图像提取特征,预测以下参数:
    • 形状参数 π\pi:网格顶点偏移(从球体变形)
    • 材质参数 $ heta$:漫反射反照率(纹理贴图)、粗糙度 eta、镜面反照率 ss、金属度 mm
    • 光照参数 γ\gamma:HDR 环境贴图或球面高斯系数
  • 参数映射:U-Net 解码器将提取的图像特征分别映射为几何偏移量、材质参数图和光照参数,其中材质参数图通过转置卷积层恢复 256×256 分辨率,光照参数通过全连接层输出向量或矩阵形式。
  • 特征融合:在渲染器的着色阶段,G-buffer 中的几何特征(法向量、位置)与预测的材质、光照特征深度融合,通过光传输模型计算像素颜色,实现特征到图像的映射。将预测的参数输入可微分渲染器进行渲染,并通过损失函数反向传播更新网络。

六、生成的三维模型细节

  • 输出类型:三维网格 + 纹理贴图(漫反射反照率) + 材质参数 + 光照参数
  • 是否带贴图材质:是,但贴图仅包含漫反射颜色,高光等效果由独立的材质参数和光照模型控制
  • 表面细节:可生成具有复杂反射特性(如镜面高光)的表面,但材质参数为全局或低维,无法捕捉极高频率的空间变化

七、三维模型生成步骤

  1. 初始化:设定固定拓扑的基础 Mesh(球体),初始化预测网络(U-Net)参数。

  2. 输入单张图像,通过 U-Net 预测形状、材质和光照参数。

  3. 可微分光栅化:使用预测的形状和纹理生成几何缓冲区。

  4. 可微分着色:根据几何缓冲区和预测的光照,使用 MC 或 SG 着色模型计算像素颜色。

    1. MC 模式:重要性采样 K 个光照方向,计算 BRDF 值与入射辐射度,加权平均得到像素颜色;
    2. SG 模式:将 BRDF 和光照投影到 SG 基,通过解析积分计算出射辐射度。
  5. 损失计算:计算渲染图像与输入图像的多损失(L1、IoU、感知损失等),通过反向传播更新预测网络参数,迭代至收敛。

  6. 反向传播:通过可微分渲染器将梯度传回预测网络,更新网络参数。

  7. 输出结果:收敛后输出最终的 Mesh、材质参数和光照参数,支持重新渲染、材质编辑等后续操作。


八、相关工作与实验比较

参考的之前工作

  1. 可微渲染:DIB-R(光栅化基可微渲染器)、物理基可微渲染(路径追踪、光线采样,如 Mitsuba 2)、球面高斯(SG)基光传输近似。
  2. 逆渲染与 3D 重建:StyleGAN(生成合成训练数据)、NeRD/PhySG(非朗伯反射与光照估计)、U-Net(图像特征提取与参数预测)。
  3. 材质与光照建模:Disney BRDF(物理基材质模型)、环境贴图(光照表示)、蒙特卡洛积分(光传输计算)。

对比的工作

  1. 核心对比对象:DIB-R(光栅化基 baseline,仅支持朗伯反射)、Zhang et al. (2020)(基于 DIB-R 与 StyleGAN 的逆渲染方法)。
  2. 评价指标:
    • 图像一致性:L1 损失(渲染图像与输入图像的像素距离);
    • 掩码精度:2D IoU(渲染前景掩码与输入掩码的重叠度);
    • 解纠缠质量:归一化互相关(NCC),衡量预测材质 / 光照与真值的相似度(越低越好)。

九、损失函数

总损失函数为多个损失的加权和:

\mathcal{L}( artheta) = lpha_{ ext{im}} \mathcal{L}_{ ext{im}}( ilde{I}, I) + lpha_{ ext{msk}} \mathcal{L}_{ ext{msk}}( ilde{V}, V) + lpha_{ ext{per}} \mathcal{L}_{ ext{per}}( ilde{I}, I) + lpha_{ ext{lap}} \mathcal{L}_{ ext{lap}}(\pi)

其中:

  • Lextim\mathcal{L}_{ ext{im}}:图像 L1 损失
  • Lextmsk\mathcal{L}_{ ext{msk}}:掩码 IoU 损失
  • Lextper\mathcal{L}_{ ext{per}}:感知损失(基于 AlexNet 特征)
  • Lextlap\mathcal{L}_{ ext{lap}}:拉普拉斯正则化损失(平滑形状)
    权重设置为:lpha_{ ext{im}}=20, lpha_{ ext{msk}}=5, lpha_{ ext{per}}=0.5, lpha_{ ext{lap}}=5

十、数据集

训练数据集

  • 来源 1:合成数据集 ——TurboSquid 的 485 个汽车 3D 模型,HDRI Haven 的 438 个 HDR 环境图,生成两类数据:Metallic-Surfaces(β=0,m=1)和 Glossy-Surfaces(m=0,s=1,β∈[0,0.4]);
  • 来源 2:StyleGAN 生成数据集 ——StyleGAN 生成的多视图汽车和人脸图像,模拟真实场景的光照与材质变化。
  • 输入:单张 RGB 图像(合成数据含真值掩码,真实数据自动提取掩码);
  • 输出:Mesh 顶点偏移量、材质参数、光照参数(真值用于合成数据验证,训练时无监督)。

测试数据集

  • 来源 1:合成测试集 —— 与训练集同分布的汽车图像,含材质、光照真值;
  • 来源 2:真实测试集 ——LSUN 数据集的真实汽车图像,无真值,仅做定性评估。
  • 输入:单张 RGB 图像;
  • 输出:重建的 Mesh、材质和光照参数,通过渲染图像与输入图像的视觉一致性、材质 / 光照解纠缠效果评估。

十一、消融实验组件

  1. 着色模型对比:比较蒙特卡洛(MC)与球面高斯(SG)着色在金属和光滑表面上的性能。
  2. 粗糙度影响:分析不同表面粗糙度下两种着色模型的效果。
  3. 光照表示对比:对比 SG 表示与 HDR 环境贴图在参数效率和细节保留上的差异。
  4. 无监督泛化:在 StyleGAN 生成数据和真实 LSUN 数据上测试模型泛化能力。
  5. 材质参数分析:检查预测的材质参数(粗糙度、镜面反照率)与真实值的一致性。

十二、其他亮点

  • 应用展示:支持材质编辑(修改漫反射贴图、调整光泽度)和场景重光照(旋转光照方向)。
  • 真实图像泛化:尽管仅在合成数据上训练,模型能较好地泛化到真实图像。
  • 计算效率:SG 着色提供解析解,避免了昂贵的蒙特卡洛采样,加速训练和推理。