Hi3DGen

基本信息

项目 内容
论文标题 High-fidelity 3D Geometry Generation from Images via Normal Bridging
作者 Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han
作者单位 The Chinese University of Hong Kong, Shenzhen(香港中文大学深圳校区)
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 标定之后的多视角图像
输出 Mesh
所属领域 MeshMVS

1. 摘要精简

Hi3DGen是一个从单张2D图像生成高保真3D几何的新框架,核心思想是引入法线图作为中间表示来桥接图像与3D几何之间的映射。框架包含三个关键组件:

  1. 图像到法线估计器(NiRNE):通过噪声注入和双流训练,实现鲁棒、稳定且锐利的法线估计。
  2. 法线到几何学习方法(NoRLD):基于法线正则化的潜在扩散学习,提升3D几何生成的保真度。
  3. DetailVerse 数据集,通过文本→图像→3D 的合成流水线,构建 700k 高细节 3D 资产,为训练提供高质量数据支撑。实验表明,该框架在法线估计精度和 3D 几何生成保真度上超越现有 SOTA 方法,且在真实场景图像上具有强泛化性。
    实验表明,Hi3DGen在生成丰富几何细节方面优于现有方法。

2. 引言动机与出发点

现有从2D图像生成3D模型的方法面临三大挑战:

  1. 高质量3D训练数据稀缺,难以学习细节几何特征。且人工创建的资产多结构简单、细节匮乏;
  2. 训练图像(通常来自合成3D网格渲染)与真实图像之间存在领域差距,导致泛化性能下降。
  3. 图像受光照、阴影、纹理干扰,几何信息存在固有歧义,难以提取细粒度细节。为解决这些问题,本文提出以法线图(2.5D 表示)作为中间桥梁:一方面,法线图能提供更明确的几何线索,缓解 RGB 图像的歧义性;另一方面,通过 2D 先验处理 RGB 到法线的映射,可缩小域间隙;最终实现从 2D 图像到 3D 几何的高效、高精度映射。

3. 创新点(单独章节)

3.1 核心创新

  1. 首次引入法线图作为桥接表示:提出Hi3DGen框架,通过法线图桥接2D图像到3D几何的生成,解决现有方法在细节生成上的局限。
  2. 噪声注入回归法线估计器(NiRNE):结合噪声注入与双流训练,在回归框架中实现类似扩散方法的锐利估计,同时保持稳定性。
  3. 法线正则化潜在扩散(NoRLD):在潜在扩散训练中引入在线法线渲染损失,显式约束几何细节,提升生成保真度。
  4. 高质量合成数据集DetailVerse:通过文本→图像→3D的流水线构建包含70万高细节3D资产的数据集,弥补人工创建数据的不足。

3.2 其他创新

  • 双流架构设计:解耦低频(整体结构)和高频(细节)特征学习,提升泛化能力和锐利度。
  • 领域特定训练策略:分阶段使用真实数据(低频学习)和合成数据(高频学习),优化双流表示。
  • 在线法线正则化:在扩散训练过程中实时计算法线渲染损失,而非后处理,确保几何一致性。

image-20251202210457632

4. 网络架构与输入输出

整体框架:Hi3DGen分为三个阶段:

  1. 图像到法线估计(NiRNE)
    • 输入:RGB图像(经预处理,如背景移除、裁剪、缩放至768×768)。
    • 输出:法线图(表面方向图)。
  2. 法线到几何生成(NoRLD)
    • 输入:法线图(背景设为白色)。
    • 输出:3D几何(网格表示)。
  3. 数据合成管道(DetailVerse):用于训练支持,不参与推理。

网络为两阶段端到端框架,核心由三大组件构成:

  1. NiRNE(图像到法线估计器):基于 Stable Diffusion V2.1 修改,含双流编码器(清洁流 + 噪声流)和共享解码器,输入 RGB 图像,输出对应的法线图。
  2. NoRLD(法线到几何生成器):基于 Trellis 扩展,含 VAE(编码 3D 几何到潜空间)、潜扩散网络(带法线正则化),输入 NiRNE 预测的法线图,输出 3D 几何潜码,经解码器生成网格。
  3. DetailVerse 数据集流水线:文本 prompt 筛选→Flux.1-Dev 生成图像→Trellis 生成 3D 资产→质量评估与清洗,构建高质量训练数据。

5. 特征提取方法

1. NiRNE 的特征提取

  • 清洁流:输入 RGB 图像经 VAE 编码后,无噪声注入,通过编码器提取低频特征(全局结构、整体轮廓),保证泛化性。
  • 噪声流:对 VAE 编码后的特征注入 EDM 风格噪声,编码器专注提取高频特征(边缘、纹理细节、表面凹陷),增强细节锐利度。
  • 特征融合:双流特征经多层拼接后输入解码器,通过 ControlNet 式结构保留高低频特征的独立性与互补性。

2. NoRLD 的特征提取

  • 3D 几何特征:VAE 将 3D 网格编码为结构化潜码,捕捉几何的全局结构与局部细节。
  • 法线监督特征:将解码后的 3D 几何从 22 个固定视角渲染为法线图,提取渲染法线的特征,与 ground truth 法线特征对比,提供几何监督。
  • 潜扩散特征:扩散网络对含噪潜码进行去噪,同时融合法线特征的监督信号,引导潜码向高保真几何方向更新。

6. 三维场景生成步骤

1. 图像到法线映射(NiRNE 阶段)

  1. 输入 RGB 图像经背景移除、裁剪为正方形后,resize 至 768×768 分辨率。
  2. 图像经 VAE 编码为潜特征,分别输入双流编码器:清洁流提取低频结构,噪声流提取高频细节。
  3. 双流特征拼接后经解码器输出法线图,推理时不注入噪声以保证稳定性。

2. 法线到 3D 几何生成(NoRLD 阶段)

  1. 预测的法线图与图像条件一同输入潜扩散网络,VAE 将 3D 几何编码为潜码。
  2. 扩散过程中,对去噪后的潜码解码为 3D 几何,渲染为法线图,与输入法线图计算正则化损失,引导模型学习几何细节。
  3. 扩散迭代 50 步后,最终潜码经 VAE 解码器输出 3D 网格。

3. 数据支撑(DetailVerse 阶段)

通过文本 prompt 生成多样化图像,再经 Trellis 转换为 3D 资产,经质量评估后形成 DetailVerse 数据集,为前两阶段提供高质量训练样本。

7. 损失函数设计

总损失结合潜在扩散损失和法线正则化损失:

LNorld=LLDM+λRNormal(x^0)\mathcal{L}_{\text{Norld}} = \mathcal{L}_{\text{LDM}} + \lambda \cdot \mathcal{R}_{\text{Normal}}(\hat{x}_0)

其中:

  • LLDM\mathcal{L}_{\text{LDM}} 是潜在扩散损失(流匹配形式):

    LLDM=Et,x0,xt[vθ(xt,t)u(xt,t)2]\mathcal{L}_{\text{LDM}} = \mathbb{E}_{t,x_0,x_t} \left[ \| \mathbf{v}_{\theta}(x_t, t) - \mathbf{u}(x_t, t) \|^2 \right]

  • RNormal\mathcal{R}_{\text{Normal}} 是法线正则化损失:

    RNormal(x^0)=Ev[Rv(D(x^0))Nv2]\mathcal{R}_{\text{Normal}}(\hat{x}_0) = \mathbb{E}_{v} \left[ \| R_v(D(\hat{x}_0)) - N_v \|^2 \right]

    RvR_v 为从视角 vv 渲染法线图,NvN_v 为真实法线图,λ\lambda 为权重系数。

8. 测试数据集

  • 法线估计测试:LUCES-MV 数据集(多视图真实场景数据集),评估法线角度误差(NE)和锐利边缘法线误差(SNE)。。
  • 3D生成测试:从公开项目页面收集的图像(Hyper3D、Hunyuan3D-2.0、Dora等),用于视觉对比和用户研究。
  • 用户研究:邀请50名业余用户和10名专业艺术家对生成结果进行评分。

9. 训练数据集与推理部署

  • 训练数据集
    • 图像到法线:Depth-pro真实数据集 + 合成数据(从DetailVerse渲染的2000万RGB-法线对)。
    • 法线到几何:Objaverse(17万清洗后资产) + DetailVerse(70万合成资产),每资产渲染40张图像。
  • 推理部署变化
    • 输入图像需预处理:背景移除 → 裁剪填充为正方形 → 缩放至768×768。
    • NiRNE推理时不注入噪声,以保持稳定性。
    • NoRLD采用两阶段生成:先生成稀疏体素结构,再生成细节潜在表示,最后解码为网格。

10. 消融实验组件

  1. 法线桥接有效性:对比直接图像到几何生成与法线桥接生成,验证法线作为中间表示的必要性。
  2. DetailVerse数据影响:对比使用/不使用DetailVerse数据训练NiRNE和NoRLD,验证其对提升细节的作用。
  3. NiRNE组件消融
    • 噪声注入技术(NI)
    • 双流架构(DS)
    • 领域特定训练策略(DST)
    • 同时去除所有组件(w/o all)
  4. NoRLD组件消融:验证在线法线正则化的效果,对比有无正则化时的生成细节。

11. 其他说明

  • 公式处理:文章中的公式已转换为Markdown格式,大型公式用 $$ $$ 包裹,小型公式用 $ $ 包裹。
  • 数据公开:DetailVerse数据集将公开,以促进相关研究。
  • 局限性:生成结果可能存在细节不一致或未对齐的情况,这是潜在扩散生成固有的问题,未来工作旨在追求重建级3D生成。