论文阅读_Hi3DGen
Hi3DGen
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | High-fidelity 3D Geometry Generation from Images via Normal Bridging |
| 作者 | Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han |
| 作者单位 | The Chinese University of Hong Kong, Shenzhen(香港中文大学深圳校区) |
| 时间 | 2025 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 标定之后的多视角图像 |
| 输出 | Mesh |
| 所属领域 | MeshMVS |
1. 摘要精简
Hi3DGen是一个从单张2D图像生成高保真3D几何的新框架,核心思想是引入法线图作为中间表示来桥接图像与3D几何之间的映射。框架包含三个关键组件:
- 图像到法线估计器(NiRNE):通过噪声注入和双流训练,实现鲁棒、稳定且锐利的法线估计。
- 法线到几何学习方法(NoRLD):基于法线正则化的潜在扩散学习,提升3D几何生成的保真度。
- DetailVerse 数据集,通过文本→图像→3D 的合成流水线,构建 700k 高细节 3D 资产,为训练提供高质量数据支撑。实验表明,该框架在法线估计精度和 3D 几何生成保真度上超越现有 SOTA 方法,且在真实场景图像上具有强泛化性。
实验表明,Hi3DGen在生成丰富几何细节方面优于现有方法。
2. 引言动机与出发点
现有从2D图像生成3D模型的方法面临三大挑战:
- 高质量3D训练数据稀缺,难以学习细节几何特征。且人工创建的资产多结构简单、细节匮乏;
- 训练图像(通常来自合成3D网格渲染)与真实图像之间存在领域差距,导致泛化性能下降。
- 图像受光照、阴影、纹理干扰,几何信息存在固有歧义,难以提取细粒度细节。为解决这些问题,本文提出以法线图(2.5D 表示)作为中间桥梁:一方面,法线图能提供更明确的几何线索,缓解 RGB 图像的歧义性;另一方面,通过 2D 先验处理 RGB 到法线的映射,可缩小域间隙;最终实现从 2D 图像到 3D 几何的高效、高精度映射。
3. 创新点(单独章节)
3.1 核心创新
- 首次引入法线图作为桥接表示:提出Hi3DGen框架,通过法线图桥接2D图像到3D几何的生成,解决现有方法在细节生成上的局限。
- 噪声注入回归法线估计器(NiRNE):结合噪声注入与双流训练,在回归框架中实现类似扩散方法的锐利估计,同时保持稳定性。
- 法线正则化潜在扩散(NoRLD):在潜在扩散训练中引入在线法线渲染损失,显式约束几何细节,提升生成保真度。
- 高质量合成数据集DetailVerse:通过文本→图像→3D的流水线构建包含70万高细节3D资产的数据集,弥补人工创建数据的不足。
3.2 其他创新
- 双流架构设计:解耦低频(整体结构)和高频(细节)特征学习,提升泛化能力和锐利度。
- 领域特定训练策略:分阶段使用真实数据(低频学习)和合成数据(高频学习),优化双流表示。
- 在线法线正则化:在扩散训练过程中实时计算法线渲染损失,而非后处理,确保几何一致性。
4. 网络架构与输入输出
整体框架:Hi3DGen分为三个阶段:
- 图像到法线估计(NiRNE):
- 输入:RGB图像(经预处理,如背景移除、裁剪、缩放至768×768)。
- 输出:法线图(表面方向图)。
- 法线到几何生成(NoRLD):
- 输入:法线图(背景设为白色)。
- 输出:3D几何(网格表示)。
- 数据合成管道(DetailVerse):用于训练支持,不参与推理。
网络为两阶段端到端框架,核心由三大组件构成:
- NiRNE(图像到法线估计器):基于 Stable Diffusion V2.1 修改,含双流编码器(清洁流 + 噪声流)和共享解码器,输入 RGB 图像,输出对应的法线图。
- NoRLD(法线到几何生成器):基于 Trellis 扩展,含 VAE(编码 3D 几何到潜空间)、潜扩散网络(带法线正则化),输入 NiRNE 预测的法线图,输出 3D 几何潜码,经解码器生成网格。
- DetailVerse 数据集流水线:文本 prompt 筛选→Flux.1-Dev 生成图像→Trellis 生成 3D 资产→质量评估与清洗,构建高质量训练数据。
5. 特征提取方法
1. NiRNE 的特征提取
- 清洁流:输入 RGB 图像经 VAE 编码后,无噪声注入,通过编码器提取低频特征(全局结构、整体轮廓),保证泛化性。
- 噪声流:对 VAE 编码后的特征注入 EDM 风格噪声,编码器专注提取高频特征(边缘、纹理细节、表面凹陷),增强细节锐利度。
- 特征融合:双流特征经多层拼接后输入解码器,通过 ControlNet 式结构保留高低频特征的独立性与互补性。
2. NoRLD 的特征提取
- 3D 几何特征:VAE 将 3D 网格编码为结构化潜码,捕捉几何的全局结构与局部细节。
- 法线监督特征:将解码后的 3D 几何从 22 个固定视角渲染为法线图,提取渲染法线的特征,与 ground truth 法线特征对比,提供几何监督。
- 潜扩散特征:扩散网络对含噪潜码进行去噪,同时融合法线特征的监督信号,引导潜码向高保真几何方向更新。
6. 三维场景生成步骤
1. 图像到法线映射(NiRNE 阶段)
- 输入 RGB 图像经背景移除、裁剪为正方形后,resize 至 768×768 分辨率。
- 图像经 VAE 编码为潜特征,分别输入双流编码器:清洁流提取低频结构,噪声流提取高频细节。
- 双流特征拼接后经解码器输出法线图,推理时不注入噪声以保证稳定性。
2. 法线到 3D 几何生成(NoRLD 阶段)
- 预测的法线图与图像条件一同输入潜扩散网络,VAE 将 3D 几何编码为潜码。
- 扩散过程中,对去噪后的潜码解码为 3D 几何,渲染为法线图,与输入法线图计算正则化损失,引导模型学习几何细节。
- 扩散迭代 50 步后,最终潜码经 VAE 解码器输出 3D 网格。
3. 数据支撑(DetailVerse 阶段)
通过文本 prompt 生成多样化图像,再经 Trellis 转换为 3D 资产,经质量评估后形成 DetailVerse 数据集,为前两阶段提供高质量训练样本。
7. 损失函数设计
总损失结合潜在扩散损失和法线正则化损失:
其中:
- 是潜在扩散损失(流匹配形式):
- 是法线正则化损失:
为从视角 渲染法线图, 为真实法线图, 为权重系数。
8. 测试数据集
- 法线估计测试:LUCES-MV 数据集(多视图真实场景数据集),评估法线角度误差(NE)和锐利边缘法线误差(SNE)。。
- 3D生成测试:从公开项目页面收集的图像(Hyper3D、Hunyuan3D-2.0、Dora等),用于视觉对比和用户研究。
- 用户研究:邀请50名业余用户和10名专业艺术家对生成结果进行评分。
9. 训练数据集与推理部署
- 训练数据集:
- 图像到法线:Depth-pro真实数据集 + 合成数据(从DetailVerse渲染的2000万RGB-法线对)。
- 法线到几何:Objaverse(17万清洗后资产) + DetailVerse(70万合成资产),每资产渲染40张图像。
- 推理部署变化:
- 输入图像需预处理:背景移除 → 裁剪填充为正方形 → 缩放至768×768。
- NiRNE推理时不注入噪声,以保持稳定性。
- NoRLD采用两阶段生成:先生成稀疏体素结构,再生成细节潜在表示,最后解码为网格。
10. 消融实验组件
- 法线桥接有效性:对比直接图像到几何生成与法线桥接生成,验证法线作为中间表示的必要性。
- DetailVerse数据影响:对比使用/不使用DetailVerse数据训练NiRNE和NoRLD,验证其对提升细节的作用。
- NiRNE组件消融:
- 噪声注入技术(NI)
- 双流架构(DS)
- 领域特定训练策略(DST)
- 同时去除所有组件(w/o all)
- NoRLD组件消融:验证在线法线正则化的效果,对比有无正则化时的生成细节。
11. 其他说明
- 公式处理:文章中的公式已转换为Markdown格式,大型公式用
$$ $$包裹,小型公式用$ $包裹。 - 数据公开:DetailVerse数据集将公开,以促进相关研究。
- 局限性:生成结果可能存在细节不一致或未对齐的情况,这是潜在扩散生成固有的问题,未来工作旨在追求重建级3D生成。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!



