Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

基本信息

项目	内容
论文标题	Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation
作者	Zibo Zhao, Zeqiang Lai, Qingxiang Lin, Yunfei Zhao, Haolin Liu, Shuhui Yang, Yifei Feng, Mingxin Yang, Sheng Zhang, Xianghui Yang, Huiwen Shi, Sicong Liu, Junta Wu 等 (Hunyuan3D Team)
第一单位	Tencent (腾讯)
时间	2025 (根据参考文献及报告内容推断)
发表会议/期刊	技术报告 (Tech Report)，可能为 arXiv 预印本

方法概览

特点	文章性质
输入	单张 RGB 图像
输出	带高分辨率纹理的 3D 网格 (Textured Mesh)
所属领域	图像到三维生成

摘要精简

本文介绍了 Hunyuan3D 2.0，一个用于生成高分辨率带纹理3D资产的大规模3D合成系统。该系统包含两个核心基础组件：一个大规模形状生成模型（Hunyuan3D-DiT）和一个大规模纹理合成模型（Hunyuan3D-Paint）。形状生成模型基于可扩展的、基于流的扩散Transformer构建，旨在创建与给定条件图像良好对齐的几何形状。纹理合成模型受益于强大的几何和扩散先验，能为生成或手工制作的网格生成高分辨率、生动的纹理贴图。此外，还构建了一个多功能、用户友好的生产平台 Hunyuan3D-Studio。系统评估表明，Hunyuan3D 2.0 在几何细节、条件对齐、纹理质量等方面优于先前的最先进方法。

引言与出发点

数字3D资产在现代生活和生产中至关重要，但其创作过程复杂、耗时且昂贵。尽管扩散模型推动了图像和视频生成的快速发展，但3D生成领域在大模型和大数据时代进展相对缓慢。现有方法在生成高保真、高分辨率3D资产方面仍有不足。作者认为，一个领域的繁荣通常依赖于强大的开源基础模型（如Stable Diffusion之于图像生成）。为此，他们提出了 Hunyuan3D 2.0，一个包含两个强大开源3D基础模型的3D资产创作系统，旨在填补开源3D社区在大规模基础生成模型方面的空白，并推动3D生成领域的发展。

创新点

完整的开源3D生成系统：提出了一个包含形状生成、纹理合成及下游应用平台（Hunyuan3D-Studio）的完整、开源的3D资产创作系统，旨在成为开源社区的大规模3D基础模型基准。
两阶段解耦生成流程：采用形状生成与纹理合成解耦的两阶段流程，提高了生成灵活性和质量，允许为任何网格（生成或手绘）进行纹理化。
Hunyuan3D-ShapeVAE 与重要性采样：提出了一种新的3D形状变分自编码器，通过重要性采样策略（在网格边缘和角点处采样更多点）来更好地捕捉和重建复杂形状的细节。
Hunyuan3D-DiT：基于流的扩散Transformer：采用基于流匹配（Flow Matching）目标的扩散Transformer进行形状生成，并结合了双流和单流块混合的网络结构，增强了形状与图像条件之间的交互。
Hunyuan3D-Paint：细节保持的纹理合成：
- 双流图像条件参考网络：使用一个权重冻结的、输入无噪声特征的参考网络分支，以最大程度地保留参考图像的细节，并防止模型分布向渲染图像域漂移。
- 多任务注意力机制：设计了并行的参考注意力和多视角注意力模块，在实现多视角一致性的同时，精确对齐输入图像的条件。
- 图像去光照模块：训练一个图像到图像模型对输入图像进行去光照处理，以生成光照无关的纹理贴图。
- 密集视角推理与视角选择：在训练中引入视角随机丢弃策略，使模型能泛化到所有预设视角，支持推理时的密集视角生成，并结合几何感知的视角选择算法，高效覆盖网格表面。

网络架构构成

Hunyuan3D 2.0 采用两阶段解耦架构：

第一阶段：生成形状 (Hunyuan3D-DiT)
- 编码：使用 Hunyuan3D-ShapeVAE 的编码器将3D网格压缩为潜token序列。
- 生成：Hunyuan3D-DiT（基于流的扩散Transformer）以输入图像为条件，生成形状的潜token序列。
- 解码：使用 ShapeVAE 的解码器将潜token序列解码为带符号距离场（SDF），再通过 Marching Cubes 算法得到三角网格。
第二阶段：合成纹理 (Hunyuan3D-Paint)
- 预处理：对输入图像进行去光照处理。
- 多视角图像生成：Hunyuan3D-Paint 以去光照后的图像、以及生成网格的法向图和坐标图（几何条件）为输入，生成多视角一致的图像。
- 纹理烘焙：将生成的密集多视角图像反投影（烘焙）到UV空间，生成最终的、无缝的高分辨率纹理贴图。

特征提取方法

形状特征提取 (ShapeVAE 编码器)：
- 对输入网格进行均匀点采样和重要性点采样（边缘/角点）。
- 使用交叉注意力层，以最远点采样得到的点查询来压缩点云，得到形状的潜表示。
图像条件提取 (Hunyuan3D-DiT 和 Paint)：
- 使用大型图像编码器 DINOv2 Giant 提取输入图像的patch token，并去除背景、居中物体以提升有效分辨率。
- 在 Hunyuan3D-Paint 中，额外使用一个冻结权重的VAE编码器来提取参考图像的无噪声特征，用于双流参考网络。
几何条件 (Hunyuan3D-Paint)：将网格的法向图和规范坐标图输入预训练VAE，将其特征与噪声潜码在通道维度拼接。

生成的三维模型细节

输出形式：高保真、带高分辨率纹理的三角网格。
细节水平：
- 形状：通过重要性采样的ShapeVAE和基于流的DiT，能够生成具有清晰表面凹凸、复杂结构和锐利边缘的高分辨率几何体。
- 纹理：通过细节保持的图像条件注入和多视角一致性生成，能合成高分辨率、生动、无缝的纹理贴图，精确遵循输入图像的细节。

三维模型生成步骤

输入：单张RGB图像 I。
形状生成：
- I → 预处理（去背景、居中）→ DINOv2 编码 → 条件token。
- 随机噪声 + 条件token → Hunyuan3D-DiT (流匹配扩散) → 预测的形状潜token序列 z_shape。
- z_shape → Hunyuan3D-ShapeVAE 解码器 → SDF → Marching Cubes → 无纹理的裸网格 M。
纹理合成：
- I → 图像去光照模块 → 无光照图像 I_delit。
- 对网格 M 渲染法向图和坐标图。
- I_delit + 法向图 + 坐标图 → Hunyuan3D-Paint (多视角扩散模型) → 密集的多视角图像 {I_view}。
- {I_view} → 超分辨率 → 纹理烘焙 → 最终的高分辨率纹理贴图。
输出：带纹理的网格 (M, Texture)。

Loss函数

Hunyuan3D-ShapeVAE 训练损失：
包含重建损失（预测SDF与真实SDF的MSE）和KL散度损失以规范潜空间。 $\mathcal{L}_{r} = \mathbb{E}_{x \in \mathbb{R}^3}[ ext{MSE}(\mathcal{D}_s(x|Z_s), ext{SDF}(x))] + \gamma \mathcal{L}_{KL}$ 其中 $\mathcal{D}_s$ 是解码器， $Z_s$ 是潜变量， $\gamma$ 是权重。
Hunyuan3D-DiT 训练损失：
采用流匹配 (Flow Matching) 目标，学习从噪声到数据样本的速度场。 $\mathcal{L} = \mathbb{E}_{t, x_0, x_1}[\parallel u_{ heta}(x_t, c, t) - u_t \parallel_2^2]$ 其中 $u_{ heta}$ 是网络预测的速度场， $u_t = x_1 - x_0$ 是真实速度场， $c$ 是图像条件， $t$ 是时间步。

数据集

训练集：
- 形状生成模型：使用大规模开源3D数据集进行训练，如 Objaverse [20] 和 Objaverse-XL [19]。
- 纹理合成模型：使用自收集的大规模3D数据集进行渲染，渲染时使用均匀白光照明以适应去光照模块。参考图像在随机方位角和固定仰角范围内渲染，以增强鲁棒性。
测试集：未明确指定统一测试集。评估时使用收集的图像进行视觉比较和用户研究，并在纹理合成任务中使用标准评估协议。

消融实验

报告中未列出详细的组件消融实验表格，但从方法描述和实验分析中可以推断出验证了以下设计：

Hunyuan3D-ShapeVAE 的重要性采样：通过与仅使用均匀采样的基线比较，验证了重要性采样对重建细节的有效性。
Hunyuan3D-Paint 的关键设计：
- 双流参考网络 vs. 共享权重参考网络：验证了冻结权重、无噪声输入的双流设计对保持图像细节和防止风格偏移的作用。
- 多任务注意力机制：验证了并行的参考注意力和多视角注意力模块对同时实现图像对齐和多视角一致性的必要性。
- 图像去光照模块：验证了该模块对生成光照无关纹理的重要性。
- 密集视角推理与视角选择：验证了视角随机丢弃训练策略和几何感知选择算法对提升纹理覆盖率和质量的效果。

论文阅读_Hunyuan3D2