Hunyuan3D 2.0

基本信息

项目	内容
论文标题	Hunyuan3D
作者	Hunyuan3D Team (腾讯团队)
作者单位	腾讯 (Tencent)
时间	2025
发表会议/期刊

方法概览

特点	文章性质
输入	标定之后的多视角图像
输出	Mesh
所属领域	MeshMVS

摘要精简

Hunyuan3D 2.0 是一个用于生成高分辨率带纹理3D资产的大规模3D合成系统。系统包含两个基础组件：用于形状生成的大规模模型 Hunyuan3D-DiT，以及用于纹理合成的大规模模型 Hunyuan3D-Paint。形状生成模型基于可扩展的、基于流的扩散Transformer，旨在生成与给定条件图像对齐的几何形状；纹理合成模型则利用强几何和扩散先验，为生成或手工制作的网格生成高分辨率和生动的纹理贴图。此外，团队还构建了多功能、用户友好的生产平台 Hunyuan3D-Studio。实验表明，Hunyuan3D 2.0 在几何细节、条件对齐、纹理质量等方面均优于当前最优模型，并被开源以填补3D社区大规模基础生成模型的空白。

引言：动机与出发点

数字3D资产在现代生活和生产（如游戏、电影、物理模拟与具身AI）中无处不在，但其创作过程复杂、耗时且成本高昂。尽管扩散模型推动了图像和视频生成的快速发展，但3D生成领域在大模型时代进展相对缓慢。该领域缺乏一个强大的开源基础模型（类似于图像领域的Stable Diffusion或语言领域的LLaMA）来推动繁荣。为此，作者提出了 Hunyuan3D 2.0，一个包含两个强大开源3D基础模型的3D资产创作系统：Hunyuan3D-DiT（用于生成形状）和 Hunyuan3D-Paint（用于生成纹理）。该系统采用两阶段生成流程（先形状后纹理），有效解耦了形状和纹理生成的难点，并为生成或手工制作的网格提供了纹理化的灵活性。

创新点

两阶段大规模开源基础模型架构：提出了首个集成了大规模形状生成模型（Hunyuan3D-DiT）和纹理生成模型（Hunyuan3D-Paint）的开源3D生成系统，填补了社区空白。
形状生成的创新：
- 重要性采样的ShapeVAE：在训练自编码器 Hunyuan3D-ShapeVAE 时，除了均匀采样点云，还设计了一种重要性采样方法，在网格边缘和角点等高频细节区域采样更多点，使编码器能更好地捕捉复杂区域的几何信息。
- 基于流的扩散Transformer：形状生成器 Hunyuan3D-DiT 采用基于流的扩散模型（Flow Matching） 和目标函数，并结合了双流与单流混合的Transformer架构，有效处理形状潜码与图像条件之间的交互，生成高保真、高分辨率形状。
纹理生成的创新：
- 双流图像条件参考网络：在 Hunyuan3D-Paint 中，使用一个权重固定的双流参考网络，将无噪声的参考图像VAE特征直接注入生成分支。这既最大程度保留了参考图像细节，又通过固定预训练权重防止模型风格偏向3D渲染数据集。
- 多任务注意力机制：在注意力层中并行引入了参考注意力模块和多视图注意力模块，使模型能够同时实现与参考图像的细节对齐，以及多视图生成的一致性。
- 几何感知的视图选择与密集视图推理：提出了基于几何覆盖率的贪心视图选择算法，并使用视图dropout策略进行训练，使模型在推理时支持任意指定视角的密集视图生成，减轻了后续纹理修补的负担。
- 图像去光照模块：在预处理阶段加入图像去光照模型，将输入图像转换为无光照状态，从而使纹理合成对光照不敏感，生成光照无关的纹理贴图。
一体化生产平台：发布了 Hunyuan3D-Studio 平台，集成了草图转3D、低多边形风格化、3D角色动画等下游工具，降低了3D创作门槛。

网络架构与输入输出

总体流程：两阶段生成。
输入：一张条件图像（或通过T2I模型将文本转换为图像）。
输出：带纹理的3D网格。

阶段一：形状生成 (Hunyuan3D-DiT)
- 输入：条件图像（经过去背景、居中、白底等预处理）。
- 模型：
  - Hunyuan3D-ShapeVAE：一个变分自编码器，负责将3D网格压缩为潜空间中的序列化token。
  - Hunyuan3D-DiT：一个基于Flow Matching的扩散Transformer，在VAE的潜空间中以图像为条件生成形状token序列。
- 输出：无纹理的裸网格。
阶段二：纹理合成 (Hunyuan3D-Paint)
- 输入：阶段一生成的裸网格，以及同一个条件图像（经过去光照处理）。
- 模型：基于多视图扩散的纹理生成pipeline，包括去光照、视图选择、多视图图像生成、纹理烘焙等步骤。
- 输出：高分辨率纹理贴图，可映射到输入网格上。

特征提取

形状特征提取 (Hunyuan3D-ShapeVAE)：
- 对输入网格，同时进行均匀点云采样和重要性点云采样（在边缘/角点密集采样）。
- 对两组点云分别进行最远点采样得到点查询，拼接后与拼接的点云一起输入一个基于交叉注意力和自注意力的Transformer编码器，输出潜形状嵌入的均值和方差。
图像条件特征提取：
- 形状生成阶段：使用DINOv2 Giant大型图像编码器，输入分辨率为518x518，提取图像块序列特征作为条件token。
- 纹理生成阶段：使用双流参考网络，其中参考分支直接提取输入图像的无噪声VAE特征，作为细节保留的条件特征。

三维场景生成步骤

形状生成：
- 条件图像经编码器得到条件token。
- 在VAE的潜空间中，从高斯噪声开始，通过Hunyuan3D-DiT（基于ODE求解器）去噪，生成形状token序列。
- 将该序列输入Hunyuan3D-ShapeVAE的解码器，预测3D空间的符号距离场。
- 对SDF使用移动立方体算法，提取出三角网格。
纹理合成：
- 预处理：对条件图像进行去光照处理。
- 视图选择：根据输入网格的几何形状，使用贪心算法选择8-12个最佳视角。
- 多视图图像生成：将网格的法线贴图、坐标图（几何条件）与去光照后的参考图像一起，输入Hunyuan3D-Paint模型，生成选定视角下的一致多视图图像。
- 纹理烘焙：
  - 密集视图推理：生成更多视角（如44个）的图像以覆盖遮挡区域。
  - 超分辨率：对每个生成视图的图像进行单图超分，提升纹理细节。
  - 纹理修补：将密集多视图图像展开到UV空间，对少数未覆盖区域进行基于几何距离加权的纹理修补，最终得到无缝的高分辨率纹理贴图。

损失函数

形状VAE训练损失：包含重建损失（预测SDF与真实SDF的MSE）和KL散度损失，公式如下： $\mathcal{L}_r = \mathbb{E}_{x \in \mathbb{R}^3}[\text{MSE}(\mathcal{D}_s(x|Z_s), \text{SDF}(x))] + \gamma \mathcal{L}_{KL}$ 其中，重建损失是在空间和表面随机采样点上计算的期望。
形状扩散模型训练损失：采用流匹配目标，模型学习预测速度场 $u_\theta$ 以匹配真实速度 $u_t$ ： $\mathcal{L} = \mathbb{E}_{t, x_0, x_1}[\| u_\theta(x_t, c, t) - u_t \|_2^2]$ 其中 $x_t = (1-t) \times x_0 + t \times x_1$ , $u_t = x_1 - x_0$ 。
纹理扩散模型训练损失：基于预训练的Stable Diffusion 2 v-model进行微调，使用标准的扩散模型噪声预测损失（论文未明确给出公式）。

训练与测试数据集

训练数据集：

形状模型：主要在 Objaverse 和 Objaverse-XL 等大规模开源3D数据集上训练。
纹理模型：在自收集的大规模3D数据集上渲染多视图图像进行训练。渲染时使用均匀白光照明以配合去光照模块。

测试数据集：

形状生成：在 ScanNet 和 7-Scenes 等标准室内3D数据集上进行形状重建和生成的定量与定性评估。
纹理生成：在内部收集的3D数据集上进行纹理合成质量评估。同时与现有纹理生成方法在通用指标上进行比较。

推理与部署的输入输出变化

训练阶段：
- 形状VAE和扩散模型使用完整的3D网格和对应的条件图像对进行训练。
- 纹理模型使用（网格，多视图渲染图像，参考图像）三元组进行训练。
推理/部署阶段：
- 端到端生成：用户仅需提供一张图像，系统即可自动生成带纹理的3D网格。
- 模块化使用：可单独使用形状生成模块，或单独使用纹理生成模块为任意已有网格贴图。
- 平台交互：在Hunyuan3D-Studio平台上，用户还可以通过草图、文字描述等多种方式启动生成流程。

消融实验测试的组件

形状生成：
- 重要性采样策略：对比了仅使用均匀采样和使用重要性采样的ShapeVAE，验证了重要性采样对重建细节的显著提升。
纹理生成：
- 图像条件注入方式：对比了不同的参考网络设计（如带噪声的特征、共享权重等），验证了双流、无噪声、固定权重的参考网络的最佳性能。
- 注意力机制：验证了多任务注意力机制（并行参考注意力与多视图注意力）对同时保证图像对齐和多视图一致性的有效性。
- 融合区域：对比了在占用区域融合与在片段边界体积内融合，后者能产生更完整、一致的结果。
- 视图数量：测试了片段中包含不同数量视图（5, 7, 9, 11）对生成质量的影响，发现9视图通常取得最佳平衡。
- 去光照模块：验证了加入图像去光照预处理对生成光照无关纹理的必要性。
- 密集视图推理与视图dropout：验证了训练时采用视图dropout策略能使模型在推理时支持密集视图生成，有效减少纹理孔洞。