Hunyuan3D 2.0

基本信息

项目 内容
论文标题 Hunyuan3D
作者 Hunyuan3D Team (腾讯团队)
作者单位 腾讯 (Tencent)
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 标定之后的多视角图像
输出 Mesh
所属领域 MeshMVS

摘要精简

Hunyuan3D 2.0 是一个用于生成高分辨率带纹理3D资产的大规模3D合成系统。系统包含两个基础组件:用于形状生成的大规模模型 Hunyuan3D-DiT,以及用于纹理合成的大规模模型 Hunyuan3D-Paint。形状生成模型基于可扩展的、基于流的扩散Transformer,旨在生成与给定条件图像对齐的几何形状;纹理合成模型则利用强几何和扩散先验,为生成或手工制作的网格生成高分辨率和生动的纹理贴图。此外,团队还构建了多功能、用户友好的生产平台 Hunyuan3D-Studio。实验表明,Hunyuan3D 2.0 在几何细节、条件对齐、纹理质量等方面均优于当前最优模型,并被开源以填补3D社区大规模基础生成模型的空白。

引言:动机与出发点

数字3D资产在现代生活和生产(如游戏、电影、物理模拟与具身AI)中无处不在,但其创作过程复杂、耗时且成本高昂。尽管扩散模型推动了图像和视频生成的快速发展,但3D生成领域在大模型时代进展相对缓慢。该领域缺乏一个强大的开源基础模型(类似于图像领域的Stable Diffusion或语言领域的LLaMA)来推动繁荣。为此,作者提出了 Hunyuan3D 2.0,一个包含两个强大开源3D基础模型的3D资产创作系统:Hunyuan3D-DiT(用于生成形状)和 Hunyuan3D-Paint(用于生成纹理)。该系统采用两阶段生成流程(先形状后纹理),有效解耦了形状和纹理生成的难点,并为生成或手工制作的网格提供了纹理化的灵活性。

创新点

  1. 两阶段大规模开源基础模型架构:提出了首个集成了大规模形状生成模型(Hunyuan3D-DiT)和纹理生成模型(Hunyuan3D-Paint)的开源3D生成系统,填补了社区空白。
  2. 形状生成的创新
    • 重要性采样的ShapeVAE:在训练自编码器 Hunyuan3D-ShapeVAE 时,除了均匀采样点云,还设计了一种重要性采样方法,在网格边缘和角点等高频细节区域采样更多点,使编码器能更好地捕捉复杂区域的几何信息。
    • 基于流的扩散Transformer:形状生成器 Hunyuan3D-DiT 采用基于流的扩散模型(Flow Matching) 和目标函数,并结合了双流与单流混合的Transformer架构,有效处理形状潜码与图像条件之间的交互,生成高保真、高分辨率形状。
  3. 纹理生成的创新
    • 双流图像条件参考网络:在 Hunyuan3D-Paint 中,使用一个权重固定的双流参考网络,将无噪声的参考图像VAE特征直接注入生成分支。这既最大程度保留了参考图像细节,又通过固定预训练权重防止模型风格偏向3D渲染数据集。
    • 多任务注意力机制:在注意力层中并行引入了参考注意力模块多视图注意力模块,使模型能够同时实现与参考图像的细节对齐,以及多视图生成的一致性。
    • 几何感知的视图选择与密集视图推理:提出了基于几何覆盖率的贪心视图选择算法,并使用视图dropout策略进行训练,使模型在推理时支持任意指定视角的密集视图生成,减轻了后续纹理修补的负担。
    • 图像去光照模块:在预处理阶段加入图像去光照模型,将输入图像转换为无光照状态,从而使纹理合成对光照不敏感,生成光照无关的纹理贴图。
  4. 一体化生产平台:发布了 Hunyuan3D-Studio 平台,集成了草图转3D、低多边形风格化、3D角色动画等下游工具,降低了3D创作门槛。

网络架构与输入输出

总体流程:两阶段生成。
输入:一张条件图像(或通过T2I模型将文本转换为图像)。
输出带纹理的3D网格

  1. 阶段一:形状生成 (Hunyuan3D-DiT)
    • 输入:条件图像(经过去背景、居中、白底等预处理)。
    • 模型
      • Hunyuan3D-ShapeVAE:一个变分自编码器,负责将3D网格压缩为潜空间中的序列化token。
      • Hunyuan3D-DiT:一个基于Flow Matching的扩散Transformer,在VAE的潜空间中以图像为条件生成形状token序列。
    • 输出无纹理的裸网格
  2. 阶段二:纹理合成 (Hunyuan3D-Paint)
    • 输入:阶段一生成的裸网格,以及同一个条件图像(经过去光照处理)。
    • 模型:基于多视图扩散的纹理生成pipeline,包括去光照、视图选择、多视图图像生成、纹理烘焙等步骤。
    • 输出高分辨率纹理贴图,可映射到输入网格上。

特征提取

  • 形状特征提取 (Hunyuan3D-ShapeVAE)
    • 对输入网格,同时进行均匀点云采样重要性点云采样(在边缘/角点密集采样)。
    • 对两组点云分别进行最远点采样得到点查询,拼接后与拼接的点云一起输入一个基于交叉注意力和自注意力的Transformer编码器,输出潜形状嵌入的均值和方差。
  • 图像条件特征提取
    • 形状生成阶段:使用DINOv2 Giant大型图像编码器,输入分辨率为518x518,提取图像块序列特征作为条件token。
    • 纹理生成阶段:使用双流参考网络,其中参考分支直接提取输入图像的无噪声VAE特征,作为细节保留的条件特征。

三维场景生成步骤

  1. 形状生成
    • 条件图像经编码器得到条件token。
    • 在VAE的潜空间中,从高斯噪声开始,通过Hunyuan3D-DiT(基于ODE求解器)去噪,生成形状token序列。
    • 将该序列输入Hunyuan3D-ShapeVAE的解码器,预测3D空间的符号距离场。
    • 对SDF使用移动立方体算法,提取出三角网格。
  2. 纹理合成
    • 预处理:对条件图像进行去光照处理。
    • 视图选择:根据输入网格的几何形状,使用贪心算法选择8-12个最佳视角。
    • 多视图图像生成:将网格的法线贴图、坐标图(几何条件)与去光照后的参考图像一起,输入Hunyuan3D-Paint模型,生成选定视角下的一致多视图图像。
    • 纹理烘焙
      • 密集视图推理:生成更多视角(如44个)的图像以覆盖遮挡区域。
      • 超分辨率:对每个生成视图的图像进行单图超分,提升纹理细节。
      • 纹理修补:将密集多视图图像展开到UV空间,对少数未覆盖区域进行基于几何距离加权的纹理修补,最终得到无缝的高分辨率纹理贴图。

损失函数

  • 形状VAE训练损失:包含重建损失(预测SDF与真实SDF的MSE)和KL散度损失,公式如下:

    Lr=ExR3[MSE(Ds(xZs),SDF(x))]+γLKL\mathcal{L}_r = \mathbb{E}_{x \in \mathbb{R}^3}[\text{MSE}(\mathcal{D}_s(x|Z_s), \text{SDF}(x))] + \gamma \mathcal{L}_{KL}

    其中,重建损失是在空间和表面随机采样点上计算的期望。
  • 形状扩散模型训练损失:采用流匹配目标,模型学习预测速度场 uθu_\theta 以匹配真实速度 utu_t

    L=Et,x0,x1[uθ(xt,c,t)ut22]\mathcal{L} = \mathbb{E}_{t, x_0, x_1}[\| u_\theta(x_t, c, t) - u_t \|_2^2]

    其中 xt=(1t)×x0+t×x1x_t = (1-t) \times x_0 + t \times x_1, ut=x1x0u_t = x_1 - x_0
  • 纹理扩散模型训练损失:基于预训练的Stable Diffusion 2 v-model进行微调,使用标准的扩散模型噪声预测损失(论文未明确给出公式)。

训练与测试数据集

训练数据集

  • 形状模型:主要在 ObjaverseObjaverse-XL 等大规模开源3D数据集上训练。
  • 纹理模型:在自收集的大规模3D数据集上渲染多视图图像进行训练。渲染时使用均匀白光照明以配合去光照模块。

测试数据集

  • 形状生成:在 ScanNet7-Scenes 等标准室内3D数据集上进行形状重建和生成的定量与定性评估。
  • 纹理生成:在内部收集的3D数据集上进行纹理合成质量评估。同时与现有纹理生成方法在通用指标上进行比较。

推理与部署的输入输出变化

  • 训练阶段
    • 形状VAE和扩散模型使用完整的3D网格和对应的条件图像对进行训练。
    • 纹理模型使用(网格,多视图渲染图像,参考图像)三元组进行训练。
  • 推理/部署阶段
    • 端到端生成:用户仅需提供一张图像,系统即可自动生成带纹理的3D网格。
    • 模块化使用:可单独使用形状生成模块,或单独使用纹理生成模块为任意已有网格贴图。
    • 平台交互:在Hunyuan3D-Studio平台上,用户还可以通过草图、文字描述等多种方式启动生成流程。

消融实验测试的组件

  1. 形状生成
    • 重要性采样策略:对比了仅使用均匀采样和使用重要性采样的ShapeVAE,验证了重要性采样对重建细节的显著提升。
  2. 纹理生成
    • 图像条件注入方式:对比了不同的参考网络设计(如带噪声的特征、共享权重等),验证了双流、无噪声、固定权重的参考网络的最佳性能。
    • 注意力机制:验证了多任务注意力机制(并行参考注意力与多视图注意力)对同时保证图像对齐和多视图一致性的有效性。
    • 融合区域:对比了在占用区域融合与在片段边界体积内融合,后者能产生更完整、一致的结果。
    • 视图数量:测试了片段中包含不同数量视图(5, 7, 9, 11)对生成质量的影响,发现9视图通常取得最佳平衡。
    • 去光照模块:验证了加入图像去光照预处理对生成光照无关纹理的必要性。
    • 密集视图推理与视图dropout:验证了训练时采用视图dropout策略能使模型在推理时支持密集视图生成,有效减少纹理孔洞。