论文阅读_Hunyuan3D
Hunyuan3D 2.0
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Hunyuan3D |
| 作者 | Hunyuan3D Team (腾讯团队) |
| 作者单位 | 腾讯 (Tencent) |
| 时间 | 2025 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 标定之后的多视角图像 |
| 输出 | Mesh |
| 所属领域 | MeshMVS |
摘要精简
Hunyuan3D 2.0 是一个用于生成高分辨率带纹理3D资产的大规模3D合成系统。系统包含两个基础组件:用于形状生成的大规模模型 Hunyuan3D-DiT,以及用于纹理合成的大规模模型 Hunyuan3D-Paint。形状生成模型基于可扩展的、基于流的扩散Transformer,旨在生成与给定条件图像对齐的几何形状;纹理合成模型则利用强几何和扩散先验,为生成或手工制作的网格生成高分辨率和生动的纹理贴图。此外,团队还构建了多功能、用户友好的生产平台 Hunyuan3D-Studio。实验表明,Hunyuan3D 2.0 在几何细节、条件对齐、纹理质量等方面均优于当前最优模型,并被开源以填补3D社区大规模基础生成模型的空白。
引言:动机与出发点
数字3D资产在现代生活和生产(如游戏、电影、物理模拟与具身AI)中无处不在,但其创作过程复杂、耗时且成本高昂。尽管扩散模型推动了图像和视频生成的快速发展,但3D生成领域在大模型时代进展相对缓慢。该领域缺乏一个强大的开源基础模型(类似于图像领域的Stable Diffusion或语言领域的LLaMA)来推动繁荣。为此,作者提出了 Hunyuan3D 2.0,一个包含两个强大开源3D基础模型的3D资产创作系统:Hunyuan3D-DiT(用于生成形状)和 Hunyuan3D-Paint(用于生成纹理)。该系统采用两阶段生成流程(先形状后纹理),有效解耦了形状和纹理生成的难点,并为生成或手工制作的网格提供了纹理化的灵活性。
创新点
- 两阶段大规模开源基础模型架构:提出了首个集成了大规模形状生成模型(Hunyuan3D-DiT)和纹理生成模型(Hunyuan3D-Paint)的开源3D生成系统,填补了社区空白。
- 形状生成的创新:
- 重要性采样的ShapeVAE:在训练自编码器 Hunyuan3D-ShapeVAE 时,除了均匀采样点云,还设计了一种重要性采样方法,在网格边缘和角点等高频细节区域采样更多点,使编码器能更好地捕捉复杂区域的几何信息。
- 基于流的扩散Transformer:形状生成器 Hunyuan3D-DiT 采用基于流的扩散模型(Flow Matching) 和目标函数,并结合了双流与单流混合的Transformer架构,有效处理形状潜码与图像条件之间的交互,生成高保真、高分辨率形状。
- 纹理生成的创新:
- 双流图像条件参考网络:在 Hunyuan3D-Paint 中,使用一个权重固定的双流参考网络,将无噪声的参考图像VAE特征直接注入生成分支。这既最大程度保留了参考图像细节,又通过固定预训练权重防止模型风格偏向3D渲染数据集。
- 多任务注意力机制:在注意力层中并行引入了参考注意力模块和多视图注意力模块,使模型能够同时实现与参考图像的细节对齐,以及多视图生成的一致性。
- 几何感知的视图选择与密集视图推理:提出了基于几何覆盖率的贪心视图选择算法,并使用视图dropout策略进行训练,使模型在推理时支持任意指定视角的密集视图生成,减轻了后续纹理修补的负担。
- 图像去光照模块:在预处理阶段加入图像去光照模型,将输入图像转换为无光照状态,从而使纹理合成对光照不敏感,生成光照无关的纹理贴图。
- 一体化生产平台:发布了 Hunyuan3D-Studio 平台,集成了草图转3D、低多边形风格化、3D角色动画等下游工具,降低了3D创作门槛。
网络架构与输入输出
总体流程:两阶段生成。
输入:一张条件图像(或通过T2I模型将文本转换为图像)。
输出:带纹理的3D网格。
- 阶段一:形状生成 (Hunyuan3D-DiT)
- 输入:条件图像(经过去背景、居中、白底等预处理)。
- 模型:
- Hunyuan3D-ShapeVAE:一个变分自编码器,负责将3D网格压缩为潜空间中的序列化token。
- Hunyuan3D-DiT:一个基于Flow Matching的扩散Transformer,在VAE的潜空间中以图像为条件生成形状token序列。
- 输出:无纹理的裸网格。
- 阶段二:纹理合成 (Hunyuan3D-Paint)
- 输入:阶段一生成的裸网格,以及同一个条件图像(经过去光照处理)。
- 模型:基于多视图扩散的纹理生成pipeline,包括去光照、视图选择、多视图图像生成、纹理烘焙等步骤。
- 输出:高分辨率纹理贴图,可映射到输入网格上。
特征提取
- 形状特征提取 (Hunyuan3D-ShapeVAE):
- 对输入网格,同时进行均匀点云采样和重要性点云采样(在边缘/角点密集采样)。
- 对两组点云分别进行最远点采样得到点查询,拼接后与拼接的点云一起输入一个基于交叉注意力和自注意力的Transformer编码器,输出潜形状嵌入的均值和方差。
- 图像条件特征提取:
- 形状生成阶段:使用DINOv2 Giant大型图像编码器,输入分辨率为518x518,提取图像块序列特征作为条件token。
- 纹理生成阶段:使用双流参考网络,其中参考分支直接提取输入图像的无噪声VAE特征,作为细节保留的条件特征。
三维场景生成步骤
- 形状生成:
- 条件图像经编码器得到条件token。
- 在VAE的潜空间中,从高斯噪声开始,通过Hunyuan3D-DiT(基于ODE求解器)去噪,生成形状token序列。
- 将该序列输入Hunyuan3D-ShapeVAE的解码器,预测3D空间的符号距离场。
- 对SDF使用移动立方体算法,提取出三角网格。
- 纹理合成:
- 预处理:对条件图像进行去光照处理。
- 视图选择:根据输入网格的几何形状,使用贪心算法选择8-12个最佳视角。
- 多视图图像生成:将网格的法线贴图、坐标图(几何条件)与去光照后的参考图像一起,输入Hunyuan3D-Paint模型,生成选定视角下的一致多视图图像。
- 纹理烘焙:
- 密集视图推理:生成更多视角(如44个)的图像以覆盖遮挡区域。
- 超分辨率:对每个生成视图的图像进行单图超分,提升纹理细节。
- 纹理修补:将密集多视图图像展开到UV空间,对少数未覆盖区域进行基于几何距离加权的纹理修补,最终得到无缝的高分辨率纹理贴图。
损失函数
- 形状VAE训练损失:包含重建损失(预测SDF与真实SDF的MSE)和KL散度损失,公式如下:
其中,重建损失是在空间和表面随机采样点上计算的期望。
- 形状扩散模型训练损失:采用流匹配目标,模型学习预测速度场 以匹配真实速度 :
其中 , 。
- 纹理扩散模型训练损失:基于预训练的Stable Diffusion 2 v-model进行微调,使用标准的扩散模型噪声预测损失(论文未明确给出公式)。
训练与测试数据集
训练数据集:
- 形状模型:主要在 Objaverse 和 Objaverse-XL 等大规模开源3D数据集上训练。
- 纹理模型:在自收集的大规模3D数据集上渲染多视图图像进行训练。渲染时使用均匀白光照明以配合去光照模块。
测试数据集:
- 形状生成:在 ScanNet 和 7-Scenes 等标准室内3D数据集上进行形状重建和生成的定量与定性评估。
- 纹理生成:在内部收集的3D数据集上进行纹理合成质量评估。同时与现有纹理生成方法在通用指标上进行比较。
推理与部署的输入输出变化
- 训练阶段:
- 形状VAE和扩散模型使用完整的3D网格和对应的条件图像对进行训练。
- 纹理模型使用(网格,多视图渲染图像,参考图像)三元组进行训练。
- 推理/部署阶段:
- 端到端生成:用户仅需提供一张图像,系统即可自动生成带纹理的3D网格。
- 模块化使用:可单独使用形状生成模块,或单独使用纹理生成模块为任意已有网格贴图。
- 平台交互:在Hunyuan3D-Studio平台上,用户还可以通过草图、文字描述等多种方式启动生成流程。
消融实验测试的组件
- 形状生成:
- 重要性采样策略:对比了仅使用均匀采样和使用重要性采样的ShapeVAE,验证了重要性采样对重建细节的显著提升。
- 纹理生成:
- 图像条件注入方式:对比了不同的参考网络设计(如带噪声的特征、共享权重等),验证了双流、无噪声、固定权重的参考网络的最佳性能。
- 注意力机制:验证了多任务注意力机制(并行参考注意力与多视图注意力)对同时保证图像对齐和多视图一致性的有效性。
- 融合区域:对比了在占用区域融合与在片段边界体积内融合,后者能产生更完整、一致的结果。
- 视图数量:测试了片段中包含不同数量视图(5, 7, 9, 11)对生成质量的影响,发现9视图通常取得最佳平衡。
- 去光照模块:验证了加入图像去光照预处理对生成光照无关纹理的必要性。
- 密集视图推理与视图dropout:验证了训练时采用视图dropout策略能使模型在推理时支持密集视图生成,有效减少纹理孔洞。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


