论文阅读_CLAY
CLAY
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | CLAY(Controllable Large-scale Generative Model for Creating High-quality 3D Assets) |
| 作者 | LONGWEN ZHANG, ZIYU WANG, QIXUAN ZHANG 等 |
| 作者单位 | 上海科技大学 (ShanghaiTech University)、Deemos Technology Co., Ltd. |
| 时间 | 2024 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 支持多模态输入,包括文本、单张图像、草图、多视角图像、体素、点云、边界框等。 |
| 输出 | 是带有高保真PBR材质贴图的Mesh模型。其内部几何表示使用occupancy field,最终通过Marching Cubes算法提取为Mesh。 |
| 所属领域 | 三维生成 (3D Generation) |
DiT:Diffuison Transformer
首次提出原生几何生成器
关键是提出用把Mesh采样成2048点云作为latent,就可以使用diffusion进行生成
摘要精简
CLAY是一个可控的大规模生成模型,旨在高质量地创建3D数字资产。它支持从文本、图像到多种3D原语(如多视角图、体素、点云)的输入控制。其核心是一个包含多分辨率变分自编码器(VAE)和简约的潜在扩散变换器(DiT)的大规模生成模型,直接从多样的3D几何数据中提取先验。此外,CLAY通过一个多视角材质扩散模型生成基于物理的渲染(PBR)纹理。它能够将粗略的概念设计转化为包含复杂细节、可用于生产流程的3D资产。
采用渐进式训练方案,在超大规模 3D 数据集上训练得到 15 亿参数的 3D 原生几何生成器;通过多视图材质扩散模型生成 2K 分辨率 PBR 材质。支持多模态控制,从概念设计到生产级资产均可高效生成,无需专业技能即可实现 3D 创作。
引言与出发点
-
**当前最先进的3D资产生成技术主要采用两种不同的策略:一种是将2D生成提升到3D,另一种是采用3D原生策略。**简而言之:
- 前一种方法利用2D生成模型[Rombach et al. 2022; Saharia et al. 2022](SD和Imagen),通过复杂的优化技术如得分蒸馏[Poole et al. 2023; Wang et al. 2023](SDS)来生成3D形状,或者进一步改进2D模型以实现多视图生成[Liu et al. 2023c; Shi et al. 2024](Zero123和Zero123++)。这些方法通过预训练的2D生成模型解决了多样化的外观生成问题。然而,由于2D先验知识不容易直接转换为一致的3D几何结构,这些基于2D生成的方法通常缺乏基础模型中应有的明确3D控制(例如保持线条、角度、平面等),因此难以维持高几何保真度。基于2D升维+SDS的优化思路太慢了,基本上无法投入实际使用从2D多视图里通过训练nerf/3dgs再提取mesh,或者利用NeuS等MVS的三维重建方法直接提取mesh,这些方法暂时没有特别好的,目前从效果上来看不如LRM,但是思路都值得参考借鉴
- 相比之下,3D原生方法尝试直接从3D数据集[Chang et al. 2015; Deitke et al. 2023](ShapeNet和Objaverse)训练生成模型,3D形状可以通过显式形式(如点云[Nichol et al. 2022](PointE)、网格[Nash et al. 2020(Polygen); Siddiqui et al. 2024](MeshGPT))或隐式形式(如神经场[Chen and Zhang 2019; Zhang et al. 2023c](3DShape2VecSet))表示。这些方法能够更好地“理解”并保留几何特征,
- 为解决2D技术中的挑战,出现了一类新的解决方案,试图将3D形状作为先验。尽管One-2-3-45 [Liu et al. 2023d] 被认为是利用2D图像先验,但巧妙地使用NeuS作为几何代理揭示了将3D形状作为先验的可能性。例如,Instant3D [Li et al. 2023]、LRM [Hong et al. 2024; Wang et al. 2024]、DMV3D [Xu et al. 2024] 和TGS [Zou et al. 2024] 进一步利用稀疏视图或单视图重建器,这些重建器使用视觉Transformer (ViT) 作为视觉骨干网络,结合深度Transformer架构直接重建具有颜色和密度属性的NeRF。因此,它们通常被称为大型重建模型(LRMs)。然而,这些技术仍然集中在最小化体积渲染损失上,而不是显式生成表面,导致几何粗糙或噪声较大。但除非使用更大的模型[Ren et al. 2024(XCube^3); Yariv et al. 2024(Mosaic SDF)],否则其生成能力有限。然而,较大的模型需要在更大的数据集上进行训练,而这正是3D生成旨在解决的问题。
- 显然,生成3D的最直接做法是直接在3D数据集上进行训练,而不是在2D图像或图像诱导的3D形状上。早期方法[Choy et al. 2016; Fan et al. 2017; Groueix et al. 2018; Mescheder et al. 2019; Tang et al. 2019, 2021a] 主要利用3D卷积网络来理解3D网格结构。Point-E [Nichol et al. 2022] 首次尝试使用纯Transformer的扩散模型直接对点云进行去噪。该方法因其简洁性和高效性而引人注目,但在将生成的点云转换为精确的常见网格表面时面临巨大困难。Polygen [Nash et al. 2020] 和MeshGPT [Siddiqui et al. 2024] 则采用了通过点和表面序列来原生表示网格的不同方法。这些模型能够生成极高质量的网格,但它们对小规模高质量数据集的依赖限制了其广泛的适用性。XCube [Ren et al. 2024] 提出了一种将几何简化为多分辨率体素的策略,然后进行扩散。这简化了过程,但在处理复杂的提示和支持广泛的下游任务方面面临挑战,从而限制了整体的灵活性。值得注意的是,不同的3D生成技术依赖于不同的数据集。这并不奇怪,因为它们基于不同的几何表示,但也带来了问题,即需要一个统一的数据集来包含所有可用的形状。
- 尝试之一是将几何体统一表示为有符号距离场(SDF)[Park et al. 2019; Yariv et al. 2024]、occupancy(占用场)[Peng et al. 2020; Tang et al. 2021b],或两者兼而有之[Liu et al. 2024b(One-2-3-45++); Zheng et al. 2023],并直接在3D数据集上进行训练。这些方法相比于NeRF在学习和提取表面方面提供了更明确的机制,但需要对水密(watertight)网格进行潜在编码以进行生成。模型如DeepSDF [Park et al. 2019] 和Mosaic-SDF [Yariv et al. 2024] 利用优化技术为训练数据集中的每个几何体创建唯一表示,这在训练过程中效率不高,因为它们不能从自动编码器中获益。其他模型如SDFusion [Cheng et al. 2023] 和ShapeGPT [Yin et al. 2023] 采用直观的3D VAE(变分自动编码器)进行几何编码并重建SDF场。这些方法主要在ShapeNet [Chang et al. 2015] 数据集上训练或测试,生成的形状多样性和种类有限。3DGen [Gupta et al. 2023] 使用三平面VAE进行SDF场的编码和解码,而Shap-E [Jun and Nichol 2023]、3DShape2VecSet [Zhang et al. 2023c] 和Michelangelo [Zhao et al. 2023] 则采用了不同的路径,通过Transformer对输入点云进行编码,生成解码网络的参数,标志着3D生成模型中更复杂神经网络架构的出现。
-
作者在引言中指出,现有的3D创作工具需要大量专业知识和手动劳动,限制了创造力的发挥。当前的3D生成技术主要有两条路径:1)基于2D生成模型提升至3D(如利用2D扩散模型先验),这类方法几何保真度低,缺乏精确的3D控制;2)直接在3D数据集上训练的原生方法,这类方法能更好地理解几何,但受限于模型规模和数据稀缺,生成多样性和质量不足。
-
CLAY的出发点是结合两者优势,遵循在图文生成中成功的“预训练-适配”范式。它旨在通过构建一个大规模、三维原生的几何生成基础模型来解决3D数据稀缺问题,并分离几何与外观生成,最终生成可直接用于现有CG管线的、带有PBR材质的完整3D资产。
-
CLAY的核心是一个大型生成模型,能够直接从多种3D几何中提取丰富的3D先验信息。具体而言,我们采用3DShape2VecSet[Zhang et al. 2023c]中的神经场设计,以描绘连续和完整的表面,并通过定制的多分辨率几何变分自编码器(VAE)进行编码。我们在潜在空间中自适应调整潜在大小的几何生成模块,并引入最小化的潜在扩散变压器(DiT)以实现几何生成的概率性。在模型的逐步训练中,我们谨慎地增加潜在大小和模型参数,最终形成了一个具有15亿参数的3D原生几何生成器。训练样本的质量对于细致的几何生成至关重要,特别是在可用的3D数据集规模有限的情况下。因此,我们提出了一种新的数据处理流程,以标准化多样化的3D数据并提高数据质量。具体而言,包括重新网格化过程,将各种3D表面转换为占用场,保留重要的几何特征,如尖锐的边缘和平面。同时,我们利用GPT-4V [OpenAI 2023] 的能力生成稳健的注释,以突出这些几何特征。
创新点
CLAY的主要创新点可归纳为以下几点:
- 大规模三维原生生成架构:设计多分辨率 VAE + 纯 Transformer 结构的 DiT,通过渐进式训练(逐步增大潜变量长度和模型参数)实现 15 亿参数规模,直接从 3D 数据中学习几何先验,生成质量和多样性远超现有小模型。
- 渐进式训练方案与高效架构:采用了包含多分辨率VAE和纯Transformer块DiT的架构,并设计了渐进式训练策略(逐步增加潜在码长度和模型规模),实现了模型的高效规模化。
- 数据标准化与高质量标注流程:为解决3D数据格式不一、质量参差的问题,设计了一套数据预处理流程,包括基于无符号距离场的几何统一化方法和利用GPT-4V进行自动精细化标注,统一 ShapeNet 和 Objaverse 等数据集格式,构建 527K 高质量训练样本库,从而整合并提升了训练数据质量。
- 统一的多模态条件控制:在预训练基础模型上,通过统一的残差交叉注意力框架,高效适配了文本、图像、草图、体素、边界框、稀疏点云、多视角图像、局部点云补全等极其丰富的控制条件,实现了高度可控的生成。
- 分离式几何与材质生成:先通过 VAE+DiT 生成高精度几何 Mesh,再通过改进的多视图材质扩散模型生成 PBR 材质,避免两者纠缠导致的质量下降,支持材质独立编辑。
- 高质量的PBR材质生成:提出一个多视角材质扩散模型,修改 MVDream 架构,新增三分支 UNet 卷积层,同时生成漫反射、粗糙度、金属度模态,结合 ControlNet 和超分技术(Real-ESRGAN)实现 2K 分辨率材质,且视图一致性强。
网络架构构成
CLAY的整体框架分为两大部分:几何生成 和 材质生成,两者是分离的。
网络由形状生成模块、纹理生成模块、Hunyuan3D-Studio 平台三部分组成:
- 形状生成模块
- Hunyuan3D-ShapeVAE:编码器采用重要性采样 + 交叉注意力 + 自注意力,将 3D 点云编码为 latent token;解码器将 token 映射为 SDF,通过 Marching Cube 提取 mesh;将采样自Mesh的点云 编码为潜在码 。支持不同分辨率( 从2048, 4096, 8192中随机选择)的输入,以捕获细节。
- Hunyuan3D-DiT:16 层双流 transformer+32 层单流 transformer,输入 DINOv2 图像特征和 timestep 嵌入,输出 latent token,经 ShapeVAE 解码器得到裸 mesh。一个24层的纯Transformer网络(DiT),在潜在空间中对 进行去噪。它通过交叉注意力融入文本等条件特征 。公式简化为:
- 生成流程:文本→CLIP文本编码→DiT在潜在空间去噪生成干净潜在码 → VAE解码器将 和查询点 映射为occupancy值 → 通过Marching Cubes得到初始三角Mesh。
- 纹理生成模块
- 基于MVDream改进的多视角扩散模型。在其UNet最外层卷积中集成了三个分支(对应漫反射、粗糙度、金属度),通过跳过连接实现多模态纹理的并行去噪,确保多视角一致性。它以生成模型的法线贴图为条件,生成多视角PBR图像,再反向投影到网格的UV空间。辅助组件:集成 ControlNet(以法线图为条件)、IPAdapter(支持图像定制)、Text2Tex 修复和 MultiDiffusion 超分模块。
- 预处理:图像去光照模块 + 几何感知视角选择(贪婪搜索选择 8-12 个覆盖最优的视角);
- Hunyuan3D-Paint:基于 Stable Diffusion 2 扩展,含参考分支(固定权重)和生成分支,注入多任务注意力、几何特征(法向图 + 位置图)和相机嵌入;后处理:密集视图推理 + 超分辨率 + 纹理烘焙 + 补洞,生成无缝高分辨率纹理图。
- Hunyuan3D-Studio 平台
- 核心工具:Sketch-to-3D(草图转图像再转 3D)、低多边形风格化(顶点合并 + 纹理烘焙)、3D 角色动画(骨架提取 + 运动重定向);
- 功能:支持 mesh 编辑、纹理替换、动画预览,适配专业和普通用户。
特征提取方法
- 文本特征:使用预训练的CLIP-ViT-L/14模型提取文本特征 ,将文本提示转换为文本特征c,输入 DiT 的交叉注意力层。
- 图像/草图特征:使用预训练的DINOv2模型提取图像或草图的块特征和全局特征,直接通过交叉注意力整合到模型中。
- 3D空间条件特征:对于体素、点云、边界框等具有空间信息的条件,CLAY学习位置编码与特征相结合。例如,对于点云条件,采样点坐标 经过可学习的位置编码模块 $ ext{PosEmb}(





