CLAY

基本信息

项目	内容
论文标题	CLAY（Controllable Large-scale Generative Model for Creating High-quality 3D Assets）
作者	LONGWEN ZHANG, ZIYU WANG, QIXUAN ZHANG 等
作者单位	上海科技大学 (ShanghaiTech University)、Deemos Technology Co., Ltd.
时间	2024
发表会议/期刊

方法概览

特点	文章性质
输入	支持多模态输入，包括文本、单张图像、草图、多视角图像、体素、点云、边界框等。
输出	是带有高保真PBR材质贴图的Mesh模型。其内部几何表示使用occupancy field，最终通过Marching Cubes算法提取为Mesh。
所属领域	三维生成 (3D Generation)

DiT:Diffuison Transformer

首次提出原生几何生成器

关键是提出用把Mesh采样成2048点云作为latent，就可以使用diffusion进行生成

摘要精简

CLAY是一个可控的大规模生成模型，旨在高质量地创建3D数字资产。它支持从文本、图像到多种3D原语（如多视角图、体素、点云）的输入控制。其核心是一个包含多分辨率变分自编码器（VAE）和简约的潜在扩散变换器（DiT）的大规模生成模型，直接从多样的3D几何数据中提取先验。此外，CLAY通过一个多视角材质扩散模型生成基于物理的渲染（PBR）纹理。它能够将粗略的概念设计转化为包含复杂细节、可用于生产流程的3D资产。

采用渐进式训练方案，在超大规模 3D 数据集上训练得到 15 亿参数的 3D 原生几何生成器；通过多视图材质扩散模型生成 2K 分辨率 PBR 材质。支持多模态控制，从概念设计到生产级资产均可高效生成，无需专业技能即可实现 3D 创作。

引言与出发点

**当前最先进的3D资产生成技术主要采用两种不同的策略：一种是将2D生成提升到3D，另一种是采用3D原生策略。**简而言之：
- 前一种方法利用2D生成模型[Rombach et al. 2022; Saharia et al. 2022]（SD和Imagen），通过复杂的优化技术如得分蒸馏[Poole et al. 2023; Wang et al. 2023]（SDS）来生成3D形状，或者进一步改进2D模型以实现多视图生成[Liu et al. 2023c; Shi et al. 2024]（Zero123和Zero123++）。这些方法通过预训练的2D生成模型解决了多样化的外观生成问题。然而，由于2D先验知识不容易直接转换为一致的3D几何结构，这些基于2D生成的方法通常缺乏基础模型中应有的明确3D控制（例如保持线条、角度、平面等），因此难以维持高几何保真度。基于2D升维+SDS的优化思路太慢了，基本上无法投入实际使用从2D多视图里通过训练nerf/3dgs再提取mesh，或者利用NeuS等MVS的三维重建方法直接提取mesh，这些方法暂时没有特别好的，目前从效果上来看不如LRM，但是思路都值得参考借鉴
- 相比之下，3D原生方法尝试直接从3D数据集[Chang et al. 2015; Deitke et al. 2023]（ShapeNet和Objaverse）训练生成模型，3D形状可以通过显式形式（如点云[Nichol et al. 2022]（PointE）、网格[Nash et al. 2020（Polygen）; Siddiqui et al. 2024]（MeshGPT））或隐式形式（如神经场[Chen and Zhang 2019; Zhang et al. 2023c]（3DShape2VecSet））表示。这些方法能够更好地“理解”并保留几何特征，
  - 为解决2D技术中的挑战，出现了一类新的解决方案，试图将3D形状作为先验。尽管One-2-3-45 [Liu et al. 2023d] 被认为是利用2D图像先验，但巧妙地使用NeuS作为几何代理揭示了将3D形状作为先验的可能性。例如，Instant3D [Li et al. 2023]、LRM [Hong et al. 2024; Wang et al. 2024]、DMV3D [Xu et al. 2024] 和TGS [Zou et al. 2024] 进一步利用稀疏视图或单视图重建器，这些重建器使用视觉Transformer (ViT) 作为视觉骨干网络，结合深度Transformer架构直接重建具有颜色和密度属性的NeRF。因此，它们通常被称为大型重建模型（LRMs）。然而，这些技术仍然集中在最小化体积渲染损失上，而不是显式生成表面，导致几何粗糙或噪声较大。但除非使用更大的模型[Ren et al. 2024（XCube^3）; Yariv et al. 2024（Mosaic SDF）]，否则其生成能力有限。然而，较大的模型需要在更大的数据集上进行训练，而这正是3D生成旨在解决的问题。
  - 显然，生成3D的最直接做法是直接在3D数据集上进行训练，而不是在2D图像或图像诱导的3D形状上。早期方法[Choy et al. 2016; Fan et al. 2017; Groueix et al. 2018; Mescheder et al. 2019; Tang et al. 2019, 2021a] 主要利用3D卷积网络来理解3D网格结构。Point-E [Nichol et al. 2022] 首次尝试使用纯Transformer的扩散模型直接对点云进行去噪。该方法因其简洁性和高效性而引人注目，但在将生成的点云转换为精确的常见网格表面时面临巨大困难。Polygen [Nash et al. 2020] 和MeshGPT [Siddiqui et al. 2024] 则采用了通过点和表面序列来原生表示网格的不同方法。这些模型能够生成极高质量的网格，但它们对小规模高质量数据集的依赖限制了其广泛的适用性。XCube [Ren et al. 2024] 提出了一种将几何简化为多分辨率体素的策略，然后进行扩散。这简化了过程，但在处理复杂的提示和支持广泛的下游任务方面面临挑战，从而限制了整体的灵活性。值得注意的是，不同的3D生成技术依赖于不同的数据集。这并不奇怪，因为它们基于不同的几何表示，但也带来了问题，即需要一个统一的数据集来包含所有可用的形状。
  - 尝试之一是将几何体统一表示为有符号距离场（SDF）[Park et al. 2019; Yariv et al. 2024]、occupancy（占用场）[Peng et al. 2020; Tang et al. 2021b]，或两者兼而有之[Liu et al. 2024b(One-2-3-45++); Zheng et al. 2023]，并直接在3D数据集上进行训练。这些方法相比于NeRF在学习和提取表面方面提供了更明确的机制，但需要对水密(watertight)网格进行潜在编码以进行生成。模型如DeepSDF [Park et al. 2019] 和Mosaic-SDF [Yariv et al. 2024] 利用优化技术为训练数据集中的每个几何体创建唯一表示，这在训练过程中效率不高，因为它们不能从自动编码器中获益。其他模型如SDFusion [Cheng et al. 2023] 和ShapeGPT [Yin et al. 2023] 采用直观的3D VAE（变分自动编码器）进行几何编码并重建SDF场。这些方法主要在ShapeNet [Chang et al. 2015] 数据集上训练或测试，生成的形状多样性和种类有限。3DGen [Gupta et al. 2023] 使用三平面VAE进行SDF场的编码和解码，而Shap-E [Jun and Nichol 2023]、3DShape2VecSet [Zhang et al. 2023c] 和Michelangelo [Zhao et al. 2023] 则采用了不同的路径，通过Transformer对输入点云进行编码，生成解码网络的参数，标志着3D生成模型中更复杂神经网络架构的出现。
作者在引言中指出，现有的3D创作工具需要大量专业知识和手动劳动，限制了创造力的发挥。当前的3D生成技术主要有两条路径：1）基于2D生成模型提升至3D（如利用2D扩散模型先验），这类方法几何保真度低，缺乏精确的3D控制；2）直接在3D数据集上训练的原生方法，这类方法能更好地理解几何，但受限于模型规模和数据稀缺，生成多样性和质量不足。
CLAY的出发点是结合两者优势，遵循在图文生成中成功的“预训练-适配”范式。它旨在通过构建一个大规模、三维原生的几何生成基础模型来解决3D数据稀缺问题，并分离几何与外观生成，最终生成可直接用于现有CG管线的、带有PBR材质的完整3D资产。
CLAY的核心是一个大型生成模型，能够直接从多种3D几何中提取丰富的3D先验信息。具体而言，我们采用3DShape2VecSet[Zhang et al. 2023c]中的神经场设计，以描绘连续和完整的表面，并通过定制的多分辨率几何变分自编码器（VAE）进行编码。我们在潜在空间中自适应调整潜在大小的几何生成模块，并引入最小化的潜在扩散变压器（DiT）以实现几何生成的概率性。在模型的逐步训练中，我们谨慎地增加潜在大小和模型参数，最终形成了一个具有15亿参数的3D原生几何生成器。训练样本的质量对于细致的几何生成至关重要，特别是在可用的3D数据集规模有限的情况下。因此，我们提出了一种新的数据处理流程，以标准化多样化的3D数据并提高数据质量。具体而言，包括重新网格化过程，将各种3D表面转换为占用场，保留重要的几何特征，如尖锐的边缘和平面。同时，我们利用GPT-4V [OpenAI 2023] 的能力生成稳健的注释，以突出这些几何特征。

创新点

CLAY的主要创新点可归纳为以下几点：

大规模三维原生生成架构：设计多分辨率 VAE + 纯 Transformer 结构的 DiT，通过渐进式训练（逐步增大潜变量长度和模型参数）实现 15 亿参数规模，直接从 3D 数据中学习几何先验，生成质量和多样性远超现有小模型。
渐进式训练方案与高效架构：采用了包含多分辨率VAE和纯Transformer块DiT的架构，并设计了渐进式训练策略（逐步增加潜在码长度和模型规模），实现了模型的高效规模化。
数据标准化与高质量标注流程：为解决3D数据格式不一、质量参差的问题，设计了一套数据预处理流程，包括基于无符号距离场的几何统一化方法和利用GPT-4V进行自动精细化标注，统一 ShapeNet 和 Objaverse 等数据集格式，构建 527K 高质量训练样本库，从而整合并提升了训练数据质量。
统一的多模态条件控制：在预训练基础模型上，通过统一的残差交叉注意力框架，高效适配了文本、图像、草图、体素、边界框、稀疏点云、多视角图像、局部点云补全等极其丰富的控制条件，实现了高度可控的生成。
分离式几何与材质生成：先通过 VAE+DiT 生成高精度几何 Mesh，再通过改进的多视图材质扩散模型生成 PBR 材质，避免两者纠缠导致的质量下降，支持材质独立编辑。
高质量的PBR材质生成：提出一个多视角材质扩散模型，修改 MVDream 架构，新增三分支 UNet 卷积层，同时生成漫反射、粗糙度、金属度模态，结合 ControlNet 和超分技术（Real-ESRGAN）实现 2K 分辨率材质，且视图一致性强。

网络架构构成

CLAY的整体框架分为两大部分：几何生成 和 材质生成，两者是分离的。

网络由形状生成模块、纹理生成模块、Hunyuan3D-Studio 平台三部分组成：

形状生成模块
- Hunyuan3D-ShapeVAE：编码器采用重要性采样 + 交叉注意力 + 自注意力，将 3D 点云编码为 latent token；解码器将 token 映射为 SDF，通过 Marching Cube 提取 mesh；将采样自Mesh的点云 $\mathbf{X} \in \mathbb{R}^{N imes 3}$ 编码为潜在码 $\mathbf{Z} \in \mathbb{R}^{L imes 64}$ 。支持不同分辨率（ $N$ 从2048, 4096, 8192中随机选择）的输入，以捕获细节。
- Hunyuan3D-DiT：16 层双流 transformer+32 层单流 transformer，输入 DINOv2 图像特征和 timestep 嵌入，输出 latent token，经 ShapeVAE 解码器得到裸 mesh。一个24层的纯Transformer网络（DiT），在潜在空间中对 $\mathbf{Z}_t$ 进行去噪。它通过交叉注意力融入文本等条件特征 $\mathbf{c}$ 。公式简化为：
- 生成流程：文本→CLIP文本编码→DiT在潜在空间去噪生成干净潜在码 $\mathbf{Z}_0$ → VAE解码器将 $\mathbf{Z}_0$ 和查询点 $\mathbf{p}$ 映射为occupancy值 → 通过Marching Cubes得到初始三角Mesh。
纹理生成模块
- 基于MVDream改进的多视角扩散模型。在其UNet最外层卷积中集成了三个分支（对应漫反射、粗糙度、金属度），通过跳过连接实现多模态纹理的并行去噪，确保多视角一致性。它以生成模型的法线贴图为条件，生成多视角PBR图像，再反向投影到网格的UV空间。辅助组件：集成 ControlNet（以法线图为条件）、IPAdapter（支持图像定制）、Text2Tex 修复和 MultiDiffusion 超分模块。
- 预处理：图像去光照模块 + 几何感知视角选择（贪婪搜索选择 8-12 个覆盖最优的视角）；
- Hunyuan3D-Paint：基于 Stable Diffusion 2 扩展，含参考分支（固定权重）和生成分支，注入多任务注意力、几何特征（法向图 + 位置图）和相机嵌入；后处理：密集视图推理 + 超分辨率 + 纹理烘焙 + 补洞，生成无缝高分辨率纹理图。
Hunyuan3D-Studio 平台
- 核心工具：Sketch-to-3D（草图转图像再转 3D）、低多边形风格化（顶点合并 + 纹理烘焙）、3D 角色动画（骨架提取 + 运动重定向）；
- 功能：支持 mesh 编辑、纹理替换、动画预览，适配专业和普通用户。

特征提取方法

文本特征：使用预训练的CLIP-ViT-L/14模型提取文本特征 $\mathbf{c}$ ,将文本提示转换为文本特征c，输入 DiT 的交叉注意力层。
图像/草图特征：使用预训练的DINOv2模型提取图像或草图的块特征和全局特征，直接通过交叉注意力整合到模型中。
3D空间条件特征：对于体素、点云、边界框等具有空间信息的条件，CLAY学习位置编码与特征相结合。例如，对于点云条件，采样点坐标 $\mathbf{p}$ 经过可学习的位置编码模块 $ ext{PosEmb}(