Trellis

Trellis: Structured 3D Latents for Scalable and Versatile 3D Generation

基本信息

项目 内容
论文标题 Structured 3D Latents for Scalable and Versatile 3D Generation
作者 Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
作者单位 清华大学, 中国科学技术大学, 微软研究院
时间 2024
发表会议/期刊 未明确指出, 为开源技术报告
代码链接 https://github.com/Microsoft/TRELLIS

方法概览

特点 文章性质
输入 文本描述或单张参考图像
输出 多种格式的高质量3D资产(3D高斯、辐射场、网格)
所属领域 3D内容生成 (3D AIGC)
核心思想 提出一种统一的结构化潜在表示(SLAT),可解码为多种3D格式,并基于此使用修正流变换器进行两阶段生成。

摘要精简

TRELLIS 提出结构化 latent 表示(SLAT),实现高质量、多格式的 3D 资产生成。SLAT 将稀疏 3D 网格与 DINOv2 提取的多视图视觉特征融合,同时捕捉几何与外观信息,支持解码为 3D Gaussians、Radiance Fields、网格等多种格式。模型采用两阶段整流流 transformer:先生成稀疏体素结构,再生成局部 latent;训练了最大 20 亿参数的模型,基于 500K 3D 资产数据集。该方法在文本 / 图像驱动生成中显著超越现有方法,支持无调优局部编辑、细节变体生成,无需 3D 拟合过程,兼顾质量、通用性与灵活性。

引言与出发点

现有的3D生成模型在质量上仍落后于2D生成模型。一个关键挑战在于**3D表示形式的多样性(如网格、点云、辐射场、3D高斯),每种格式各有优劣,且其独特的结构或非结构特性使得难以用统一的网络架构处理,,缺乏像 2D 生成那样的通用 latent 空间,**阻碍了标准化3D生成范式的发展。

本文的目标是开发一个统一且通用的潜在空间,以促进跨各种表示的高质量3D生成,满足多样化的下游需求。为此,作者采用了两个核心策略:1) 在潜在空间设计中引入显式的稀疏3D结构,以实现高效建模并便于局部编辑;2) 为这些稀疏结构配备强大的视觉基础模型(如DINOv2)进行详细的信息编码,以获取全面的几何和外观信息,同时避免了专用的3D编码器和耗时的3D数据预拟合过程。

创新点

  1. 提出了SLAT:结构化 3D Latent 表示:首次提出了统一的结构化3D潜在表示。它将3D资产编码为一组附着在稀疏3D网格活跃体素上的局部潜在向量 z={(zi,pi)}z = \{(z_i, p_i)\},其中 pip_i 表示与物体表面相交的活跃体素位置,ziz_i 是由密集多视图DINOv2特征聚合得到的局部特征,共同编码了该位置的几何与外观细节。
  2. 构建了免拟合的训练流程:整个训练过程无需对训练数据进行任何3D拟合(如拟合为高斯或辐射场)。编码器直接从3D资产的多视图图像特征学习SLAT表示,解码器则从SLAT重建出各种3D表示,简化了数据准备流程。
  3. 设计了两阶段生成流水线:采用了两阶段生成方法。第一阶段使用修正流变换器 GS\mathcal{G}_S 生成SLAT的稀疏结构(即活跃体素位置 {pi}\{p_i\});第二阶段在给定结构下,使用另一个修正流变换器 GL\mathcal{G}_L 生成对应的局部潜在向量 {zi}\{z_i\}
  4. 实现了多格式解码与免调优编辑:学习到的SLAT表示可以通过不同的解码器(DGS\mathcal{D}_{GS}, DRF\mathcal{D}_{RF}, DM\mathcal{D}_{M})灵活地生成3D高斯、辐射场和网格。基于SLAT的局部性,方法还支持免调优的细节变换和区域特异性编辑(如局部删除、添加、替换)。

相关工作总结与对比

相关工作主要分为三类,本文指出了它们的局限:

  1. 3D生成模型:早期GAN和扩散模型在原始数据空间生成,效率低。近期方法在紧凑潜在空间生成,但要么侧重形状建模需额外贴图,要么基于辐射场/高斯难以精确建模表面,要么使用潜在外观原语但预拟合过程昂贵且有损。本文旨在构建支持高质量多格式解码的通用潜在空间。
  2. 基于2D生成模型的3D创作(如DreamFusion及其变体):利用2D生成模型通过蒸馏或多视图生成-重建来创建3D。但由于2D模型固有的多视图不一致性,其几何质量通常低于从3D数据直接学习的原生3D模型。
  3. 修正流模型:作为一种新兴生成范式挑战了扩散模型的地位。本文将其成功扩展到了大规模3D生成任务中。

网络架构构成

image-20251219143027748

整体架构包含三个核心部分:编码器-解码器(用于学习SLAT表示)和两阶段生成器(用于从条件生成SLAT)。

  1. 结构化潜在编码器 E\mathcal{E}:一个基于Transformer的VAE编码器。输入是3D资产的体素化视觉特征 f{f}(由多视图DINOv2特征聚合得到),输出是结构化潜在 z{z}。它处理序列化的活跃体素特征,并使用3D移位窗口注意力来增强局部信息交互并提升效率。
  2. 多格式解码器 DGS/RF/M\mathcal{D}_{GS/RF/M}:与编码器共享相同的Transformer主干结构,仅输出层不同。DGS\mathcal{D}_{GS} 将每个 ziz_i 解码为K个3D高斯属性;DRF\mathcal{D}_{RF} 解码为局部辐射场的CP分解向量;DM\mathcal{D}_{M} 则解码为用于FlexiCubes网格提取的参数和符号距离值。
  3. 两阶段生成器
    • 稀疏结构生成器 GS\mathcal{G}_S:一个Transformer,用于生成压缩后的低分辨率结构特征网格 S{S},随后解码为二值网格并提取活跃体素 {pi}\{p_i\}
    • 结构化潜在生成器 GL\mathcal{G}_L:一个为稀疏结构设计的Transformer。它首先对输入噪声潜在进行稀疏卷积下采样以压缩序列长度,经过时间调制Transformer块处理,最后再上采样回原始分辨率以生成 {zi}\{z_i\}GS\mathcal{G}_SGL\mathcal{G}_L 均使用修正流目标函数进行训练。

特征提取方法

特征提取的核心是从多视图图像中聚合视觉特征以构建体素化特征 f{f}

  1. 对于一个3D资产 O\mathcal{O},从球面上随机采样相机视角渲染密集的多视图图像。
  2. 使用预训练的DINOv2编码器提取这些图像的特征图。
  3. 对于每个活跃体素 pi{p}_i,将其投影到所有多视图特征图上,并在对应位置检索特征,然后对这些特征取平均值作为该体素的视觉特征 fi{f}_i
  4. 所有 {(fi,pi)}\{({f}_i, {p}_i)\} 构成了资产在 64364^3 分辨率下的体素化特征表示,它融合了DINOv2的强表征能力和活跃体素提供的粗糙结构信息。

三维物体生成步骤

给定文本或图像条件,生成一个3D物体的步骤如下:

  1. 生成稀疏结构:条件(文本CLIP特征或图像DINOv2特征)输入到稀疏结构生成器 GS\mathcal{G}_SGS\mathcal{G}_S 从一个噪声网格开始,通过修正流去噪过程,生成一个表示物体粗略形状的二值活性体素网格,并从中提取出活跃体素位置集合 {pi}i=1L\{p_i\}_{i=1}^L
  2. 生成结构化潜在:将上一步得到的结构 {pi}\{p_i\} 和相同的条件输入到结构化潜在生成器 GL\mathcal{G}_LGL\mathcal{G}_L 为每个活跃体素 pip_i 生成对应的局部潜在向量 ziz_i,从而得到完整的结构化潜在表示 z={(zi,pi)}z = \{(z_i, p_i)\}
  3. 解码为目标格式:将生成的 zz 输入到特定的解码器(如 DGS\mathcal{D}_{GS} 用于3D高斯,DM\mathcal{D}_{M} 用于网格),即可得到最终的高质量3D资产。

训练、测试数据集与对比结果

  • 训练数据集:从4个公开数据集中精心筛选约50万个高质量3D资产,包括Objaverse (XL), ABO, 3DFUTURE, HSSD。每个资产渲染150张图像,并使用GPT-4o生成描述。
  • 测试数据集:主要使用 Toys4k 数据集进行评估,该数据集未包含在训练集及对比方法的训练集中。
  • 对比方法:与多种前沿方法比较,包括2D辅助方法(InstantMesh, LGM)和3D生成方法(GaussianCube, Shap-E, 3DTopia-XL, LN3Diff)。
  • 对比结果
    • 重建保真度:在Toys4k上,本文方法在PSNR、LPIPS、Chamfer Distance等所有外观和几何指标上均显著优于基线方法。
    • 生成质量:定量上,在文本/图像到3D的生成任务中,本文方法的CLIP分数、基于各种特征(Inception, DINOv2, PointNet++)的FD和KD距离均全面领先。视觉对比显示,本文方法生成的资产具有更生动的外观、更精细的几何结构以及与提示更精确的对齐。
    • 用户研究:超过100名参与者的研究表明,无论是文本还是图像条件,用户都显著更偏好本文方法生成的结果(文本-3D:67.1%, 图像-3D:94.5%)。

消融实验内容与验证

  1. 结构化潜在的大小:测试了不同潜在分辨率(32332^3, 64364^3)和通道数。结果表明,将分辨率从 32332^3 提升到 64364^3 能带来显著的性能提升,因此采用 64364^3 作为默认设置。
  2. 修正流 vs. 扩散模型:在两个生成阶段分别用扩散模型替换修正流模型进行对比。实验表明,在任何阶段使用修正流模型都能提升生成质量和提示对齐度。
  3. 模型规模:训练了参数分别为342M (B), 1.1B (L), 2B (XL) 的模型。结果显示,增加模型参数量能够持续提升在训练集分布和Toys4k测试集上的生成性能。
  4. 时间步采样分布:对比了不同的时间步采样分布(logitNorm(0,1) vs logitNorm(1,1)),发现后者更适合本任务。

其他

  • 应用展示:论文还展示了方法在3D资产变体生成(保持结构,变化细节)和区域特异性编辑(基于文本/图像提示对局部区域进行删除、添加、替换)上的能力,这些操作都是免调优的。
  • 贡献总结:该方法在质量、通用性和可编辑性方面均表现出色,为数字生产中的广泛应用提供了强大基础。所有代码、模型和数据均已开源。