论文阅读_Trellis
Trellis
Trellis: Structured 3D Latents for Scalable and Versatile 3D Generation
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Structured 3D Latents for Scalable and Versatile 3D Generation |
| 作者 | Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang |
| 作者单位 | 清华大学, 中国科学技术大学, 微软研究院 |
| 时间 | 2024 |
| 发表会议/期刊 | 未明确指出, 为开源技术报告 |
| 代码链接 | https://github.com/Microsoft/TRELLIS |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 文本描述或单张参考图像 |
| 输出 | 多种格式的高质量3D资产(3D高斯、辐射场、网格) |
| 所属领域 | 3D内容生成 (3D AIGC) |
| 核心思想 | 提出一种统一的结构化潜在表示(SLAT),可解码为多种3D格式,并基于此使用修正流变换器进行两阶段生成。 |
摘要精简
TRELLIS 提出结构化 latent 表示(SLAT),实现高质量、多格式的 3D 资产生成。SLAT 将稀疏 3D 网格与 DINOv2 提取的多视图视觉特征融合,同时捕捉几何与外观信息,支持解码为 3D Gaussians、Radiance Fields、网格等多种格式。模型采用两阶段整流流 transformer:先生成稀疏体素结构,再生成局部 latent;训练了最大 20 亿参数的模型,基于 500K 3D 资产数据集。该方法在文本 / 图像驱动生成中显著超越现有方法,支持无调优局部编辑、细节变体生成,无需 3D 拟合过程,兼顾质量、通用性与灵活性。
引言与出发点
现有的3D生成模型在质量上仍落后于2D生成模型。一个关键挑战在于**3D表示形式的多样性(如网格、点云、辐射场、3D高斯),每种格式各有优劣,且其独特的结构或非结构特性使得难以用统一的网络架构处理,,缺乏像 2D 生成那样的通用 latent 空间,**阻碍了标准化3D生成范式的发展。
本文的目标是开发一个统一且通用的潜在空间,以促进跨各种表示的高质量3D生成,满足多样化的下游需求。为此,作者采用了两个核心策略:1) 在潜在空间设计中引入显式的稀疏3D结构,以实现高效建模并便于局部编辑;2) 为这些稀疏结构配备强大的视觉基础模型(如DINOv2)进行详细的信息编码,以获取全面的几何和外观信息,同时避免了专用的3D编码器和耗时的3D数据预拟合过程。
创新点
- 提出了SLAT:结构化 3D Latent 表示:首次提出了统一的结构化3D潜在表示。它将3D资产编码为一组附着在稀疏3D网格活跃体素上的局部潜在向量 ,其中 表示与物体表面相交的活跃体素位置, 是由密集多视图DINOv2特征聚合得到的局部特征,共同编码了该位置的几何与外观细节。
- 构建了免拟合的训练流程:整个训练过程无需对训练数据进行任何3D拟合(如拟合为高斯或辐射场)。编码器直接从3D资产的多视图图像特征学习SLAT表示,解码器则从SLAT重建出各种3D表示,简化了数据准备流程。
- 设计了两阶段生成流水线:采用了两阶段生成方法。第一阶段使用修正流变换器 生成SLAT的稀疏结构(即活跃体素位置 );第二阶段在给定结构下,使用另一个修正流变换器 生成对应的局部潜在向量 。
- 实现了多格式解码与免调优编辑:学习到的SLAT表示可以通过不同的解码器(, , )灵活地生成3D高斯、辐射场和网格。基于SLAT的局部性,方法还支持免调优的细节变换和区域特异性编辑(如局部删除、添加、替换)。
相关工作总结与对比
相关工作主要分为三类,本文指出了它们的局限:
- 3D生成模型:早期GAN和扩散模型在原始数据空间生成,效率低。近期方法在紧凑潜在空间生成,但要么侧重形状建模需额外贴图,要么基于辐射场/高斯难以精确建模表面,要么使用潜在外观原语但预拟合过程昂贵且有损。本文旨在构建支持高质量多格式解码的通用潜在空间。
- 基于2D生成模型的3D创作(如DreamFusion及其变体):利用2D生成模型通过蒸馏或多视图生成-重建来创建3D。但由于2D模型固有的多视图不一致性,其几何质量通常低于从3D数据直接学习的原生3D模型。
- 修正流模型:作为一种新兴生成范式挑战了扩散模型的地位。本文将其成功扩展到了大规模3D生成任务中。
网络架构构成
整体架构包含三个核心部分:编码器-解码器(用于学习SLAT表示)和两阶段生成器(用于从条件生成SLAT)。
- 结构化潜在编码器 :一个基于Transformer的VAE编码器。输入是3D资产的体素化视觉特征 (由多视图DINOv2特征聚合得到),输出是结构化潜在 。它处理序列化的活跃体素特征,并使用3D移位窗口注意力来增强局部信息交互并提升效率。
- 多格式解码器 :与编码器共享相同的Transformer主干结构,仅输出层不同。 将每个 解码为K个3D高斯属性; 解码为局部辐射场的CP分解向量; 则解码为用于FlexiCubes网格提取的参数和符号距离值。
- 两阶段生成器:
- 稀疏结构生成器 :一个Transformer,用于生成压缩后的低分辨率结构特征网格 ,随后解码为二值网格并提取活跃体素 。
- 结构化潜在生成器 :一个为稀疏结构设计的Transformer。它首先对输入噪声潜在进行稀疏卷积下采样以压缩序列长度,经过时间调制Transformer块处理,最后再上采样回原始分辨率以生成 。 和 均使用修正流目标函数进行训练。
特征提取方法
特征提取的核心是从多视图图像中聚合视觉特征以构建体素化特征 :
- 对于一个3D资产 ,从球面上随机采样相机视角渲染密集的多视图图像。
- 使用预训练的DINOv2编码器提取这些图像的特征图。
- 对于每个活跃体素 ,将其投影到所有多视图特征图上,并在对应位置检索特征,然后对这些特征取平均值作为该体素的视觉特征 。
- 所有 构成了资产在 分辨率下的体素化特征表示,它融合了DINOv2的强表征能力和活跃体素提供的粗糙结构信息。
三维物体生成步骤
给定文本或图像条件,生成一个3D物体的步骤如下:
- 生成稀疏结构:条件(文本CLIP特征或图像DINOv2特征)输入到稀疏结构生成器 。 从一个噪声网格开始,通过修正流去噪过程,生成一个表示物体粗略形状的二值活性体素网格,并从中提取出活跃体素位置集合 。
- 生成结构化潜在:将上一步得到的结构 和相同的条件输入到结构化潜在生成器 。 为每个活跃体素 生成对应的局部潜在向量 ,从而得到完整的结构化潜在表示 。
- 解码为目标格式:将生成的 输入到特定的解码器(如 用于3D高斯, 用于网格),即可得到最终的高质量3D资产。
训练、测试数据集与对比结果
- 训练数据集:从4个公开数据集中精心筛选约50万个高质量3D资产,包括Objaverse (XL), ABO, 3DFUTURE, HSSD。每个资产渲染150张图像,并使用GPT-4o生成描述。
- 测试数据集:主要使用 Toys4k 数据集进行评估,该数据集未包含在训练集及对比方法的训练集中。
- 对比方法:与多种前沿方法比较,包括2D辅助方法(InstantMesh, LGM)和3D生成方法(GaussianCube, Shap-E, 3DTopia-XL, LN3Diff)。
- 对比结果:
- 重建保真度:在Toys4k上,本文方法在PSNR、LPIPS、Chamfer Distance等所有外观和几何指标上均显著优于基线方法。
- 生成质量:定量上,在文本/图像到3D的生成任务中,本文方法的CLIP分数、基于各种特征(Inception, DINOv2, PointNet++)的FD和KD距离均全面领先。视觉对比显示,本文方法生成的资产具有更生动的外观、更精细的几何结构以及与提示更精确的对齐。
- 用户研究:超过100名参与者的研究表明,无论是文本还是图像条件,用户都显著更偏好本文方法生成的结果(文本-3D:67.1%, 图像-3D:94.5%)。
消融实验内容与验证
- 结构化潜在的大小:测试了不同潜在分辨率(, )和通道数。结果表明,将分辨率从 提升到 能带来显著的性能提升,因此采用 作为默认设置。
- 修正流 vs. 扩散模型:在两个生成阶段分别用扩散模型替换修正流模型进行对比。实验表明,在任何阶段使用修正流模型都能提升生成质量和提示对齐度。
- 模型规模:训练了参数分别为342M (B), 1.1B (L), 2B (XL) 的模型。结果显示,增加模型参数量能够持续提升在训练集分布和Toys4k测试集上的生成性能。
- 时间步采样分布:对比了不同的时间步采样分布(logitNorm(0,1) vs logitNorm(1,1)),发现后者更适合本任务。
其他
- 应用展示:论文还展示了方法在3D资产变体生成(保持结构,变化细节)和区域特异性编辑(基于文本/图像提示对局部区域进行删除、添加、替换)上的能力,这些操作都是免调优的。
- 贡献总结:该方法在质量、通用性和可编辑性方面均表现出色,为数字生产中的广泛应用提供了强大基础。所有代码、模型和数据均已开源。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!



