DeepMesh(Auto-Regressive Artist-mesh Creation with Reinforcement Learning)

基本信息

项目 内容
论文标题 DeepMesh(Auto-Regressive Artist-mesh Creation with Reinforcement Learning)
作者 Ruowen Zhao*, Junliang Ye*, Zhengyi Wang*, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu†(* 共同一作,†通讯作者)
作者单位 Tsinghua University(清华大学)、ShengShu
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 多模态输入,包括点云、图像(图像需先通过 TRELLIS 生成 3D 模型并采样点云)
输出 高质量艺术家风格 Triangle Mesh(三角形网格),支持最高 30k 面数,无贴图材质,专注几何拓扑优化
所属领域 三维生成 (3D Generation)

DiT:Diffuison Transformer

论文核心信息

  • 方法名称:DeepMesh
  • 作者:Ruowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu
  • 第一单位:清华大学 (Tsinghua University)
  • 年份:2025 (arXiv 预印本)
  • 发表情况:暂未标明具体会议/期刊 (作为预印本发布)
  • 任务类型三维生成 (3D Generation)
  • 输入信息:主要支持点云单张图像作为条件输入。
  • 输出信息:输出是三角形网格,特点是具有类似艺术家手工优化的、结构良好的拓扑。

摘要精简

DeepMesh 旨在解决自回归网格生成中序列冗长、训练不稳定、缺乏人类审美对齐的问题,提出一种基于强化学习的艺术家风格网格生成框架。核心创新包括:改进的网格 tokenization 算法(压缩 72% 序列长度且保留细节)、含数据筛选与截断训练的精细化预训练策略,以及首次将直接偏好优化(DPO)引入 3D 自回归模型。通过结合人类评估与 3D 几何指标构建偏好对数据集,利用 DPO 实现输出与人类偏好对齐。该模型以点云或图像为条件,生成拓扑规整、细节丰富的高质量艺术家风格网格,在几何精度和视觉美感上超越现有方法。

引言与出发点

作者在引言中指出,三角形网格是3D资产的基石。传统的体素场方法(如NeRF、SDF)通过Marching Cubes提取的网格虽然几何精度高,但拓扑结构不理想(过于稠密、不规则)。相比之下,艺术家手工创建的网格具有优化良好的拓扑,便于编辑和纹理映射。近年来,自回归模型开始被用于从几何(如点云)生成艺术家风格的网格。
然而,现有自回归方法面临两大挑战:1) 预训练效率低:网格标记化后序列过长,计算成本高;且低质量训练数据导致损失值尖峰,训练不稳定。2) 缺乏与人类偏好的对齐:生成的网格可能出现空洞、缺失部分或冗余结构等几何缺陷,美观度不足。
DeepMesh的出发点正是为了解决这些问题,目标是建立一个更精细化、更高效的预训练框架,并首次引入人类偏好对齐机制,首先生成一个不符人类建模的mesh,然后把他细化为人类建筑风格的Mesh,以生成更高质量、更符合人类审美的网格。


创新点

DeepMesh的主要创新点集中在提升自回归网格生成的效率和质量上:

  1. 高效的网格标记化算法/tokenization 算法:改进了BPT等现有方法,通过局部面遍历(按连通性划分补丁)、分层块索引(将坐标系统分为三级块)和相同偏移合并策略,在 512 分辨率下实现 72% 的序列压缩,同时控制词汇量仅为 4736(远低于 BPT 的 40960),大幅降低计算成本,支持高面数网格训练。
  2. 针对性的预训练策略
    • 数据策划:设计过滤策略,剔除几何结构差、碎片化严重的低质量网格,提升训练数据整体质量,稳定训练过程,将数据集从 800k 精简至 500k。
    • 数据打包与截断训练:根据网格面数对数据进行分类打包,结合滑动窗口的截断训练策略(滑动窗口处理长序列),实现了更好的负载均衡,减少了冗余计算,使模型能够高效处理高多边形(高面数)网格。
  3. 采用 Hourglass Transformer 架构,节省 50% 显存同时保持性能。
  4. 引入强化学习对齐人类偏好(核心创新)首次将直接偏好优化 (DPO) 应用于3D自回归模型。设计了一个结合几何完整性度量(倒角距离)和人工主观评价的评分标准,构建了包含5000对偏好数据的数据集,并使用DPO对预训练模型进行后训练,使模型生成的网格在几何准确性和视觉美观度上都更符合人类偏好。
  5. 多模态条件适配:支持点云和图像两种输入条件,图像通过 TRELLIS 生成 3D 模型后采样点云,再接入点云条件生成流程,实现跨模态高质量网格生成,且生成结果具备多样性(同一输入可生成多种不同拓扑的网格)。

网络架构构成

image-20251204214555563

DeepMesh 整体由预训练模块和 DPO 微调模块两部分构成,核心架构为自回归 Transformer:

  1. 预训练模块:
    • 编码器:点云条件采用基于 Michelangelo 的联合训练 perceiver encoder,将点云特征转换为可被 Transformer 处理的向量表示。
    • Transformer 主体:解码器 - only 自回归结构,每层包含交叉注意力层(融合点云条件特征)、自注意力层和前馈网络;采用 Hourglass Transformer 架构,通过缩短因子 3 和线性层下采样 / 上采样平衡效率与性能。
    • 模型规模:提供小型(5 亿参数)和大型(11 亿参数)两种配置,大型模型含 20 层、14 个注意力头,模型维度 1792,前馈网络维度 7168。
  2. DPO 微调模块:基于预训练模型,引入偏好对数据集(含优选样本y+和非优选样本y−),通过 DPO 损失函数微调模型参数,实现人类偏好对齐。

特征提取方法

  • 点云特征:使用一个与主干网络联合训练的感知器编码器来处理输入的点云,采用 Michelangelo 的 perceiver encoder 联合训练,对输入点云(采样 20k 点,随机选择 16384 个)进行编码,捕捉点云的空间分布与几何结构特征,输出的特征向量通过交叉注意力层融入 Transformer。
  • 图像特征:对于图像条件生成,论文并未详细描述图像编码器。从流程上看,是先用其他模型(如TRELLIS)从单张图像生成一个粗糙的3D模型,然后从中采样点云,再使用上述点云条件生成路径。因此,本质上是将图像条件转化为了点云条件。
  • 网格 token 特征提取:经 tokenization 处理后的网格 token 序列,通过 Transformer 的自注意力层捕捉 token 间的依赖关系(如面与面的连通性),交叉注意力层融合点云条件特征,实现条件约束下的 token 序列生成。

生成模型细节与材质

生成的网格具有复杂的细节和精确的拓扑结构,能够生成多达30k个面的高多边形网格,且网格布线(wireframe)规整,类似于艺术家手工优化的结果。论文聚焦于几何网格的生成,不涉及纹理或材质贴图的生成

材质支持:模型专注于网格几何与拓扑生成,不包含贴图材质生成功能,输出仅为纯几何 Mesh,未涉及 PBR 材质或纹理相关设计。

三维模型生成步骤

  1. 输入预处理:
    • 点云输入:直接对输入点云进行采样(20k 点)和筛选(保留 16384 个点),作为条件输入。
    • 图像输入:先通过 TRELLIS 模型将图像转换为 3D 网格,再从该网格表面采样点云,转换为点云条件输入。
  2. 网格 tokenization:
    • 面遍历:按连通性将网格面划分为局部补丁,避免长程依赖。
    • 坐标量化:将顶点坐标归一化后量化到 512 个区间,按 XYZ 顺序展平。
    • 分层块索引:将坐标系统分为三级块(体积 A=4、B=8、C=16),将量化坐标编码为块内偏移。
    • 偏移合并:合并相邻顶点的相同偏移索引,压缩序列长度,生成最终 token 序列。
  3. 预训练生成:自回归 Transformer 按 token 序列顺序预测下一个 token,直至生成完整的网格 token 序列。
  4. DPO 微调优化:通过偏好对数据集微调模型,使生成的 token 序列对应更符合人类审美的网格。
  5. 解码输出:将生成的 token 序列逆转换为顶点坐标和面索引,得到最终的 Triangle Mesh。

相关工作与比较

  • 基于/参考的工作
    • 自回归网格生成:MeshGPT(VQ-VAE + 自回归 Transformer 架构)、MeshAnythingv2(相邻网格 tokenization)、BPT(压缩式 tokenization)、EdgeRunner(基于 EdgeBreaker 的 tokenization)、Meshtron(Hourglass Transformer 应用)。
    • 3D 生成与重建:TRELLIS(图像到 3D 生成)、Michelangelo(点云编码)、LRM(大规模重建模型)、NeRF/SDF(体素场表示)。
    • 人类反馈强化学习:DPO(直接偏好优化)、RLHF(基于人类反馈的强化学习)。
  • 比较的工作
    • 核心对比对象:MeshAnythingv2(相邻网格 tokenization)、BPT(压缩式 tokenization),均为当前先进的点云条件艺术家风格网格生成方法。
  • 评价指标
    • 几何精度:倒角距离 (Chamfer Distance), 豪斯多夫距离 (Hausdorff Distance)。数值越低越好。
    • 主观质量:用户研究 (User Study),统计志愿者偏好百分比。数值越高越好。

损失函数

  • 预训练阶段:使用标准的自回归语言建模损失(负对数似然),即根据历史标记预测下一个标记。
  • 后训练阶段(偏好对齐):使用直接偏好优化 的损失函数,公式如下:

\mathcal{L}_{ ext{DPO}}\left(\pi_{ heta};\pi_{ ext{ref}} ight) =-\mathbb{E}_{(c,y^{+},y^{-})\sim\mathcal{D}}\Bigg[\log\sigma \Big(eta\log rac{\pi_{ heta}\left(y^{+}\mid c ight)}{\pi_{ ext{ref}}\left(y^{+}\mid c ight)}-eta\log rac{\pi_{ heta}\left(y^{-}\mid c ight)}{\pi_{ ext{ref}}\left(y^{-}\mid c ight)}\Big)\Bigg]

其中,πextref\pi_{ ext{ref}}是预训练的参考模型,πheta\pi_{ heta}是待优化的模型,y+y^{+}yy^{-}是偏好对中的优选和劣选样本,cc是条件,eta是控制偏离参考模型程度的系数。

训练与测试数据集

  • 训练数据集

    • 来源:ShapeNetV2、ABO、HSSD、Objaverse、Objaverse-XL 及授权数据,经数据筛选后保留 500k 高质量样本,平均面数 8k。
    • 数据增强:对网格进行随机旋转(0°、90°、180°、270°),提升模型泛化能力。
    • 输入:从网格表面采样 20k 点,随机选择 16384 个点作为点云条件输入。
    • 输出:对应的高质量艺术家风格 Mesh(拓扑规整、无缺陷)。

    测试数据集

    • 来源:从 TRELLIS 模型生成的 3D 网格中选取 100 个样本,作为测试集。
    • 输入:从测试网格表面均匀采样 1024 个点作为点云条件输入。
    • 输出:生成的 Mesh,用于与基线方法对比几何相似度与视觉美感。

消融实验

论文通过以下实验验证了核心组件的有效性:

  1. 标记化算法:在512分辨率下,与AMT、EdgeRunner、BPT等算法比较了压缩率词汇表大小和在80个高面数网格上的训练时间。结果表明,DeepMesh的算法在压缩率和词汇表大小间取得了良好平衡,且训练效率最高。
  2. DPO后训练
    • 定性对比:展示了使用DPO后训练的模型生成的网格在视觉上更美观(布线更规整,表面更完整)。
    • 定量对比:在点云条件生成任务上,对比了“不带DPO”和“带DPO”的模型。结果显示,带DPO的模型在倒角距离、豪斯多夫距离和用户偏好度上均更优。
  3. 数据策划:展示了在应用数据过滤策略后,训练过程中的损失尖峰显著减少,训练过程变得更加稳定。