DeepMesh（Auto-Regressive Artist-mesh Creation with Reinforcement Learning）

基本信息

项目	内容
论文标题	DeepMesh（Auto-Regressive Artist-mesh Creation with Reinforcement Learning）
作者	Ruowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu†（共同一作，†通讯作者）
作者单位	Tsinghua University（清华大学）、ShengShu
时间	2025
发表会议/期刊

方法概览

特点	文章性质
输入	多模态输入，包括点云、图像（图像需先通过 TRELLIS 生成 3D 模型并采样点云）
输出	高质量艺术家风格 Triangle Mesh（三角形网格），支持最高 30k 面数，无贴图材质，专注几何拓扑优化
所属领域	三维生成 (3D Generation)

DiT:Diffuison Transformer

论文核心信息

方法名称：DeepMesh
作者：Ruowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu
第一单位：清华大学 (Tsinghua University)
年份：2025 (arXiv 预印本)
发表情况：暂未标明具体会议/期刊 (作为预印本发布)
任务类型：三维生成 (3D Generation)
输入信息：主要支持点云或单张图像作为条件输入。
输出信息：输出是三角形网格，特点是具有类似艺术家手工优化的、结构良好的拓扑。

摘要精简

DeepMesh 旨在解决自回归网格生成中序列冗长、训练不稳定、缺乏人类审美对齐的问题，提出一种基于强化学习的艺术家风格网格生成框架。核心创新包括：改进的网格 tokenization 算法（压缩 72% 序列长度且保留细节）、含数据筛选与截断训练的精细化预训练策略，以及首次将直接偏好优化（DPO）引入 3D 自回归模型。通过结合人类评估与 3D 几何指标构建偏好对数据集，利用 DPO 实现输出与人类偏好对齐。该模型以点云或图像为条件，生成拓扑规整、细节丰富的高质量艺术家风格网格，在几何精度和视觉美感上超越现有方法。

引言与出发点

作者在引言中指出，三角形网格是3D资产的基石。传统的体素场方法（如NeRF、SDF）通过Marching Cubes提取的网格虽然几何精度高，但拓扑结构不理想（过于稠密、不规则）。相比之下，艺术家手工创建的网格具有优化良好的拓扑，便于编辑和纹理映射。近年来，自回归模型开始被用于从几何（如点云）生成艺术家风格的网格。
然而，现有自回归方法面临两大挑战：1) 预训练效率低：网格标记化后序列过长，计算成本高；且低质量训练数据导致损失值尖峰，训练不稳定。2) 缺乏与人类偏好的对齐：生成的网格可能出现空洞、缺失部分或冗余结构等几何缺陷，美观度不足。
DeepMesh的出发点正是为了解决这些问题，目标是建立一个更精细化、更高效的预训练框架，并首次引入人类偏好对齐机制,首先生成一个不符人类建模的mesh，然后把他细化为人类建筑风格的Mesh，以生成更高质量、更符合人类审美的网格。

创新点

DeepMesh的主要创新点集中在提升自回归网格生成的效率和质量上：

高效的网格标记化算法/tokenization 算法：改进了BPT等现有方法，通过局部面遍历（按连通性划分补丁）、分层块索引（将坐标系统分为三级块）和相同偏移合并策略，在 512 分辨率下实现 72% 的序列压缩，同时控制词汇量仅为 4736（远低于 BPT 的 40960），大幅降低计算成本，支持高面数网格训练。
针对性的预训练策略：
- 数据策划：设计过滤策略，剔除几何结构差、碎片化严重的低质量网格，提升训练数据整体质量，稳定训练过程，将数据集从 800k 精简至 500k。
- 数据打包与截断训练：根据网格面数对数据进行分类打包，结合滑动窗口的截断训练策略（滑动窗口处理长序列），实现了更好的负载均衡，减少了冗余计算，使模型能够高效处理高多边形（高面数）网格。
采用 Hourglass Transformer 架构，节省 50% 显存同时保持性能。
引入强化学习对齐人类偏好（核心创新）：首次将直接偏好优化 (DPO) 应用于3D自回归模型。设计了一个结合几何完整性度量（倒角距离）和人工主观评价的评分标准，构建了包含5000对偏好数据的数据集，并使用DPO对预训练模型进行后训练，使模型生成的网格在几何准确性和视觉美观度上都更符合人类偏好。
多模态条件适配：支持点云和图像两种输入条件，图像通过 TRELLIS 生成 3D 模型后采样点云，再接入点云条件生成流程，实现跨模态高质量网格生成，且生成结果具备多样性（同一输入可生成多种不同拓扑的网格）。

网络架构构成

DeepMesh 整体由预训练模块和 DPO 微调模块两部分构成，核心架构为自回归 Transformer：

预训练模块：
- 编码器：点云条件采用基于 Michelangelo 的联合训练 perceiver encoder，将点云特征转换为可被 Transformer 处理的向量表示。
- Transformer 主体：解码器 - only 自回归结构，每层包含交叉注意力层（融合点云条件特征）、自注意力层和前馈网络；采用 Hourglass Transformer 架构，通过缩短因子 3 和线性层下采样 / 上采样平衡效率与性能。
- 模型规模：提供小型（5 亿参数）和大型（11 亿参数）两种配置，大型模型含 20 层、14 个注意力头，模型维度 1792，前馈网络维度 7168。
DPO 微调模块：基于预训练模型，引入偏好对数据集（含优选样本y+和非优选样本y−），通过 DPO 损失函数微调模型参数，实现人类偏好对齐。

特征提取方法

点云特征：使用一个与主干网络联合训练的感知器编码器来处理输入的点云，采用 Michelangelo 的 perceiver encoder 联合训练，对输入点云（采样 20k 点，随机选择 16384 个）进行编码，捕捉点云的空间分布与几何结构特征，输出的特征向量通过交叉注意力层融入 Transformer。
图像特征：对于图像条件生成，论文并未详细描述图像编码器。从流程上看，是先用其他模型（如TRELLIS）从单张图像生成一个粗糙的3D模型，然后从中采样点云，再使用上述点云条件生成路径。因此，本质上是将图像条件转化为了点云条件。
网格 token 特征提取：经 tokenization 处理后的网格 token 序列，通过 Transformer 的自注意力层捕捉 token 间的依赖关系（如面与面的连通性），交叉注意力层融合点云条件特征，实现条件约束下的 token 序列生成。

生成模型细节与材质

生成的网格具有复杂的细节和精确的拓扑结构，能够生成多达30k个面的高多边形网格，且网格布线（wireframe）规整，类似于艺术家手工优化的结果。论文聚焦于几何网格的生成，不涉及纹理或材质贴图的生成。

材质支持：模型专注于网格几何与拓扑生成，不包含贴图材质生成功能，输出仅为纯几何 Mesh，未涉及 PBR 材质或纹理相关设计。

三维模型生成步骤

输入预处理：
- 点云输入：直接对输入点云进行采样（20k 点）和筛选（保留 16384 个点），作为条件输入。
- 图像输入：先通过 TRELLIS 模型将图像转换为 3D 网格，再从该网格表面采样点云，转换为点云条件输入。
网格 tokenization：
- 面遍历：按连通性将网格面划分为局部补丁，避免长程依赖。
- 坐标量化：将顶点坐标归一化后量化到 512 个区间，按 XYZ 顺序展平。
- 分层块索引：将坐标系统分为三级块（体积 A=4、B=8、C=16），将量化坐标编码为块内偏移。
- 偏移合并：合并相邻顶点的相同偏移索引，压缩序列长度，生成最终 token 序列。
预训练生成：自回归 Transformer 按 token 序列顺序预测下一个 token，直至生成完整的网格 token 序列。
DPO 微调优化：通过偏好对数据集微调模型，使生成的 token 序列对应更符合人类审美的网格。
解码输出：将生成的 token 序列逆转换为顶点坐标和面索引，得到最终的 Triangle Mesh。

损失函数

预训练阶段：使用标准的自回归语言建模损失（负对数似然），即根据历史标记预测下一个标记。
后训练阶段（偏好对齐）：使用直接偏好优化 的损失函数，公式如下：

\mathcal{L}_{ ext{DPO}}\left(\pi_{ heta};\pi_{ ext{ref}} ight) =-\mathbb{E}_{(c,y^{+},y^{-})\sim\mathcal{D}}\Bigg[\log\sigma \Big(eta\log rac{\pi_{ heta}\left(y^{+}\mid c ight)}{\pi_{ ext{ref}}\left(y^{+}\mid c ight)}-eta\log rac{\pi_{ heta}\left(y^{-}\mid c ight)}{\pi_{ ext{ref}}\left(y^{-}\mid c ight)}\Big)\Bigg]

其中， $\pi_{ ext{ref}}$ 是预训练的参考模型， $\pi_{ heta}$ 是待优化的模型， $y^{+}$ 和 $y^{-}$ 是偏好对中的优选和劣选样本， $c$ 是条件， $eta$ 是控制偏离参考模型程度的系数。

训练与测试数据集

训练数据集
- 来源：ShapeNetV2、ABO、HSSD、Objaverse、Objaverse-XL 及授权数据，经数据筛选后保留 500k 高质量样本，平均面数 8k。
- 数据增强：对网格进行随机旋转（0°、90°、180°、270°），提升模型泛化能力。
- 输入：从网格表面采样 20k 点，随机选择 16384 个点作为点云条件输入。
- 输出：对应的高质量艺术家风格 Mesh（拓扑规整、无缺陷）。
测试数据集
- 来源：从 TRELLIS 模型生成的 3D 网格中选取 100 个样本，作为测试集。
- 输入：从测试网格表面均匀采样 1024 个点作为点云条件输入。
- 输出：生成的 Mesh，用于与基线方法对比几何相似度与视觉美感。

消融实验

论文通过以下实验验证了核心组件的有效性：

标记化算法：在512分辨率下，与AMT、EdgeRunner、BPT等算法比较了压缩率、词汇表大小和在80个高面数网格上的训练时间。结果表明，DeepMesh的算法在压缩率和词汇表大小间取得了良好平衡，且训练效率最高。
DPO后训练：
- 定性对比：展示了使用DPO后训练的模型生成的网格在视觉上更美观（布线更规整，表面更完整）。
- 定量对比：在点云条件生成任务上，对比了“不带DPO”和“带DPO”的模型。结果显示，带DPO的模型在倒角距离、豪斯多夫距离和用户偏好度上均更优。
数据策划：展示了在应用数据过滤策略后，训练过程中的损失尖峰显著减少，训练过程变得更加稳定。

论文阅读_DeepMesh