Hi3D (High-resolution Image-to-3D model)

基本信息

项目	内容
论文标题	High-resolution Image-to-3D model
作者	Haibo Yang (复旦大学), Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen (复旦大学), Chong-Wah Ngo, Tao Mei
作者单位	复旦大学计算机学院
时间	2024
发表会议/期刊	ACM International Conference on Multimedia (MM '24)

方法概览

特点	文章性质
输入	单张RGB图像
输出	带纹理的三角网格 (Textured Triangle Mesh)
所属领域	图像到三维生成

摘要精简

现有基于2D扩散的图像到3D生成方法，由于缺乏3D感知能力，难以生成具有高分辨率纹理且多视角一致的图像。Hi3D提出了一种新的基于视频扩散模型的范式，将单图到多视角图的生成重新定义为具有3D感知的序列图像生成（即轨道视频生成）。该方法利用了视频扩散模型中隐含的时间一致性知识，将其泛化为3D生成中跨多视角的几何一致性。技术层面，Hi3D首先为预训练的视频扩散模型注入3D先验（相机姿态条件），生成具有低分辨率纹理的多视角图像；然后，学习一个3D感知的视频到视频细化器，将多视角图像提升至高分辨率。这些高分辨率多视角图通过3D高斯溅射（3DGS）进行视角增强，并最终通过3D重建获得高质量网格。

引言与出发点

现有基于2D扩散的图像到3D方法，如Zero123，通常对输入图像和每个新视角图像进行独立建模，导致严重的几何不一致问题。后续工作尝试同时处理多视角图像以改善一致性，但仍受限于2D模型缺乏3D意识的核心问题。此外，为了训练稳定，这些方法通常将图像尺寸限制在低分辨率（如256x256），牺牲了视觉质量，无法满足虚拟现实、3D电影制作等需要高保真细节的应用需求。

Hi3D的出发点是：视频扩散模型在大规模序列图像上训练，学习到的帧间时间一致性知识，可以自然地解释为跨多视角图像的3D几何一致性。因此，挖掘预训练视频扩散模型中的这种3D先验知识，可以增强图像到3D生成的多视角一致性和稳定性，从而允许生成更高分辨率的序列图像。

创新点

新范式: 首次将图像到多视角图像的生成任务，重新定义为3D感知的序列图像生成（轨道视频生成），并利用预训练视频扩散模型来完成。
两阶段框架: 设计了一个两阶段的基于视频扩散的生成流程，从低分辨率到高分辨率逐步细化多视角图像的质量和一致性。
3D感知视频到视频细化器 (3D-aware video-to-video refiner): 在第二阶段，不仅提升分辨率，还引入估计的深度图序列作为几何条件，来细化和增强3D细节与一致性。
高效高质重建管道: 将生成的稀疏高分辨率多视角图像，先通过3D高斯溅射（3DGS）进行隐式建模并渲染插值视图以增加密度，再使用基于SDF的方法进行最终高质量网格重建。

网络架构构成

Hi3D采用两阶段架构：

第一阶段：基础多视角生成
- 目标: 将单张输入图像转换为低分辨率（512x512）的3D感知序列图像（轨道视频）。
- 核心: 对预训练的Stable Video Diffusion (SVD)模型进行微调，加入相机姿态（俯仰角）作为额外条件。
第二阶段：3D感知多视角细化
- 目标: 将第一阶段的低分辨率轨道视频，上采样并细化为高分辨率（1024x1024）的轨道视频。
- 核心: 构建一个3D感知的视频到视频细化器。它以第一阶段生成的图像和其对应的估计深度图序列作为额外条件，指导生成高分辨率且几何一致的多视角图像。
3D网格提取管道
- 步骤1 (视角增强): 使用3D高斯溅射 (3DGS) 对第二阶段输出的多视角图像进行隐式3D建模，并从中渲染出额外的插值视角图像。
- 步骤2 (网格重建): 将原始多视角图像与插值图像合并为密集视图集，输入到基于SDF的重建方法中，提取最终的带纹理三角网格。

特征提取方法

图像编码: 使用预训练视频扩散模型（SVD）中的VAE编码器，将输入的单张图像编码到潜在空间。
语义信息注入: 将输入图像的CLIP嵌入（embeddings）通过交叉注意力机制注入到扩散模型的U-Net中，以传播高级语义信息。
3D条件注入:
- 第一阶段: 将相机俯仰角（elevation）参数编码为正弦位置嵌入，与扩散噪声时间步t一同输入U-Net。
- 第二阶段: 额外引入由现成深度估计模型生成的深度图序列 D，将其调整大小后与噪声潜在代码在通道维度拼接，作为几何条件。

生成的三维模型细节

输出形式: 高质量的、带纹理的三角网格。
细节水平: 能够生成高分辨率（1024x1024）的多视角图像，从而保留了输入图像中丰富的几何和纹理细节，最终重建的网格具有更精细的几何结构和更清晰的纹理贴图。

三维模型生成步骤

输入: 单张RGB图像 I。
第一阶段: I + 相机俯仰角条件 → 微调后的视频扩散模型 → 生成低分辨率（512x512）多视角图像序列 J_hat。
第二阶段: I + J_hat + J_hat的估计深度序列D + 俯仰角条件 → 3D感知视频到视频细化器 → 生成高分辨率（1024x1024）多视角图像序列 F。
视角增强: F → 3D高斯溅射 (3DGS) 训练 → 隐式3D模型 → 渲染 M 张插值视图 F*。
网格重建: 密集视图 K = F + F* → 基于SDF的重建方法 → 输出最终的高质量带纹理三角网格。

Loss函数

两个阶段的训练均采用扩散模型标准的带权重的均方误差损失。

第一阶段 Loss:
$\mathcal{L}_{Stage-1} = \mathbb{E}_{I,J,e,t,psilon} \left[ \| w(t)(psilon_{ heta}^{1}(z_t; I, e, t) - psilon) \|_2^2 ight]$
其中，I是输入图像，J是多视角图像序列，e是俯仰角，t是时间步，psilon是噪声，w(t)是权重因子。
第二阶段 Loss:
$\mathcal{L}_{Stage-2} = \mathbb{E}_{I,\hat{J},D,e,t,psilon} \left[ \| w(t)(psilon_{\phi}^{2}(z_t; I, \hat{J}, D, e, t) - psilon) \|_2^2 ight]$
其中，\hat{J}是第一阶段的输出图像，D是其对应的深度图序列。

数据集

训练集: 从 Objaverse 数据集的 LVIS 子集中构建。对每个3D资源，在随机俯仰角 e∈[-10°, 40°] 下渲染16个视角（分辨率1024x1024，方位角等间距0°-360°），共约30万个视频序列。输入是单帧图像，输出是对应的多视角图像序列及其俯仰角。
测试集: Google Scanned Object (GSO) 数据集。用于定量评估新视角合成和单视图重建性能。

消融实验

3D感知多视角细化阶段的有效性：
- 移除整个第二阶段：性能大幅下降，证明该阶段对提升分辨率和质量至关重要。
- 仅移除第二阶段中的深度条件：性能明显下降，证明深度条件对增强多视角间的3D几何一致性有效。
3D重建中插值视图数量 M 的影响：
- 比较了 M=0, 16, 32, 48 的情况。
- 结果表明，使用一定数量的插值视图（M=16）能有效改善重建质量，但过多的插值视图（M=32, 48）可能导致性能轻微下降，可能是由于信息重复和误差累积。

论文阅读_Hi3D