Hi3D (High-resolution Image-to-3D model)

基本信息

项目 内容
论文标题 High-resolution Image-to-3D model
作者 Haibo Yang (复旦大学), Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen (复旦大学), Chong-Wah Ngo, Tao Mei
作者单位 复旦大学计算机学院
时间 2024
发表会议/期刊 ACM International Conference on Multimedia (MM '24)

方法概览

特点 文章性质
输入 单张RGB图像
输出 带纹理的三角网格 (Textured Triangle Mesh)
所属领域 图像到三维生成

摘要精简

现有基于2D扩散的图像到3D生成方法,由于缺乏3D感知能力,难以生成具有高分辨率纹理且多视角一致的图像。Hi3D提出了一种新的基于视频扩散模型的范式,将单图到多视角图的生成重新定义为具有3D感知的序列图像生成(即轨道视频生成)。该方法利用了视频扩散模型中隐含的时间一致性知识,将其泛化为3D生成中跨多视角的几何一致性。技术层面,Hi3D首先为预训练的视频扩散模型注入3D先验(相机姿态条件),生成具有低分辨率纹理的多视角图像;然后,学习一个3D感知的视频到视频细化器,将多视角图像提升至高分辨率。这些高分辨率多视角图通过3D高斯溅射(3DGS)进行视角增强,并最终通过3D重建获得高质量网格。

引言与出发点

现有基于2D扩散的图像到3D方法,如Zero123,通常对输入图像和每个新视角图像进行独立建模,导致严重的几何不一致问题。后续工作尝试同时处理多视角图像以改善一致性,但仍受限于2D模型缺乏3D意识的核心问题。此外,为了训练稳定,这些方法通常将图像尺寸限制在低分辨率(如256x256),牺牲了视觉质量,无法满足虚拟现实、3D电影制作等需要高保真细节的应用需求。

Hi3D的出发点是:视频扩散模型在大规模序列图像上训练,学习到的帧间时间一致性知识,可以自然地解释为跨多视角图像的3D几何一致性。因此,挖掘预训练视频扩散模型中的这种3D先验知识,可以增强图像到3D生成的多视角一致性和稳定性,从而允许生成更高分辨率的序列图像。

创新点

  1. 新范式: 首次将图像到多视角图像的生成任务,重新定义为3D感知的序列图像生成(轨道视频生成),并利用预训练视频扩散模型来完成。
  2. 两阶段框架: 设计了一个两阶段的基于视频扩散的生成流程,从低分辨率到高分辨率逐步细化多视角图像的质量和一致性。
  3. 3D感知视频到视频细化器 (3D-aware video-to-video refiner): 在第二阶段,不仅提升分辨率,还引入估计的深度图序列作为几何条件,来细化和增强3D细节与一致性。
  4. 高效高质重建管道: 将生成的稀疏高分辨率多视角图像,先通过3D高斯溅射(3DGS)进行隐式建模并渲染插值视图以增加密度,再使用基于SDF的方法进行最终高质量网格重建。

网络架构构成

Hi3D采用两阶段架构:

  1. 第一阶段:基础多视角生成
    • 目标: 将单张输入图像转换为低分辨率(512x512)的3D感知序列图像(轨道视频)。
    • 核心: 对预训练的Stable Video Diffusion (SVD)模型进行微调,加入相机姿态(俯仰角)作为额外条件。
  2. 第二阶段:3D感知多视角细化
    • 目标: 将第一阶段的低分辨率轨道视频,上采样并细化为高分辨率(1024x1024)的轨道视频。
    • 核心: 构建一个3D感知的视频到视频细化器。它以第一阶段生成的图像和其对应的估计深度图序列作为额外条件,指导生成高分辨率且几何一致的多视角图像。
  3. 3D网格提取管道
    • 步骤1 (视角增强): 使用3D高斯溅射 (3DGS) 对第二阶段输出的多视角图像进行隐式3D建模,并从中渲染出额外的插值视角图像。
    • 步骤2 (网格重建): 将原始多视角图像与插值图像合并为密集视图集,输入到基于SDF的重建方法中,提取最终的带纹理三角网格。

特征提取方法

  • 图像编码: 使用预训练视频扩散模型(SVD)中的VAE编码器,将输入的单张图像编码到潜在空间。
  • 语义信息注入: 将输入图像的CLIP嵌入(embeddings)通过交叉注意力机制注入到扩散模型的U-Net中,以传播高级语义信息。
  • 3D条件注入:
    • 第一阶段: 将相机俯仰角(elevation)参数编码为正弦位置嵌入,与扩散噪声时间步t一同输入U-Net。
    • 第二阶段: 额外引入由现成深度估计模型生成的深度图序列 D,将其调整大小后与噪声潜在代码在通道维度拼接,作为几何条件。

生成的三维模型细节

  • 输出形式: 高质量的、带纹理的三角网格。
  • 细节水平: 能够生成高分辨率(1024x1024)的多视角图像,从而保留了输入图像中丰富的几何和纹理细节,最终重建的网格具有更精细的几何结构和更清晰的纹理贴图。

三维模型生成步骤

  1. 输入: 单张RGB图像 I
  2. 第一阶段: I + 相机俯仰角条件 → 微调后的视频扩散模型 → 生成低分辨率(512x512)多视角图像序列 J_hat
  3. 第二阶段: I + J_hat + J_hat的估计深度序列D + 俯仰角条件 → 3D感知视频到视频细化器 → 生成高分辨率(1024x1024)多视角图像序列 F
  4. 视角增强: F → 3D高斯溅射 (3DGS) 训练 → 隐式3D模型 → 渲染 M 张插值视图 F*
  5. 网格重建: 密集视图 K = F + F* → 基于SDF的重建方法 → 输出最终的高质量带纹理三角网格。

相关工作与实验比较

相关工作分类

  1. 基于优化的方法(如DreamFusion)。
  2. 直接训练的3D生成模型(如Point-E, Shap-E)。
  3. 两阶段方法(先生成多视角图再重建,如Zero123, SyncDreamer, EpiDiff)。Hi3D属于此类,但创新地使用了视频扩散模型。

对比的工作

  • 新视角合成任务中,与 Zero123, Zero123-XL, Stable-Zero123, SyncDreamer, EpiDiff 比较。
  • 单视图重建任务中,与 Realfusion, Magic123, One-2-3-45, Point-E, Shap-E, Stable-Zero123, SyncDreamer, EpiDiff, Wonder3D 比较。

评价指标

  • 新视角合成: PSNR (峰值信噪比), SSIM (结构相似性), LPIPS (学习感知图像块相似度)。
  • 单视图重建: Chamfer Distance (倒角距离), Volume IoU (体积交并比)。

Loss函数

两个阶段的训练均采用扩散模型标准的带权重的均方误差损失。

  • 第一阶段 Loss:

    \mathcal{L}_{Stage-1} = \mathbb{E}_{I,J,e,t,psilon} \left[ \| w(t)(psilon_{ heta}^{1}(z_t; I, e, t) - psilon) \|_2^2 ight]

    其中,I是输入图像,J是多视角图像序列,e是俯仰角,t是时间步,psilon是噪声,w(t)是权重因子。

  • 第二阶段 Loss:

    \mathcal{L}_{Stage-2} = \mathbb{E}_{I,\hat{J},D,e,t,psilon} \left[ \| w(t)(psilon_{\phi}^{2}(z_t; I, \hat{J}, D, e, t) - psilon) \|_2^2 ight]

    其中,\hat{J}是第一阶段的输出图像,D是其对应的深度图序列。

数据集

  • 训练集: 从 Objaverse 数据集的 LVIS 子集中构建。对每个3D资源,在随机俯仰角 e∈[-10°, 40°] 下渲染16个视角(分辨率1024x1024,方位角等间距0°-360°),共约30万个视频序列。输入是单帧图像,输出是对应的多视角图像序列及其俯仰角。
  • 测试集: Google Scanned Object (GSO) 数据集。用于定量评估新视角合成和单视图重建性能。

消融实验

  1. 3D感知多视角细化阶段的有效性
    • 移除整个第二阶段:性能大幅下降,证明该阶段对提升分辨率和质量至关重要。
    • 仅移除第二阶段中的深度条件:性能明显下降,证明深度条件对增强多视角间的3D几何一致性有效。
  2. 3D重建中插值视图数量 M 的影响
    • 比较了 M=0, 16, 32, 48 的情况。
    • 结果表明,使用一定数量的插值视图(M=16)能有效改善重建质量,但过多的插值视图(M=32, 48)可能导致性能轻微下降,可能是由于信息重复和误差累积。