Mip-NeRF 360

是先提出一个算法然后在文中提出一个数据集

基本信息

项目 内容
论文标题 Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
作者 Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman
第一单位 Google Research
时间 2022(推断)
发表会议/期刊 CVPR 2022(推断,原文未明确标注)

针对的工作概览

特点 说明
输入 多视角图像(相机姿态由COLMAP估计)
输出 新视角合成图像、深度图
所属领域 神经辐射场(NeRF)、无界场景视图合成

github主页:https://jonbarron.info/mipnerf360/(有数据集下载位置)

查看这个数据集上的排名:https://nerfbaselines.github.io/mipnerf360

这个地方可以看到各种NeRF数据集和数据集上的各种方法的排名:https://nerfbaselines.github.io/

![image-20251215112926178](Mip-NeRF 360/image-20251215112926178.png)

1. 论文新提出数据集的相关信息

数据集特点

本文构建了一个新的无界场景数据集,用于评估NeRF类模型在复杂、大范围场景下的性能。

  • 场景构成:包含9个场景(5个室外、4个室内),每个场景有一个复杂的中心物体/区域以及细节丰富的背景,场景内容距离跨度大(近景物体 + 远景背景)。
  • 采集控制:采集时固定相机 ISO、白平衡、快门速度、光圈、对焦参数,户外选阴天拍摄、室内用漫射光源,避免光照 / 曝光变化导致的 photometric 伪影,无运动物体干扰。
  • 数据内容:包含图像(去畸变后下采样至1.0-1.6百万像素)和由COLMAP估计的相机姿态。不包含点云,深度图是模型输出而非真值。
  • 训练/测试划分:每8张图像取1张作为测试集,以覆盖尽可能多的视角。

数据集针对的工作类型

该数据集专门用于无界场景下的神经辐射场(NeRF)类新型视图合成方法的评估,解决了传统数据集(如 Blender、LLFF)仅覆盖小尺度 / 有界场景、Tanks and Temples 数据集存在光度不一致的问题,可验证方法在大尺度、全向无界场景下的渲染质量和几何重建能力。

数据集包含的具体内容

  1. RGB 图像:每个场景采集 100~330 张图像,经 COLMAP 去畸变、ImageMagick 降采样至 1.0~1.6 百万像素,测试集为 1/8 的规则采样图像(覆盖全视角)。
  2. 相机参数:由 COLMAP 计算相机内外参,后续对姿态做刚性变换和归一化(减去相机位置均值、按主成分对齐坐标系、缩放至 [-1,1]³),确保适配模型的场景参数化。
  3. 稀疏点云:由 COLMAP 生成的场景稀疏点云,无稠密点云或真实深度标注,深度图由模型预测(如射线终止距离的中位数)。

2. 摘要精简讲解

传统 NeRF 和 mip-NeRF 在 “无界场景”(相机可任意朝向、场景内容距离无限制)中存在三大缺陷:渲染结果模糊 / 低分辨率、训练耗时久、因小图像集重建大场景的固有歧义性产生大量伪影。

为此,mip-NeRF 360 作为 mip-NeRF 的扩展,提出非线性场景参数化在线蒸馏畸变驱动正则化三大核心改进,相比 mip-NeRF 将均方误差降低 57%,可对高复杂度的真实无界场景生成逼真的新型视图和精细深度图,解决了无界场景下 NeRF 类模型的适配难题。

3. 引言(出发点)

引言明确了传统 NeRF/mip-NeRF 在无界场景中面临的三大核心痛点,这也是 mip-NeRF 360 提出的直接动机:

  1. 参数化难题:无界 360° 场景可占据任意大的欧氏空间,但 mip-NeRF 要求 3D 坐标处于有界域,传统参数化(如 NDC)仅适配单方向无界场景,无法覆盖全向无界场景。
  2. 效率瓶颈:大尺度精细场景需要更大容量的 MLP 和更多的射线采样点,导致训练成本剧增(如 NeRF 从物体扩展到建筑时采样数提升 8 倍、训练时间增 40 倍),且 mip-NeRF 的 coarse-fine 采样会浪费大量计算在无贡献的 coarse 阶段。
  3. 歧义性问题:无界场景内容仅被少量射线观测,重建存在固有歧义(如模型可能将场景重建为相机前的纹理平面),传统 NeRF 的密度噪声正则化不足以抑制该问题,易产生 “floaters”(悬浮伪影)和 “背景塌陷”(远景表面收缩至近景)。

4. 相关工作对比与参考

  • 场景参数化
    • 传统方法:使用投影全景空间或基于多视图立体恢复的代理几何。
    • 传统有界 / 单向无界参数化:NeRF 对有界物体用欧氏空间、对前向场景用 NDC(归一化设备坐标,将深度转为视差);NeRF++ 用双网络分别建模近 / 远场;DONeRF 通过空间扭曲将远点收缩至原点,实现全向无界适配,但上述方法均针对点采样,未适配 mip-NeRF 的锥体采样
    • mip-NeRF 360 的改进:提出 Kalman-like 的空间变换方法,将 mip-NeRF 的高斯锥体(均值μ、协方差∑)映射到有界域,同时设计视差线性采样的射线参数化,弥补了传统方法的局限性。
  • 训练效率
    • NeRF in Detail、DONeRF、TermiNeRF:尝试用网络加速采样,但加速有限或仅加速推理。
    • 烘焙(Baking)技术:将训练好的NeRF转换为快速渲染格式,但不加速训练。
    • 层次化数据结构(如八叉树):需要已知几何,不直接适用于逆向渲染。
    • coarse-fine 采样的不足:NeRF/mip-NeRF 用同一 MLP 做 coarse 和 fine 采样,coarse 阶段无最终贡献却消耗大量计算;TermiNeRF 的采样预测仅加速推理、反而减慢训练;NeRF in Detail 的采样优化仅提速 25%。
    • 在线蒸馏相关工作:NeRV 通过在线蒸馏建模可见性和间接光照;DONeRF 的采样 oracle 网络用真实深度监督;mip-NeRF 360 的在线蒸馏(proposal MLP+NeRF MLP)无真实标注、且训练提速 300%,是对该方向的突破。
  • 正则化(解决模糊性)
    • 传统正则的局限:NeRF 通过密度头加高斯噪声抑制半透明密度,但对无界场景的 floaters 和背景塌陷效果有限;其他正则(如密度鲁棒损失、表面平滑惩罚)针对的是渲染速度或表面光滑度,与无界场景的歧义性无关。
    • mip-NeRF 360 的改进:设计针对 mip-NeRF 射线区间的畸变正则化,专门解决无界场景的固有歧义性。

5. 数据集采集方式

相机与参数设置

  • 户外场景用Sony NEX C-3(18-55mm 广角镜头),室内场景用Fujifilm X100V(22mm 定焦镜头);
  • 固定 ISO、白平衡、快门速度、光圈、对焦参数,避免光度变化,户外选阴天拍摄、室内依赖漫射光源(如墙面反射日光),减少阴影干扰。

图像采集与预处理

  • 每个场景采集 100~330 张图像,用 COLMAP 做图像去畸变,再用 ImageMagick 降采样至 1.0~1.6 百万像素;
  • 从采集图像中规则采样 1/8 作为测试集,确保测试视角覆盖全 360° 范围。

相机位姿计算与归一化

  • 用 COLMAP 计算相机内外参,先减去所有相机位置的均值,再按相机位置的主成分对齐坐标系(最小主成分为世界 “up” 方向);
  • 缩放相机位置至 [-1,1]³ 立方体,确保场景适配模型的contract参数化。

6. 评估标准与计算方式

在测试集上计算以下指标:

基础指标

  • PSNR(峰值信噪比):峰值信噪比,计算预测视图与真实视图的像素级均方误差的对数形式,衡量像素保真度;

    PSNR=10PSNR = 10