论文阅读_Mip-NeRF 360
Mip-NeRF 360
是先提出一个算法然后在文中提出一个数据集
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields |
| 作者 | Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman |
| 第一单位 | Google Research |
| 时间 | 2022(推断) |
| 发表会议/期刊 | CVPR 2022(推断,原文未明确标注) |
针对的工作概览
| 特点 | 说明 |
|---|---|
| 输入 | 多视角图像(相机姿态由COLMAP估计) |
| 输出 | 新视角合成图像、深度图 |
| 所属领域 | 神经辐射场(NeRF)、无界场景视图合成 |
github主页:https://jonbarron.info/mipnerf360/(有数据集下载位置)
查看这个数据集上的排名:https://nerfbaselines.github.io/mipnerf360
这个地方可以看到各种NeRF数据集和数据集上的各种方法的排名:https://nerfbaselines.github.io/

1. 论文新提出数据集的相关信息
数据集特点
本文构建了一个新的无界场景数据集,用于评估NeRF类模型在复杂、大范围场景下的性能。
- 场景构成:包含9个场景(5个室外、4个室内),每个场景有一个复杂的中心物体/区域以及细节丰富的背景,场景内容距离跨度大(近景物体 + 远景背景)。
- 采集控制:采集时固定相机 ISO、白平衡、快门速度、光圈、对焦参数,户外选阴天拍摄、室内用漫射光源,避免光照 / 曝光变化导致的 photometric 伪影,无运动物体干扰。
- 数据内容:包含图像(去畸变后下采样至1.0-1.6百万像素)和由COLMAP估计的相机姿态。不包含点云,深度图是模型输出而非真值。
- 训练/测试划分:每8张图像取1张作为测试集,以覆盖尽可能多的视角。
数据集针对的工作类型
该数据集专门用于无界场景下的神经辐射场(NeRF)类新型视图合成方法的评估,解决了传统数据集(如 Blender、LLFF)仅覆盖小尺度 / 有界场景、Tanks and Temples 数据集存在光度不一致的问题,可验证方法在大尺度、全向无界场景下的渲染质量和几何重建能力。
数据集包含的具体内容
- RGB 图像:每个场景采集 100~330 张图像,经 COLMAP 去畸变、ImageMagick 降采样至 1.0~1.6 百万像素,测试集为 1/8 的规则采样图像(覆盖全视角)。
- 相机参数:由 COLMAP 计算相机内外参,后续对姿态做刚性变换和归一化(减去相机位置均值、按主成分对齐坐标系、缩放至 [-1,1]³),确保适配模型的场景参数化。
- 稀疏点云:由 COLMAP 生成的场景稀疏点云,无稠密点云或真实深度标注,深度图由模型预测(如射线终止距离的中位数)。
2. 摘要精简讲解
传统 NeRF 和 mip-NeRF 在 “无界场景”(相机可任意朝向、场景内容距离无限制)中存在三大缺陷:渲染结果模糊 / 低分辨率、训练耗时久、因小图像集重建大场景的固有歧义性产生大量伪影。
为此,mip-NeRF 360 作为 mip-NeRF 的扩展,提出非线性场景参数化、在线蒸馏和畸变驱动正则化三大核心改进,相比 mip-NeRF 将均方误差降低 57%,可对高复杂度的真实无界场景生成逼真的新型视图和精细深度图,解决了无界场景下 NeRF 类模型的适配难题。
3. 引言(出发点)
引言明确了传统 NeRF/mip-NeRF 在无界场景中面临的三大核心痛点,这也是 mip-NeRF 360 提出的直接动机:
- 参数化难题:无界 360° 场景可占据任意大的欧氏空间,但 mip-NeRF 要求 3D 坐标处于有界域,传统参数化(如 NDC)仅适配单方向无界场景,无法覆盖全向无界场景。
- 效率瓶颈:大尺度精细场景需要更大容量的 MLP 和更多的射线采样点,导致训练成本剧增(如 NeRF 从物体扩展到建筑时采样数提升 8 倍、训练时间增 40 倍),且 mip-NeRF 的 coarse-fine 采样会浪费大量计算在无贡献的 coarse 阶段。
- 歧义性问题:无界场景内容仅被少量射线观测,重建存在固有歧义(如模型可能将场景重建为相机前的纹理平面),传统 NeRF 的密度噪声正则化不足以抑制该问题,易产生 “floaters”(悬浮伪影)和 “背景塌陷”(远景表面收缩至近景)。
4. 相关工作对比与参考
- 场景参数化:
- 传统方法:使用投影全景空间或基于多视图立体恢复的代理几何。
- 传统有界 / 单向无界参数化:NeRF 对有界物体用欧氏空间、对前向场景用 NDC(归一化设备坐标,将深度转为视差);NeRF++ 用双网络分别建模近 / 远场;DONeRF 通过空间扭曲将远点收缩至原点,实现全向无界适配,但上述方法均针对点采样,未适配 mip-NeRF 的锥体采样。
- mip-NeRF 360 的改进:提出 Kalman-like 的空间变换方法,将 mip-NeRF 的高斯锥体(均值μ、协方差∑)映射到有界域,同时设计视差线性采样的射线参数化,弥补了传统方法的局限性。
- 训练效率:
- NeRF in Detail、DONeRF、TermiNeRF:尝试用网络加速采样,但加速有限或仅加速推理。
- 烘焙(Baking)技术:将训练好的NeRF转换为快速渲染格式,但不加速训练。
- 层次化数据结构(如八叉树):需要已知几何,不直接适用于逆向渲染。
- coarse-fine 采样的不足:NeRF/mip-NeRF 用同一 MLP 做 coarse 和 fine 采样,coarse 阶段无最终贡献却消耗大量计算;TermiNeRF 的采样预测仅加速推理、反而减慢训练;NeRF in Detail 的采样优化仅提速 25%。
- 在线蒸馏相关工作:NeRV 通过在线蒸馏建模可见性和间接光照;DONeRF 的采样 oracle 网络用真实深度监督;mip-NeRF 360 的在线蒸馏(proposal MLP+NeRF MLP)无真实标注、且训练提速 300%,是对该方向的突破。
- 正则化(解决模糊性):
- 传统正则的局限:NeRF 通过密度头加高斯噪声抑制半透明密度,但对无界场景的 floaters 和背景塌陷效果有限;其他正则(如密度鲁棒损失、表面平滑惩罚)针对的是渲染速度或表面光滑度,与无界场景的歧义性无关。
- mip-NeRF 360 的改进:设计针对 mip-NeRF 射线区间的畸变正则化,专门解决无界场景的固有歧义性。
5. 数据集采集方式
相机与参数设置
- 户外场景用Sony NEX C-3(18-55mm 广角镜头),室内场景用Fujifilm X100V(22mm 定焦镜头);
- 固定 ISO、白平衡、快门速度、光圈、对焦参数,避免光度变化,户外选阴天拍摄、室内依赖漫射光源(如墙面反射日光),减少阴影干扰。
图像采集与预处理
- 每个场景采集 100~330 张图像,用 COLMAP 做图像去畸变,再用 ImageMagick 降采样至 1.0~1.6 百万像素;
- 从采集图像中规则采样 1/8 作为测试集,确保测试视角覆盖全 360° 范围。
相机位姿计算与归一化
- 用 COLMAP 计算相机内外参,先减去所有相机位置的均值,再按相机位置的主成分对齐坐标系(最小主成分为世界 “up” 方向);
- 缩放相机位置至 [-1,1]³ 立方体,确保场景适配模型的
contract参数化。
6. 评估标准与计算方式
在测试集上计算以下指标:
基础指标
- PSNR(峰值信噪比):峰值信噪比,计算预测视图与真实视图的像素级均方误差的对数形式,衡量像素保真度;


