Mip-NeRF 360

是先提出一个算法然后在文中提出一个数据集

基本信息

项目	内容
论文标题	Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
作者	Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman
第一单位	Google Research
时间	2022（推断）
发表会议/期刊	CVPR 2022（推断，原文未明确标注）

针对的工作概览

特点	说明
输入	多视角图像（相机姿态由COLMAP估计）
输出	新视角合成图像、深度图
所属领域	神经辐射场（NeRF）、无界场景视图合成

github主页：https://jonbarron.info/mipnerf360/（有数据集下载位置）

查看这个数据集上的排名：https://nerfbaselines.github.io/mipnerf360

这个地方可以看到各种NeRF数据集和数据集上的各种方法的排名：https://nerfbaselines.github.io/

![image-20251215112926178](Mip-NeRF 360/image-20251215112926178.png)

1. 论文新提出数据集的相关信息

数据集特点

本文构建了一个新的无界场景数据集，用于评估NeRF类模型在复杂、大范围场景下的性能。

场景构成：包含9个场景（5个室外、4个室内），每个场景有一个复杂的中心物体/区域以及细节丰富的背景，场景内容距离跨度大（近景物体 + 远景背景）。
采集控制：采集时固定相机 ISO、白平衡、快门速度、光圈、对焦参数，户外选阴天拍摄、室内用漫射光源，避免光照 / 曝光变化导致的 photometric 伪影，无运动物体干扰。
数据内容：包含图像（去畸变后下采样至1.0-1.6百万像素）和由COLMAP估计的相机姿态。不包含点云，深度图是模型输出而非真值。
训练/测试划分：每8张图像取1张作为测试集，以覆盖尽可能多的视角。

数据集针对的工作类型

该数据集专门用于无界场景下的神经辐射场（NeRF）类新型视图合成方法的评估，解决了传统数据集（如 Blender、LLFF）仅覆盖小尺度 / 有界场景、Tanks and Temples 数据集存在光度不一致的问题，可验证方法在大尺度、全向无界场景下的渲染质量和几何重建能力。

数据集包含的具体内容

RGB 图像：每个场景采集 100~330 张图像，经 COLMAP 去畸变、ImageMagick 降采样至 1.0~1.6 百万像素，测试集为 1/8 的规则采样图像（覆盖全视角）。
相机参数：由 COLMAP 计算相机内外参，后续对姿态做刚性变换和归一化（减去相机位置均值、按主成分对齐坐标系、缩放至 [-1,1]³），确保适配模型的场景参数化。
稀疏点云：由 COLMAP 生成的场景稀疏点云，无稠密点云或真实深度标注，深度图由模型预测（如射线终止距离的中位数）。

2. 摘要精简讲解

传统 NeRF 和 mip-NeRF 在 “无界场景”（相机可任意朝向、场景内容距离无限制）中存在三大缺陷：渲染结果模糊 / 低分辨率、训练耗时久、因小图像集重建大场景的固有歧义性产生大量伪影。

为此，mip-NeRF 360 作为 mip-NeRF 的扩展，提出非线性场景参数化、在线蒸馏和畸变驱动正则化三大核心改进，相比 mip-NeRF 将均方误差降低 57%，可对高复杂度的真实无界场景生成逼真的新型视图和精细深度图，解决了无界场景下 NeRF 类模型的适配难题。

3. 引言（出发点）

引言明确了传统 NeRF/mip-NeRF 在无界场景中面临的三大核心痛点，这也是 mip-NeRF 360 提出的直接动机：

参数化难题：无界 360° 场景可占据任意大的欧氏空间，但 mip-NeRF 要求 3D 坐标处于有界域，传统参数化（如 NDC）仅适配单方向无界场景，无法覆盖全向无界场景。
效率瓶颈：大尺度精细场景需要更大容量的 MLP 和更多的射线采样点，导致训练成本剧增（如 NeRF 从物体扩展到建筑时采样数提升 8 倍、训练时间增 40 倍），且 mip-NeRF 的 coarse-fine 采样会浪费大量计算在无贡献的 coarse 阶段。
歧义性问题：无界场景内容仅被少量射线观测，重建存在固有歧义（如模型可能将场景重建为相机前的纹理平面），传统 NeRF 的密度噪声正则化不足以抑制该问题，易产生 “floaters”（悬浮伪影）和 “背景塌陷”（远景表面收缩至近景）。

4. 相关工作对比与参考

场景参数化：
- 传统方法：使用投影全景空间或基于多视图立体恢复的代理几何。
- 传统有界 / 单向无界参数化：NeRF 对有界物体用欧氏空间、对前向场景用 NDC（归一化设备坐标，将深度转为视差）；NeRF++ 用双网络分别建模近 / 远场；DONeRF 通过空间扭曲将远点收缩至原点，实现全向无界适配，但上述方法均针对点采样，未适配 mip-NeRF 的锥体采样。
- mip-NeRF 360 的改进：提出 Kalman-like 的空间变换方法，将 mip-NeRF 的高斯锥体（均值μ、协方差∑）映射到有界域，同时设计视差线性采样的射线参数化，弥补了传统方法的局限性。
训练效率：
- NeRF in Detail、DONeRF、TermiNeRF：尝试用网络加速采样，但加速有限或仅加速推理。
- 烘焙（Baking）技术：将训练好的NeRF转换为快速渲染格式，但不加速训练。
- 层次化数据结构（如八叉树）：需要已知几何，不直接适用于逆向渲染。
- coarse-fine 采样的不足：NeRF/mip-NeRF 用同一 MLP 做 coarse 和 fine 采样，coarse 阶段无最终贡献却消耗大量计算；TermiNeRF 的采样预测仅加速推理、反而减慢训练；NeRF in Detail 的采样优化仅提速 25%。
- 在线蒸馏相关工作：NeRV 通过在线蒸馏建模可见性和间接光照；DONeRF 的采样 oracle 网络用真实深度监督；mip-NeRF 360 的在线蒸馏（proposal MLP+NeRF MLP）无真实标注、且训练提速 300%，是对该方向的突破。
正则化（解决模糊性）：
- 传统正则的局限：NeRF 通过密度头加高斯噪声抑制半透明密度，但对无界场景的 floaters 和背景塌陷效果有限；其他正则（如密度鲁棒损失、表面平滑惩罚）针对的是渲染速度或表面光滑度，与无界场景的歧义性无关。
- mip-NeRF 360 的改进：设计针对 mip-NeRF 射线区间的畸变正则化，专门解决无界场景的固有歧义性。

5. 数据集采集方式

相机与参数设置

户外场景用Sony NEX C-3（18-55mm 广角镜头），室内场景用Fujifilm X100V（22mm 定焦镜头）；
固定 ISO、白平衡、快门速度、光圈、对焦参数，避免光度变化，户外选阴天拍摄、室内依赖漫射光源（如墙面反射日光），减少阴影干扰。

图像采集与预处理

每个场景采集 100~330 张图像，用 COLMAP 做图像去畸变，再用 ImageMagick 降采样至 1.0~1.6 百万像素；
从采集图像中规则采样 1/8 作为测试集，确保测试视角覆盖全 360° 范围。

相机位姿计算与归一化

用 COLMAP 计算相机内外参，先减去所有相机位置的均值，再按相机位置的主成分对齐坐标系（最小主成分为世界 “up” 方向）；
缩放相机位置至 [-1,1]³ 立方体，确保场景适配模型的contract参数化。

6. 评估标准与计算方式

在测试集上计算以下指标：

基础指标

PSNR（峰值信噪比）：峰值信噪比，计算预测视图与真实视图的像素级均方误差的对数形式，衡量像素保真度； $PSNR = 10$