FVMVS研制过程

发表于2026-01-17|更新于2026-03-07|学习笔记

|浏览量:

SparseMVS研制过程

ECCV2026

DepthAnything应该输入多少图像？

在TAT中一共有300帧，但是Depthanything单次只能处理50帧，应该如何输入到单目深度估计的图像才能获得最好的具有度量的深度图？就是比如有298帧，然后我的目标是这样的：

我的Depthanything单次只能处理N=50帧，所以我需要分batch运行获得每个视角的深度图
我最终分batch要覆盖全部的视角All=298帧
为了我们获得的深度图要符合真实的度量信息，所以每个batch中的图像不能局限于一个场景太密集这样可能是太平行无法获得空间信息，也不能视角之间完全没有重叠这样就完全无法推测空间信息，所以我们需要根据相机参数的位置和方向计算一个位置和视角偏好值，趋向偏好值那这几个视角需要在一个batch
但是这个偏好值一方面我可以自己计算，但是我同时也需要根据场景所有视角的位置视角进行统计然后计算出一个偏好值。
每个batch不能覆盖太少，我们的数据集中的图像一定是可以找到重叠帧的，所以我们不能出现5帧以下的batch，这样可以避免退化
允许出现重叠帧但是不能出现明星效应：大量从重叠帧

最终算法：Coverage-aware Preference-guided Batch Partitioning

算法目标

在 单次最多 N 帧推理限制 下，为基于多视角的度量深度估计模型（DepthAnything3）构造 几何互补、尺度稳定、低冗余 的视角子集。

总体思路

先全局统计视角分布（学偏好）
在偏好引导下，逐步构建 batch
每个 batch 控制大小 ≤ 50，且 ≥ 5
batch 之间允许重叠
直到覆盖所有 298 帧

核心思想

几何可行性优先
- 剔除近乎平移（无尺度）
- 剔除几乎无重叠（不可三角化）
互补而非相似
- 视角选择目标不是“最相似”
- 而是“在合理几何范围内尽量不同”
Anti-collapse 设计
- 引入 batch 内 overlap 惩罚
- 防止所有 batch 收敛到同一组“明星视角”
Seed-local 构建
- 每个 batch 从不同 seed 出发
- 实现局部一致性 + 全局覆盖

算法流程

Step 0：通过相机参数计算基础几何量并统计

对任意两个视角 (i, j)计算：

（1）空间基线

$b_{ij} = |\mathbf{c}_i - \mathbf{c}_j|$

（2）视角差（朝向）

$
heta_{ij} = rccos(\mathbf{d}_i

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2026/01/17/2026-01-17-FVMVS%E7%A0%94%E5%88%B6%E8%BF%87%E7%A8%8B/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Transformer Computer Vision

赞助

微信
支付宝

相关推荐

论文阅读_SwinTransformer

SwinTransformer 基本信息项目内容论文标题作者作者单位微软亚洲研究院（MSRA）时间 2021 发表会议/期刊论文别名 Shifted WindowTransformer 方法概览特点文章性质输入输出所属领域创新点对于高分辨率图像，patch序列会非常长，导致计算量和内存消耗巨大，难以应用于目标检测、分割等需要处理高分辨率输入的任务。解决早期视觉Transformer（如ViT）在处理高分辨率图像时计算复杂度极高的问题 Swin Transformer = 分层Patch划分 + 窗口内自注意力 + 移位窗口连接 + Patch Merging下采样。分层（Hierarchical）结构通过逐步合并patch来构建一个类似CNN的金字塔结构，从而生成多尺度的特征图。 Patch Partition：输入图像首先被分割成不重叠的 4x4 patch（或其他大小），每个 4x4 patch...

论文阅读_ViT

An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息项目内容论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He（何恺明）、Xiangyu Zhang、Shaoqing Ren、Jian Sun（微软亚洲研究院）作者单位 Google Research 时间 2020 发表会议/期刊全称 Vision Transformer 方法概览特点文章性质输入单张 RGB 图像输出分类所属领域 CNN 存在一些局限：问题说明局部感受野卷积核只能看到局部区域，难以建模长距离依赖归纳偏置过强平移不变性、局部性等假设可能限制模型表达能力难以扩展模型变大时性能提升有限创新点首次成功地将纯...