Probe3D

探究2D的大模型能不能利用在3D的任务中,用于depth,normal,match任务

比较模型

DeIT

MAE

DINO

CLIP

SAM

StableDiffusion

DINO v2

都是ViT-B构型,StableDiffution是UNet

监督方法不一样,

StableDiffusion,DINO v2两个方法最好

DPT head是什么

DUSt3R

CROCO是一个MAE的结构,利用了多视角信息来猜Mask的内容

相对位姿估计,直接用三维点最小而成不行,因为离群点噪声太大,所以现在都用ransec+pnp

MVS的时候相对位姿直接用最小二乘就可以了,因为图足够多了

FlowMap

利用光流做deep SFM

TransFormer

Bert

Bert是将文章分割出空格,然后预测空格中文字,是一个无监督的

ViT

把图片分割成16*16方块

MAE

2021年arxiv,Masked Autoencoders Are Scalabel Vison Learners,何凯明

*是同等贡献的意思

十字号是project leader

Bert的CV版本,无监督的

摘要:随机盖住一些块然后重构盖住的像素,有一个非对称的encoder-decoder

这里遮住75%部分,只把没盖住的输入到encoder,然后输出的特征要拉长到16*16,然后再放进decoder中,要求回归出整个特征并输出为原始图像。

bert的decoder是一个全连接层