论文阅读_Probe3D
Probe3D
探究2D的大模型能不能利用在3D的任务中,用于depth,normal,match任务
比较模型
DeIT
MAE
DINO
CLIP
SAM
StableDiffusion
DINO v2
都是ViT-B构型,StableDiffution是UNet
监督方法不一样,
StableDiffusion,DINO v2两个方法最好
DPT head是什么
DUSt3R
CROCO是一个MAE的结构,利用了多视角信息来猜Mask的内容
相对位姿估计,直接用三维点最小而成不行,因为离群点噪声太大,所以现在都用ransec+pnp
MVS的时候相对位姿直接用最小二乘就可以了,因为图足够多了
FlowMap
利用光流做deep SFM
TransFormer
Bert
Bert是将文章分割出空格,然后预测空格中文字,是一个无监督的
ViT
把图片分割成16*16方块
MAE
2021年arxiv,Masked Autoencoders Are Scalabel Vison Learners,何凯明
*是同等贡献的意思
十字号是project leader
Bert的CV版本,无监督的
摘要:随机盖住一些块然后重构盖住的像素,有一个非对称的encoder-decoder
这里遮住75%部分,只把没盖住的输入到encoder,然后输出的特征要拉长到16*16,然后再放进decoder中,要求回归出整个特征并输出为原始图像。
bert的decoder是一个全连接层
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


