基本信息

项目 内容
论文标题 End-to-End Object Detection with Transformers
作者
作者单位 Facebook AI
时间 2023
发表会议/期刊
论文别名 Segment Anything Model
CV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割
无需任何微调,SAM 就能对任何图像中的任何物体进行分割,只要你给它一个提示(point, box, text, or mask)。

方法概览

特点 文章性质
输入
输出
所属领域 目标检测

创新点

  1. 给定一张图像和一个提示(prompt),SAM 输出一个精确的分割掩码(mask)。- 提示可以是: 一个点(是前景还是背景),一个边界框(bounding box),一段文本描述,已有掩码(用于细化)

网络架构

  1. 图像编码器使用 **Vision Transformer **(ViT)
    1. 在 SA-1B 数据集 上预训练(使用 DINO 和 MAE 风格的自监督)
    2. 关键设计:图像特征可以预计算并缓存,极大提升推理效率
  2. 提示编码器(Prompt Encoder)将不同类型的提示编码为向量:
提示类型 编码方式
**点 **(Point) 2D 坐标 → 位置嵌入(Positional Encoding) + 类型嵌入(前景/背景)
**框 **(Box) 左上 + 右下坐标 → 两个点嵌入
**掩码 **(Mask) 下采样后 → 作为 token 输入
**文本 **(Text) 使用 CLIP 的文本编码器 → 文本嵌入
  1. 掩码解码器 (Mask Decoder)一个轻量级的 Transformer 解码器
    1. 采用两阶段”设计:
      1. 自注意力:提示 token 之间交互
      2. 交叉注意力:提示 token 关注图像特征
    2. 输出:
      1. 多个候选掩码(通常 3 个)
      2. 每个掩码的置信度分数