论文阅读_SAM
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | End-to-End Object Detection with Transformers |
| 作者 | |
| 作者单位 | Facebook AI |
| 时间 | 2023 |
| 发表会议/期刊 | |
| 论文别名 | Segment Anything Model CV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割 无需任何微调,SAM 就能对任何图像中的任何物体进行分割,只要你给它一个提示(point, box, text, or mask)。 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | |
| 输出 | |
| 所属领域 | 目标检测 |
创新点
- 给定一张图像和一个提示(prompt),SAM 输出一个精确的分割掩码(mask)。- 提示可以是: 一个点(是前景还是背景),一个边界框(bounding box),一段文本描述,已有掩码(用于细化)
网络架构
- 图像编码器使用 **Vision Transformer **(ViT)
- 在 SA-1B 数据集 上预训练(使用 DINO 和 MAE 风格的自监督)
- 关键设计:图像特征可以预计算并缓存,极大提升推理效率
- 提示编码器(Prompt Encoder)将不同类型的提示编码为向量:
| 提示类型 | 编码方式 |
|---|---|
| **点 **(Point) | 2D 坐标 → 位置嵌入(Positional Encoding) + 类型嵌入(前景/背景) |
| **框 **(Box) | 左上 + 右下坐标 → 两个点嵌入 |
| **掩码 **(Mask) | 下采样后 → 作为 token 输入 |
| **文本 **(Text) | 使用 CLIP 的文本编码器 → 文本嵌入 |
- 掩码解码器 (Mask Decoder)一个轻量级的 Transformer 解码器
- 采用两阶段”设计:
- 自注意力:提示 token 之间交互
- 交叉注意力:提示 token 关注图像特征
- 输出:
- 多个候选掩码(通常 3 个)
- 每个掩码的置信度分数
- 采用两阶段”设计:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!



