论文阅读_I3D

发表于2025-12-03|更新于2025-12-03|论文阅读

|浏览量:

基本信息

项目	内容
论文标题	Quo Vadis, action recognition? A new model and the kinetics dataset （Quo Vadis是一个老电影，”你要去哪？“）
作者	Joao Carreira，Andrew Zisserman
作者单位	Google Research
时间	2017
发表会议/期刊
全称	Inflation3D

方法概览

特点	文章性质
输入	单张 RGB 图像
输出	分类、分割
所属领域	视频分类，视频理解，视频动作识别

在 I3D 之前，视频动作识别主要有前三种方式：

方法	问题
2D CNN + LSTM/RNN	2D 卷积只提取空间特征，RNN 建模时序，但时空分离，难以捕捉时空联合特征。
纯 3D CNN（如 C3D）	能同时建模空间和时间，但通常从零训练，参数多、训练难、性能有限。
双流网络	在时间和空间上分别用卷积神经网络，时间上是先抽取光流，然后用卷积神经网络来学习光流到最后动作的一个映射关系，最后再融合（late fusion，做加权平均）起来。
3d-fused双流神经网络	前半部分和双流网络的结构相同，只是在最后并不是用later fusion将2个网络的结果做加权平均，而是在最后用一个小的3d卷积神经神经网络替代，做early fusion。
双流I3D网络	和双流网络相比就是用3d cnn替代了2d cnn

创新点

提供了一种方法将2D网络膨胀为3D网络，将预训练的 2D 卷积核“膨胀”为 3D 卷积核，从而初始化一个强大的 3D 网络，使得视频理解不需要再耗费心神去设计一个专门的网络了，而是可以直接使用图片预训练好的模型甚至是预训练的参数。另一方面是提出了一个Kinetics400数据集
利用预训练 + 端到端时空建模，开启了“2D 预训练 → 3D 迁移”范式
将 GoogLeNet（Inception-V1）的每个模块转换为 3D 版本。具体做法：
1. 从一个在 ImageNet 上预训练好的 2D 模型（如 Inception-V1）出发。
2. 1. 将每个 2D 卷积核 (k, k) 膨胀为 3D 卷积核 (t, k, k)，其中：
  - t 是时间维度（通常为 3 或 5）
  - k 是空间维度
3. 1. 膨胀方式：
  - *复制法（Replication）：将 2D 卷积核在时间维度上复制 t 次
  - 初始化后 fine-tune：在视频数据上微调整个网络

原始 2D Inception 模块： 
├── 1×1 Conv 
├── 1×1 → 3×3 Conv 
├── 1×1 → 5×5 Conv 
└── Pool → 1×1 Conv 

↓ 膨胀为 3D ↓ I3D 

3D Inception 模块： 
├── 1×1×1 Conv → 提取时间点特征 
├── 1×1×1 → 3×3×3 Conv → 空间+时间卷积 
├── 1×1×1 → 5×5×5 Conv → 大感受野时空卷积 
└── Pool(3×3×3) → 1×1×1 Conv → 时空池化

输入：视频片段 (T, H, W, 3) → 例如 (64帧, 224x224) 
│ 
├── 膨胀的 3D Conv + BN + ReLU 
├── 3D MaxPool 
├── 多个 I3D Inception 模块堆叠 
├── 全局 3D 平均池化 (Global 3D AvgPool) 
├── Dropout 
└── 3D FC 层 → 动作类别输出

import torch import torch.nn as nn
 # 伪代码：将 2D Conv 膨胀为 3D Conv 
 def inflate_conv2d(conv2d, time_dim=3): 
	 # conv2d.weight: (C_out, C_in, H, W) 
	 weight_2d = conv2d.weight.data # (C_out, C_in, H, W) 
	 weight_3d = weight_2d.unsqueeze(2).repeat(1, 1, time_dim, 1, 1) # (C_out, C_in, T, H, W) 
	 weight_3d = weight_3d / time_dim # 归一化 
	 conv3d = nn.Conv3d( 
		 in_channels=conv2d.in_channels, 
		 out_channels=conv2d.out_channels, 
		 kernel_size=(time_dim, conv2d.kernel_size[0], conv2d.kernel_size[1]), 
		 stride=(1, conv2d.stride[0], conv2d.stride[1]), 
		 padding=(time_dim//2, conv2d.padding[0], conv2d.padding[1]) 
		 ) 
	 conv3d.weight = nn.Parameter(weight_3d) 
	 return conv3d # 实际使用中，可用现成库如 'pytorch-video' 或 'mmaction2'

class I3D_Network(nn.Module):
    """
    简化版 I3D 网络（基于 Inception-V1 结构简化）
    """
    def __init__(self, num_classes=400, dropout=0.5, in_channels=3):
        super(I3D_Network, self).__init__()
        self.num_classes = num_classes
        # Step 1: 初始 3D 卷积 + 池化
        self.conv1 = nn.Sequential(
            nn.Conv3d(in_channels, 64, kernel_size=(7, 7, 7), stride=(2, 2, 2), padding=(3, 3, 3)),
            nn.BatchNorm3d(64),
            nn.ReLU(True),
            nn.MaxPool3d(kernel_size=(1, 3, 3), stride=(1, 2, 2), padding=(0, 1, 1))  # 时间不池化
        )
        self.conv2 = nn.Sequential(
            nn.Conv3d(64, 64, kernel_size=(1, 1, 1)),
            nn.BatchNorm3d(64),
            nn.ReLU(True),
            nn.Conv3d(64, 192, kernel_size=(3, 3, 3), padding=(1, 1, 1)),
            nn.BatchNorm3d(192),
            nn.ReLU(True),
            nn.MaxPool3d(kernel_size=(1, 3, 3), stride=(1, 2, 2), padding=(0, 1, 1))
        )
        # Step 2: 多个 Inception 模块
        self.inception3a = I3D_Inception(192, 64, 96, 128, 16, 32, 32)
        self.inception3b = I3D_Inception(256, 128, 128, 192, 32, 96, 64)
        self.maxpool3 = nn.MaxPool3d(kernel_size=(3, 3, 3), stride=(2, 2, 2), padding=(1, 1, 1))
        self.inception4a = I3D_Inception(480, 192, 96, 208, 16, 48, 64)
        self.inception4b = I3D_Inception(512, 160, 112, 224, 24, 64, 64)
        self.inception4c = I3D_Inception(512, 128, 128, 256, 24, 64, 64)
        self.inception4d = I3D_Inception(512, 112, 144, 288, 32, 64, 64)
        self.inception4e = I3D_Inception(528, 256, 160, 320, 32, 128, 128)
        self.maxpool4 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.inception5a = I3D_Inception(832, 256, 160, 320, 32, 128, 128)
        self.inception5b = I3D_Inception(832, 384, 192, 384, 48, 128, 128)
        # Step 3: 全局平均池化 + Dropout + 分类
        self.global_avgpool = nn.AdaptiveAvgPool3d(1)  # 输出 (C, 1, 1, 1)
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(1024, num_classes)  # Inception 输出通道总和 ~1024
        self._initialize_weights()

I3D 启发了大量后续工作：

方向	代表方法
更高效 3D CNN	S3D（Separable 3D Conv）、R(2+1)D
2D + 时序建模	TSM（Temporal Shift Module）、TAdaConv
Transformer 视频化	TimeSformer、Video Swin Transformer
自监督学习	MoCo-V3、VideoMAE
轻量化	MobileNet-3D、X3D（扩展 I3D）

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_I3D/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Muilt View Stereo

赞助

微信
支付宝

相关推荐

三维视觉几何大整理

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...

Bark模型微调

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

CUDA 环境的两种来源

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

FoundationStereo

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...