SuffleNet

发表于2025-06-02|更新于2025-12-03|论文阅读

|浏览量:

SuffleNet

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

旷视科技

摘要

MobileNet和SqueezeNet等一样主要是想应用在移动端

创新点

ResNeXt 在非常小的网络中效率会降低，因为密集的 1×1卷积代价很高，基于此作者提出了 pointwise group convolution 以减少 1×1卷积的计算复杂度；
为克制 pointwise group convolution 带来的副作用，提出了 channel shuffle 的操作，用于实现信息在特征通道之间流动 .
ShuffleNet与MobileNet的对比，ShuffleNet不仅计算复杂度更低，而且精度更好。

创新点讲解

DeepwiseConvolution（是一种GroupConvolution）（特征图数就是通道数）

分组卷积(Group Convolution) 的概念首先是在 AlexNet 中引入，用于将模型分布到两块 GPU 上。
Group convolution是将输入层的不同特征图进行分组，就是说不同的通道分组成几个组，然后只用组数目的卷积核进行卷积，然后采用不同的卷积核再对各个组进行卷积，这样会降低卷积的计算量。
- 因为一般的卷积都是在所有的输入特征图上做卷积，可以说是全通道卷积，这是一种通道密集连接方式（channel dense connection）。
- 而group convolution相比则是一种通道稀疏连接方式（channel sparse connection）。
Xception和MobileNet采用了depthwise convolution，这其实是一种比较特殊的group convolution，因此此时分组数恰好等于通道数，意味着每个组只有一个特征图。
但是这些网络存在一个很大的弊端是采用了密集的1x1卷积

Pointwise Group Convolution（也是一种GroupConvolution，针对1*1卷积）

为了解决MobileNet中用太多1*1卷积的问题，这里提出了Pointwise Group Convolution来替代1*卷积
不如也对1x1卷积采用channel sparse connection，那样计算量就可以降下来了。但是group convolution存在另外一个弊端是不同组之间的特征图是不通信的，这会降低网络的特征提取能力。

Channel Shuffle(针对1*1卷积之后)

目的：在分组卷积后，强制不同组之间交换信息。

通道洗牌(Channel Shuffle) 允许分组卷积从不同的组中获取输入数据，从而实现输入通道和输出通道相关联

经过pointwise group convolutiion和ChannelShuffle就可以修改Resnet基本结构

ShuffleNet的基本单元是在一个残差单元BottleNeck的基础上改进而成的。

基本单元（改3*3卷积）

BottleNeck把其中的3*3卷积改成GroupConvolution3*3卷积
首先是1x1卷积，然后是3x3的depthwise convolution（DWConv，主要是为了降低计算量），这里的3x3卷积是瓶颈层（bottleneck），紧接着是1x1卷积，最后是一个短路连接，将输入直接加到输出上。

再次改进（改1*1卷积，stride=1时）

将密集的1x1卷积替换成1x1的group convolution，不过在第一个1x1卷积之后增加了一个channel shuffle操作。
按paper的意思，对于这样一个残差单元，一个channel shuffle操作是足够了。
还有就是3x3的depthwise convolution之后没有使用ReLU激活函数。
如果stride=1时，此时输入与输出shape一致可以直接相加

再次改进（改shortcut，stride=2时）

当stride=2时，通道数增加，而特征图大小减小，此时输入与输出不匹配。一般情况下可以采用一个1x1卷积将输入映射成和输出一样的shape。但是在ShuffleNet中，对原输入采用stride=2的3x3 avg pool，这样得到和输出一样大小的特征图
然后将得到特征图与输出进行连接（concat），而不是相加。这样做的目的主要是降低计算量与参数大小。

网络架构

0.5x和0.25x表示的是在基准模型上将通道数缩小为原来的0.5和0.25
1. 开始使用的普通的3x3的卷积和max pool层。然后是三个阶段，每个阶段都是重复堆积了几个ShuffleNet的基本单元。
2. 对于每个阶段，第一个基本单元采用的是stride=2，这样特征图width和height各降低一半，而通道数增加一倍。后面的基本单元都是stride=1，特征图和通道数都保持不变。

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/06/02/SuffleNet/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Muilt View Stereo

赞助

微信
支付宝

相关推荐

三维视觉几何大整理

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...

Bark模型微调

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

CUDA 环境的两种来源

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

FoundationStereo

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...