CNN:图像分类

  1. ImageNet 数据集:一个开源的图片数据集,包含超过 1400万张图片和图片对应的标签,包含2万多个类别。

    自从2010 年以来,ImageNet 每年举办一次比赛,即:ImageNet 大规模视觉识别挑战赛ILSVRC ,比赛使用 1000 个类别图片。

    2017年7月,ImageNet 宣布ILSVRC2017 年正式结束,因为图像分类、物体检测、物体识别任务中计算机的正确率都远超人类,计算机视觉在感知方面的问题基本得到解决,后续将专注于目前尚未解决的问题。

  2. ImageNet 中使用两种错误率作为评估指标:

    • top-5 错误率:对一个图片,如果正确标记在模型输出的前 5 个最佳预测(即:概率最高的前5个)中,则认为是正确的,否则认为是错误的。

      最终错误预测的样本数占总样本数的比例就是 top-5 错误率。

    • top-1 错误率:对一个图片,如果正确标记等于模型输出的最佳预测(即:概率最高的那个),则认为是正确的,否则认为是错误的。

      最终错误预测的样本数占总样本数的比例就是 top-1 错误率。

  3. 注:feature map 的描述有两种:channel first,如256x3x3channel last,如3x3x256 。这里如果未说明,则默认采用channel last描述。另外也可以显式指定,如:3x3@256

一、LeNet

  1. 1998年LeCun 推出了LeNet 网络,它是第一个广为流传的卷积神经网络。

  2. LeNet 网络包含了卷积层、池化层、全连接层,这些都是现代CNN 网络的基本组件。

    • 输入层:二维图像,尺寸为32x32

    • C1、C3、C5 层:二维卷积层。

      其中C5 将输入的 feature map(尺寸 16@5x5 )转化为尺寸为120x1x1feature map,然后转换为长度为120 的一维向量。

      这是一种常见的、将卷积层的输出转换为全连接层的输入的一种方法。

    • S2、S4 层:池化层。使用sigmoid 函数作为激活函数。

      后续的 CNN 都使用ReLU 作为激活函数。

    • F6 层:全连接层。

    • 输出层:由欧式径向基函数单元组成。

      后续的CNN 使用softmax 输出单元。

      下表中,@ 分隔了通道数量和feature map 的宽、高。

      网络层核/池大小核数量步长输入尺寸输出尺寸
      INPUT----1@32x32
      C15x5611@32x326@28x28
      S22x2-26@28x286@14x14
      C35x51616@14x1416@10x10
      S42x2-216@10x1016@5x5
      C55x5120116@5x5120@1x1
      F6---12084
      OUTPUT---8410

二、AlexNet

  1. 2012年Hinton 和他的学生推出了AlexNet 。在当年的ImageNet 图像分类竞赛中,AlexeNet 以远超第二名的成绩夺冠,使得深度学习重回历史舞台,具有重大历史意义。

2.1 网络结构

  1. AlexNet 有5个广义卷积层和3个广义全连接层。

    • 广义的卷积层:包含了卷积层、池化层、ReLULRN 层等。
    • 广义全连接层:包含了全连接层、ReLUDropout 层等。

  2. 网络结构如下表所示:

    • 输入层会将3@224x224 的三维图片预处理变成3@227x227 的三维图片。

    • 第二层广义卷积层、第四层广义卷积层、第五层广义卷积层都是分组卷积,仅采用本GPU 内的通道数据进行计算。

      第一层广义卷积层、第三层广义卷积层、第六层连接层、第七层连接层、第八层连接层执行的是全部通道数据的计算。

    • 第二层广义卷积层的卷积、第三层广义卷积层的卷积、第四层广义卷积层的卷积、第五层广义卷积层的卷积均采用same 填充。

      当卷积的步长为1,核大小为3x3 时,如果不填充0,则feature map 的宽/高都会缩减 2 。因此这里填充0,使得输出feature map 的宽/高保持不变。

      其它层的卷积,以及所有的池化都是valid 填充(即:不填充 0 )。

    • 第六层广义连接层的卷积之后,会将feature map 展平为长度为 4096 的一维向量。

    编号网络层子层核/池大小核数量步长激活函数输入尺寸输出尺寸
    第0层输入层------3@224x224
    第1层广义卷积层卷积11x11964ReLU3@227x22796@55x55
    第1层广义卷积层池化3x3-2-96@55x5596@27x27
    第1层广义卷积层LRN----96@27x2796@27x27
    第2层广义卷积层卷积5x52561ReLU96@27x27256@27x27
    第2层广义卷积层池化3x3-2-256@27x27256@13x13
    第2层广义卷积层LRN----256@13x13256@13x13
    第3层广义卷积层卷积3x33841ReLU256@13x13384@13x13
    第4层广义卷积层卷积3x33841ReLU384@13x13384@13x13
    第5层广义卷积层卷积3x32561ReLU384@13x13256@13x13
    第5层广义卷积层池化3x3-2-256@13x13256@6x6
    第6层广义连接层卷积6x640961ReLU256@6x64096@1x1
    第6层广义连接层dropout----4096@1x14096@1x1
    第7层广义连接层全连接---ReLU40964096
    第7层广义连接层dropout----40964096
    第8层广义连接层全连接----40961000
  3. 网络参数数量:总计约 6237万。

    • 输出Tensor size 采用channel last 风格描述。即227x227x3 等价于前文的 3@227x227

    • 第6层广义连接层的卷积的参数数量最多,约3770万,占整体六千万参数的 60%。

      原因是该子层的卷积核较大、输入通道数量较大、输出通道数量太多。该卷积需要的参数数量为:

    编号网络层子层输出 Tensor size权重个数偏置个数参数数量
    第0层输入层-227x227x3000
    第1层广义卷积层卷积55x55x96348489634944
    第1层广义卷积层池化27x27x96000
    第1层广义卷积层LRN27x27x96000
    第2层广义卷积层卷积27x27x256614400256614656
    第2层广义卷积层池化13x13x256000
    第2层广义卷积层LRN13x13x256000
    第3层广义卷积层卷积13x13x384884736384885120
    第4层广义卷积层卷积13x13x38413271043841327488
    第5层广义卷积层卷积13x13x256884736256884992
    第5层广义卷积层池化6x6x256000
    第6层广义连接层卷积4096×137748736409637752832
    第6层广义连接层dropout4096×1000
    第7层广义连接层全连接4096×116777216409616781312
    第7层广义连接层dropout4096×1000
    第8层广义连接层全连接1000×1409600010004097000
    总计-----62,378,344

2.2 设计技巧

  1. AlexNet 成功的主要原因在于:

    • 使用ReLU 激活函数。
    • 使用dropout、数据集增强 、重叠池化等防止过拟合的方法。
    • 使用百万级的大数据集来训练。
    • 使用GPU训练,以及的LRN 使用。
    • 使用带动量的 mini batch 随机梯度下降来训练。

2.2.1 数据集增强

  1. AlexNet 中使用的数据集增强手段:

    • 随机裁剪、随机水平翻转:原始图片的尺寸为256xx256,裁剪大小为224x224

      • 每一个epoch 中,对同一张图片进行随机性的裁剪,然后随机性的水平翻转。理论上相当于扩充了数据集 倍。

      • 在预测阶段不是随机裁剪,而是固定裁剪图片四个角、一个中心位置,再加上水平翻转,一共获得 10 张图片。

        用这10张图片的预测结果的均值作为原始图片的预测结果。

    • PCA 降噪:对RGB空间做PCA 变换来完成去噪功能。同时在特征值上放大一个随机性的因子倍数(单位1 加上一个 的高斯绕动),从而保证图像的多样性。

      • 每一个epoch 重新生成一个随机因子。
      • 该操作使得错误率下降1%
  2. AlexNet 的预测方法存在两个问题:

    • 这种固定裁剪四个角、一个中心的方式,把图片的很多区域都给忽略掉了。很有可能一些重要的信息就被裁剪掉。
    • 裁剪窗口重叠,这会引起很多冗余的计算。

    改进的思路是:

    • 执行所有可能的裁剪方式,对所有裁剪后的图片进行预测。将所有预测结果取平均,即可得到原始测试图片的预测结果。
    • 减少裁剪窗口重叠部分的冗余计算。

    具体做法为:将全连接层用等效的卷积层替代,然后直接使用原始大小的测试图片进行预测。将输出的各位置处的概率值按每一类取平均(或者取最大),则得到原始测试图像的输出类别概率。

    下图中:上半图为AlexNet 的预测方法;下半图为改进的预测方法。

2.2.2 局部响应规范化

  1. 局部响应规范层LRN:目地是为了进行一个横向抑制,使得不同的卷积核所获得的响应产生竞争。

    • LRN 层现在很少使用,因为效果不是很明显,而且增加了内存消耗和计算时间。
    • AlexNet 中,该策略贡献了1.2% 的贡献率。
  2. LRN 的思想:输出通道 在位置 处的输出会受到相邻通道在相同位置输出的影响。

    为了刻画这种影响,将输出通道 的原始值除以一个归一化因子。

    其中: 为输出通道 在位置 处的原始值, 为归一化之后的值。 为影响第 通道的通道数量(分别从左侧、右侧 个通道考虑)。 为超参数。

    一般考虑

     

2.2.3 多GPU 训练

  1. AlexNet 使用两个GPU训练。网络结构图由上、下两部分组成:一个GPU运行图上方的通道数据,一个GPU 运行图下方的通道数据,两个GPU 只在特定的网络层通信。即:执行分组卷积。

    • 第二、四、五层卷积层的核只和同一个GPU 上的前一层的feature map 相连。
    • 第三层卷积层的核和前一层所有GPUfeature map 相连。
    • 全连接层中的神经元和前一层中的所有神经元相连。

2.2.4 重叠池化

  1. 一般的池化是不重叠的,池化区域的大小与步长相同。Alexnet 中,池化是可重叠的,即:步长小于池化区域的大小。

    重叠池化可以缓解过拟合,该策略贡献了0.4% 的错误率。

  2. 为什么重叠池化会减少过拟合,很难用数学甚至直观上的观点来解答。一个稍微合理的解释是:重叠池化会带来更多的特征,这些特征很可能会有利于提高模型的泛化能力。

2.2.5 优化算法

  1. AlexNet 使用了带动量的mini-batch 随机梯度下降法。

  2. 标准的带动量的mini-batch 随机梯度下降法为:

    而论文中,作者使用了修正:

    • 其中 为学习率。
    • 为权重衰减。论文指出:权重衰减对于模型训练非常重要,不仅可以起到正则化效果,还可以减少训练误差。

三、VGG-Net

  1. VGG-Net 是牛津大学计算机视觉组和DeepMind公司共同研发一种深度卷积网络,并且在2014年在ILSVRC比赛上获得了分类项目的第二名和定位项目的第一名。

  2. VGG-Net 的主要贡献是:

    • 证明了小尺寸卷积核(3x3 )的深层网络要优于大尺寸卷积核的浅层网络。
    • 证明了深度对网络的泛化性能的重要性。
    • 验证了尺寸抖动scale jittering 这一数据增强技术的有效性。
  3. VGG-Net 最大的问题在于参数数量,VGG-19 基本上是参数数量最多的卷积网络架构。

3.1 网络结构

  1. VGG-Net 一共有五组结构(分别表示为:A~E ), 每组结构都类似,区别在于网络深度上的不同。

    • 结构中不同的部分用黑色粗体给出。

    • 卷积层的参数为convx-y,其中x 为卷积核大小,y 为卷积核数量。

      如:conv3-64 表示 643x3 的卷积核。

    • 卷积层的通道数刚开始很小(64通道),然后在每个池化层之后的卷积层通道数翻倍,直到512。

    • 每个卷积层之后都跟随一个ReLU激活函数,表中没有标出。

  2. 通用结构:

    • 输入层:固定大小的224x224RGB 图像。

    • 卷积层:卷积步长均为1。

      • 填充方式:填充卷积层的输入,使得卷积前后保持同样的空间分辨率。

        • 3x3 卷积:same 填充,即:输入的上下左右各填充1个像素。
        • 1x1 卷积:不需要填充。
      • 卷积核尺寸:有3x31x1 两种。

        • 3x3 卷积核:这是捕获左右、上下、中心等概念的最小尺寸。

        • 1x1 卷积核:用于输入通道的线性变换。

          在它之后接一个ReLU 激活函数,使得输入通道执行了非线性变换。

    • 池化层:采用最大池化。

      • 池化层连接在卷积层之后,但并不是所有的卷积层之后都有池化。
      • 池化窗口为2x2,步长为 2 。
    • 网络最后四层为::三个全连接层 + 一个softmax 层。

      • 前两个全连接层都是 4096个神经元,第三个全连接层是 1000 个神经元(因为执行的是 1000 类的分类)。
      • 最后一层是softmax 层用于输出类别的概率。
    • 所有隐层都使用ReLU 激活函数。

  3. VGG-Net 网络参数数量:

    其中第一个全连接层的参数数量为:7x7x512x4096=1.02亿 ,因此网络绝大部分参数来自于该层。

    AlexNet 相比,VGG-Net 在第一个全连接层的输入feature map 较大:7x7 vs 6x6512 vs 256

    网络A , A-LRNBCDE
    参数数量1.13亿1.33亿1.34亿1.38亿1.44

3.2 设计技巧

  1. 输入预处理:通道像素零均值化。

    • 先统计训练集中全部样本的通道均值:所有红色通道的像素均值 、所有绿色通道的像素均值 、所有蓝色通道的像素均值

      其中:假设红色通道为通道0,绿色通道为通道1,蓝色通道为通道2 遍历所有的训练样本, 遍历图片空间上的所有坐标。

    • 对每个样本:红色通道的每个像素值减去 ,绿色通道的每个像素值减去 ,蓝色通道的每个像素值减去

  2. 多尺度训练:将原始的图像缩放到最小的边 ,然后在整副图像上截取224x224 的区域来训练。

    有两种方案:

    • 在所有图像上固定 :用 来训练一个模型,用 来训练另一个模型。最后使用两个模型来评估。

    • 对每个图像,在 之间随机选取一个 ,然后进行裁剪来训练一个模型。最后使用单个模型来评估。

      • 该方法只需要一个单一的模型。
      • 该方法相当于使用了尺寸抖动(scale jittering) 的数据增强。

  3. 多尺度测试:将测试的原始图像等轴的缩放到预定义的最小图像边,表示为 不一定等于 ),称作测试尺度。

    在一张测试图像的几个归一化版本上运行模型,然后对得到的结果进行平均。

    • 不同版本对应于不同的 值。
    • 所有版本都执行通道像素归一化。注意:采用训练集的统计量。

    该方法相当于在测试时使用了尺寸抖动。实验结果表明:测试时的尺寸抖动导致了更好的性能。

  4. 评估有三种方案:

    • single-crop:对测试图片沿着最短边缩放,然后选择其中的 center crop 来裁剪图像,选择这个图像的预测结果作为原始图像的预测结果。

      该方法的缺点是:仅仅保留图片的中央部分可能会丢掉图片类别的关键信息。因此该方法很少在实际任务中使用,通常用于不同模型之间的性能比较。

    • multi-crop:类似AlexNet 的做法,对每个测试图像获取多个裁剪图像,平均每个裁剪图像的预测结果为原始图像的预测结果。

      该方法的缺点是:需要网络重新计算每个裁剪图像,效率较低。

    • dense:将最后三个全连接层用等效的卷积层替代,成为一个全卷积网络。其中:第一个全连接层用7x7 的卷积层替代,后面两个全连接层用1x1 的卷积层替代。

      该全卷积网络应用到整张图片上(无需裁剪),得到一个多位置的、各类别的概率字典。通过原始图片、水平翻转图片的各类别预测的均值,得到原始图片的各类别概率。

      该方法的优点是:不需要裁剪图片,支持多尺度的图片测试,计算效率较高。

    实验结果表明:multi-crop 评估方式要比dense 评估方式表现更好。另外,二者是互补的,其组合要优于任何单独的一种。下表中,S=[256;512]

    还有一种评估策略:ensemble error 。即:同时训练同一种网络的多个不同的模型,然后用这几个模型的预测结果的平均误差作为最终的 ensemble error

    有一种术语叫single-model error。它是训练一个模型,然后采用上述的多种crop/dense 评估的组合,这些组合的平均输出作为预测结果。

  5. 权重初始化:由于网络深度较深,因此网络权重的初始化很重要,设计不好的初始化可能会阻碍学习。

    • 论文的权重初始化方案为:先训练结构A 。当训练更深的配置时,使用结构A 的前四个卷积层和最后三个全连接层来初始化网络,网络的其它层被随机初始化。
    • 作者后来指出:可以通过 Xavier均匀初始化来直接初始化权重而不需要进行预训练。
  6. 实验结果表明:

    • 分类误差随着网络深度的增加而减小。
    • A-LRNA 的比较发现:局部响应归一化层LRN 对于模型没有任何改善。

四、Inception

  1. Inception 网络是卷积神经网络的一个重要里程碑。在Inception 之前,大部分流行的卷积神经网络仅仅是把卷积层堆叠得越来越多,使得网络越来越深。这使得网络越来越复杂,参数越来越多,从而导致网络容易出现过拟合,增加计算量。

    Inception 网络考虑的是多种卷积核的并行计算,扩展了网络的宽度。

  2. Inception Net 核心思想是:稀疏连接。因为生物神经连接是稀疏的。

  3. Inception 网络的最大特点是大量使用了Inception 模块。

4.1 Inception v1

4.1.1 网络结构

  1. InceptionNet V1 是一个22层的深度网络。 如果考虑池化层,则有29层。如下图中的depth 列所示。

    网络具有三组Inception 模块,分别为:inception(3a)/inception(3b)inception(4a)/inception(4b)/inception(4c)/inception(4d)/inception(4e)inception(5a)、inception(5b)。三组Inception 模块被池化层分隔。

  2. 下图给出了网络的层次结构和参数,其中:

    • type 列:给出了每个模块/层的类型。
    • patch size/stride 列:给出了卷积层/池化层的尺寸和步长。
    • output size 列:给出了每个模块/层的输出尺寸和输出通道数。
    • depth列:给出了每个模块/层包含的、含有训练参数层的数量。
    • #1x1列:给出了每个模块/层包含的1x1 卷积核的数量,它就是1x1 卷积核的输出通道数。
    • #3x3 reduce列:给出了每个模块/层包含的、放置在3x3 卷积层之前的1x1 卷积核的数量,它就是1x1 卷积核的输出通道数。
    • #3x3列:给出了每个模块/层包含的3x3 卷积核的数量,它就是3x3 卷积核的输出通道数。
    • #5x5 reduce列:给出了每个模块/层包含的、放置在5x5 卷积层之前的1x1 卷积核的数量,它就是1x1 卷积核的输出通道数。
    • #5x5列:给出了每个模块/层包含的5x5 卷积核的数量,它就是5x5卷积核的输出通道数。
    • pool proj列:给出了每个模块/层包含的、放置在池化层之后的1x1 卷积核的数量,它就是1x1 卷积核的输出通道数。
    • params列:给出了每个模块/层的参数数量。
    • ops列:给出了每个模块/层的计算量。

  3. Inception V1 的参数数量为 697.7 万,其参数数量远远小于AlexNet(6千万)、VGG-Net(超过1亿)。

    Inception V1 参数数量能缩减的一个主要技巧是:在inception(5b)输出到linear之间插入一个平均池化层avg pool

    • 如果没有平均池化层,则inception(5b)linear 之间的参数数量为:7x7x1024x1024,约为 5 千万。
    • 插入了平均池化层之后,inception(5b)linear 之间的参数数量为:1x1x1024x1024,约为 1百万。

4.1.2 Inception 模块

  1. 原始的Inception 模块对输入同时执行:3个不同大小的卷积操作(1x1、3x3、5x5)、1个最大池化操作(3x3 )。所有操作的输出都在深度方向拼接起来,向后一级传递。

    • 三种不同大小卷积:通过不同尺寸的卷积核抓取不同大小的对象的特征。

      使用1x1、3x3、5x5 这些具体尺寸仅仅是为了便利性,事实上也可以使用更多的、其它尺寸的滤波器。

    • 1个最大池化:提取图像的原始特征(不经过过滤器)。

     

  2. 原始Inception 模块中,模块的输出通道数量为四个子层的输出通道数的叠加。这种叠加不可避免的使得Inception 模块的输出通道数增加,这就增加了Inception 模块中每个卷积的计算量。因此在经过若干个模块之后,计算量会爆炸性增长。

    解决方案是:在3x35x5 卷积层之前额外添加1x1 卷积层,来限制输入给卷积层的输入通道的数量。

    注意:

    • 1x1 卷积是在最大池化层之后,而不是之前。这是因为:池化层是为了提取图像的原始特征,一旦它接在1x1 卷积之后就失去了最初的本意。
    • 1x1 卷积在3x35x5 卷积之前。这是因为:如果1x1 卷积在它们之后,则3x3 卷积、5x5 卷积的输入通道数太大,导致计算量仍然巨大。

4.1.3 辅助分类器

  1. 为了缓解梯度消失的问题,InceptionNet V1 给出了两个辅助分类器。这两个辅助分类器被添加到网络的中间层,它们和主分类器共享同一套训练数据及其标记。其中:

    • 第一个辅助分类器位于Inception(4a) 之后,Inception(4a) 模块的输出作为它的输入。

    • 第二个辅助分类器位于Inception(4d) 之后,Inception(4d) 模块的输出作为它的输入。

    • 两个辅助分类器的结构相同,包括以下组件:

      • 一个尺寸为5x5、步长为3的平均池化层。
      • 一个尺寸为1x1、输出通道数为128 的卷积层。
      • 一个具有1024 个单元的全连接层。
      • 一个drop rate = 70%dropout 层。
      • 一个使用softmax 损失的线性层作为输出层。
  2. 在训练期间,两个辅助分类器的损失函数的权重是0.3,它们的损失被叠加到网络的整体损失上。在推断期间,这两个辅助网络被丢弃。

    Inception v3 的实验中表明:辅助网络的影响相对较小,只需要其中一个就能够取得同样的效果。

    事实上辅助分类器在训练早期并没有多少贡献。只有在训练接近结束,辅助分支网络开始发挥作用,获得超出无辅助分类器网络的结果。

  3. 两个辅助分类器的作用:提供正则化的同时,克服了梯度消失问题。

4.2 Inception v2

  1. Inception v2 的主要贡献是提出了Batch Normalization 。论文指出,使用了Batch Normalization 之后:

    • 可以加速网络的学习。

      相比Inception v1,训练速度提升了14倍。因为应用了BN 之后,网络可以使用更高的学习率,同时删除了某些层。

    • 网络具有更好的泛化能力。

      ImageNet 分类问题的top5 上达到4.8%,超过了人类标注 top5 的准确率。

  2. Inception V2 网络训练的技巧有:

    • 使用更高的学习率。
    • 删除dropout层、LRN 层。
    • 减小L2 正则化的系数。
    • 更快的衰减学习率。学习率以指数形式衰减。
    • 更彻底的混洗训练样本,使得一组样本在不同的epoch 中处于不同的mini batch 中。
    • 减少图片的形变。
  3. Inception v2 的网络结构比Inception v1 有少量改动:

    • 5x5 卷积被两个3x3 卷积替代。

      这使得网络的最大深度增加了 9 层,同时网络参数数量增加 25%,计算量增加 30%。

    • 28x28inception 模块从2个增加到3个。

    • inception 模块中,有的采用最大池化,有的采用平均池化。

    • inception 模块之间取消了用作连接的池化层。

    • inception(3c),inception(4e) 的子层采用步长为 2 的卷积/池化。

    Pool+proj 列给出了inception 中的池化操作。

    • avg+32 意义为:平均池化层后接一个尺寸1x1、输出通道32 的卷积层。
    • max+pass through 意义为:最大池化层后接一个尺寸1x1、输出通道数等于输入通道数的卷积层。

  4. Inception V2 的网络参数约为1126 万。

    参数数量
    conv19408
    conv2114688
    inception-3a218094
    inception-3b259072
    inception-3c384000
    inception-4a608193
    inception-4b663552
    inception-4c912384
    inception-4d1140736
    inception-4e1447936
    inception-5a2205696
    inception-5b2276352
    fc1024000
    11264111
  5. Inception V2ImageNet 测试集上的误差率:

4.3 Inception v3

  1. 虽然Inception v1 的参数较少,但是它的结构比较复杂,难以进行修改。原因有以下两点:

    • 如果单纯的放大网络(如增加Inception 模块的数量、扩展Inception 模块的大小),则参数的数量会显著增长,计算代价太大。
    • Inception v1 结构中的各种设计,其对最终结果的贡献尚未明确。

    因此Inception v3 的论文重点探讨了网络结构设计的原则。

4.3.1 网络结构

  1. Inception v3 的网络深度为42层,它相对于Inception v1 网络主要做了以下改动:

    • 7x7 卷积替换为3个3x3 卷积。

    • 3个Inception模块:模块中的5x5 卷积替换为2个3x3 卷积,同时使用后面描述的网格尺寸缩减技术。

    • 5个Inception 模块:模块中的5x5 卷积替换为2个3x3 卷积之后,所有的nxn 卷积进行非对称分解,同时使用后面描述的网格尺寸缩减技术。

    • 2个Inception 模块:结构如下。它也使用了卷积分解技术,以及网格尺寸缩减技术。

  2. Inception v3 的网络结构如下所示:

    • 3xInception 表示三个Inception 模块,4xInception 表示四个Inception 模块,5xInception 表示五个Inception 模块。

    • conv padded 表示使用0填充的卷积,它可以保持feature map 的尺寸。

      Inception 模块内的卷积也使用0填充,所有其它的卷积/池化不再使用填充。

  3. 3xInception 模块的输出之后设有一个辅助分类器。其结构如下:

  4. Inception v3 整体参数数量约 23,626,728万(论文Xception: Deep Learning with Depthwise Separable Convolutions)。

4.3.2 设计技巧

  1. Inception v3 总结出网络设计的一套通用设计原则:

    • 避免representation 瓶颈:representation 的大小应该从输入到输出缓缓减小,避免极端压缩。在缩小feature map 尺寸的同时,应该增加feature map 的通道数。

      representation 大小通常指的是feature map 的容量,即feature mapwidth x height x channel

    • 空间聚合:可以通过空间聚合来完成低维嵌入,而不会在表达能力上有较大的损失。因此通常在nxn 卷积之前,先利用1x1 卷积来降低输入维度。

      猜测的原因是:空间维度之间的强相关性导致了空间聚合过程中的信息丢失较少。

    • 平衡网络的宽度和深度:增加网络的宽度或者深度都可以提高网络的泛化能力,因此计算资源需要在网络的深度和宽度之间取得平衡。

4.3.2.1 卷积尺寸分解
  1. 大卷积核的分解:将大卷积核分解为多个小的卷积核。

    如:使用2个3x3 卷积替换5x5 卷积,则其参数数量大约是1个5x5 卷积的 72% 。

  2. nxn 卷积核的非对称分解:将nxn 卷积替换为1xn 卷积和nx1 卷积。

    • 这种非对称分解的参数数量是原始卷积数量的 。随着n 的增加,计算成本的节省非常显著。
    • 论文指出:对于较大的feature map ,这种分解不能很好的工作;但是对于中等大小的 feature map (尺寸在12~20 之间),这种分解效果非常好。

4.3.2.2 网格尺寸缩减
  1. 假设输入的feature map 尺寸为dxd,通道数为k。如果希望输出的feature map 尺寸为d/2 x d/2,通道数为2k。则有以下的两种方式:

    • 首先使用2k1x1 的卷积核,执行步长为1的卷积。然后执行一个2x2 的、步长为2的池化操作。

      该方式需要执行 乘-加操作,计算代价较大。

    • 直接使用2k1x1 的卷积核,执行步长为2的卷积。

      该方式需要执行 乘-加操作,计算代价相对较小。但是表征能力下降,产生了表征瓶颈。

    事实上每个Inception 模块都会使得feature map 尺寸缩半、通道翻倍,因此在这个过程中需要仔细设计网络,使得既能够保证网络的表征能力,又不至于计算代价太大。

  2. 解决方案是:采用两个模块PC

    • 模块P :使用k1x1 的卷积核,执行步长为2的卷积。其输出feature map 尺寸为d/2 x d/2,通道数为k
    • 模块C:使用步长为2的池化。其输出feature map 尺寸为d/2 x d/2,通道数为k

    将模块P 和模块C 的输出按照通道数拼接,产生最终的输出feature map

4.3.2.3 标签平滑正则化
  1. 标签平滑正则化的原理:假设样本的真实标记存在一定程度上的噪声。即:样本的真实标记不一定是可信的。

    对给定的样本 ,其真实标记为 。在普通的训练中,该样本的类别分布为一个 函数:。记做

    采用标签平滑正则化(LSR:Label Smoothing Regularization)之后,该样本的类别分布为:

    其中 是一个很小的正数(如 0.1),其物理意义为:样本标签不可信的比例。

    该类别分布的物理意义为:

    • 样本 的类别为 的概率为
    • 样本 的类别为 的概率均
  2. 论文指出:标签平滑正则化对top-1 错误率和top-5 错误率提升了大约 0.2% 。

4.4 Inception v4 & Inception - ResNet

  1. Inception v4Inception-ResNet 在同一篇论文中给出。论文通过实验证明了:结合残差连接可以显著加速Inception 的训练。

  2. 性能比较:(综合采用了 144 crops/dense 评估的结果,数据集:ILSVRC 2012 的验证集 )

    网络cropsTop-1 ErrorTop-5 Error
    ResNet-151dense19.4%4.5%
    Inception-v314418.9%4.3%
    Inception-ResNet-v114418.8%4.3%
    Inception-v414417.7%3.8%
    Inception-ResNet-v214417.8%3.7%
  3. Inception-ResNet-v2 参数数量约为 5500万,Inception-ResNet-v1/Inception-v4 的参数数量也在该量级。

4.4.1 Inception v4

  1. Inception v4 结构的主要改动:

    • 修改了 stem 部分。

    • 引入了Inception-AInception-BInception-C 三个模块。这些模块看起来和Inception v3 变体非常相似。

      Inception-A/B/C 模块中,输入feature map 和输出feature map 形状相同。而Reduction-A/B 模块中,输出feature map 的宽/高减半、通道数增加。

    • 引入了专用的“缩减块”(reduction block),它被用于缩减feature map 的宽、高。

      早期的版本并没有明确使用缩减块,但是也实现了其功能。

  2. Inception v4 结构如下:(没有标记V 的卷积使用same填充;标记V 的卷积使用valid 填充)

    • stem 部分的结构:

    • Inception-A模块(这样的模块有4个):

    • Inception-B模块(这样的模块有7个):

    • Inception-C模块(这样的模块有3个):

    • Reduction-A模块:(其中 分别表示滤波器的数量)

      网络klmn
      Inception-v4192224256384
      Inception-ResNet-v1192192256384
      Inception-ResNet-v2256256256384
    • Reduction-B模块:

4.4.2 Inception-ResNet

  1. Inception-ResNet 中,使用了更廉价的Inception 块:inception 模块的池化运算由残差连接替代。

    Reduction 模块中能够找到池化运算。

  1. Inception ResNet 有两个版本:v1v2

    • v1 的计算成本和Inception v3 的接近,v2 的计算成本和Inception v4 的接近。
    • v1v2 具有不同的stem
    • 两个版本都有相同的模块A、B、C 和缩减块结构,唯一不同在于超参数设置。
  2. Inception-ResNet-v1 结构如下:

    • stem 部分的结构:

    • Inception-ResNet-A模块(这样的模块有5个):

    • Inception-B模块(这样的模块有10个):

    • Inception-C模块(这样的模块有5个):

    • Reduction-A模块:同inception_v4Reduction-A模块

    • Reduction-B模块:

  3. Inception-ResNet-v2 结构与Inception-ResNet-v1 基本相同 :

    • stem 部分的结构:同inception_v4stem 部分。

      Inception-ResNet-v2 使用了inception v4stem 部分,因此后续的通道数量与Inception-ResNet-v1 不同。

    • Inception-ResNet-A模块(这样的模块有5个):它的结构与Inception-ResNet-v1Inception-ResNet-A相同,只是通道数发生了改变。

    • Inception-B模块(这样的模块有10个):它的结构与Inception-ResNet-v1Inception-ResNet-B相同,只是通道数发生了改变。

    • Inception-C模块(这样的模块有5个):它的结构与Inception-ResNet-v1Inception-ResNet-C相同,只是通道数发生了改变。

    • Reduction-A模块:同inception_v4Reduction-A模块。

    • Reduction-B模块:它的结构与Inception-ResNet-v1Reduction-B相同,只是通道数发生了改变。

  4. 如果滤波器数量超过1000,则残差网络开始出现不稳定,同时网络会在训练过程早期出现“死亡”:经过成千上万次迭代之后,在平均池化之前的层开始只生成 0 。

    解决方案:在残差模块添加到activation 激活层之前,对其进行缩放能够稳定训练。降低学习率或者增加额外的BN都无法避免这种状况。

    这就是Inception ResNet 中的 Inception-A,Inception-B,Inception-C 为何如此设计的原因。

    • Inception-A,Inception-B,Inception-C 放置在两个Relu activation 之间。
    • 通过线性的1x1 Conv(不带激活函数)来执行对残差的线性缩放。

     

4.5 Xception

  1. 一个常规的卷积核尝试在三维空间中使用滤波器抽取特征,包括:两个空间维度(宽度和高度)、一个通道维度。因此单个卷积核的任务是:同时映射跨通道的相关性和空间相关性。

    Inception 将这个过程明确的分解为一系列独立的相关性的映射:要么考虑跨通道相关性,要么考虑空间相关性。Inception 的做法是:

    • 首先通过一组1x1 卷积来查看跨通道的相关性,将输入数据映射到比原始输入空间小的三个或者四个独立空间。
    • 然后通过常规的3x3 或者 5x5 卷积,将所有的相关性(包含了跨通道相关性和空间相关性)映射到这些较小的三维空间中。

    一个典型的Inception 模块(Inception V3 )如下:

    可以简化为:

  2. Xception 将这一思想发挥到极致:首先使用1x1 卷积来映射跨通道相关性,然后分别映射每个输出通道的空间相关性,从而将跨通道相关性和空间相关性解耦。因此该网络被称作Xception:Extreme Inception ,其中的Inception 块被称作 Xception 块。

  3. Xception 块类似于深度可分离卷积,但是它与深度可分离卷积之间有两个细微的差异:

    • 操作顺序不同:

      • 深度可分离卷积通常首先执行channel-wise 空间卷积,然后再执行1x1 卷积。
      • Xception 块首先执行1x1 卷积,然后再进行channel-wise 空间卷积。
    • 第一次卷积操作之后是否存在非线性:

      • 深度可分离卷积只有第二个卷积(1x1 )使用了ReLU 非线性激活函数,channel-wise 空间卷积不使用非线性激活函数。
      • Xception 块的两个卷积(1x13x3 )都使用了ReLU 非线性激活函数。

    其中第二个差异更为重要。

  4. Xception 进行以下的修改,都可以加快网络收敛速度,并获取更高的准确率:

    • 引入类似ResNet 的残差连接机制。
    • 1x1 卷积和3x3 卷积之间不加入任何非线性。
  5. Xception 的参数数量与Inception V3 相同,但是性能表现显著优于Inception V3 。这表明Xception 更加高效的利用了模型参数。

    • 根据论文Xception: Deep Learning with Depthwise Separable ConvolutionsInception V3 参数数量为 23626728,Xception 参数数量为 22855952 。

    • ImageNet 上的benchmark 为(单个模型,单次crop ):

      模型top-1 accuracytop-5 accuracy
      VGG-1671.5%90.1%
      ResNet-15277.0%93.3%
      Inception V378.2%94.1%
      Xception79.0%94.5%

五、ResNet

  1. ResNet 提出了一种残差学习框架来解决网络退化问题,从而训练更深的网络。这种框架可以结合已有的各种网络结构,充分发挥二者的优势。

  2. ResNet以三种方式挑战了传统的神经网络架构:

    • ResNet 通过引入跳跃连接来绕过残差层,这允许数据直接流向任何后续层。

      这与传统的、顺序的pipeline 形成鲜明对比:传统的架构中,网络依次处理低级feature 到高级feature

    • ResNet 的层数非常深,高达1202层。而ALexNet 这样的架构,网络层数要小两个量级。

    • 通过实验发现,训练好的 ResNet 中去掉单个层并不会影响其预测性能。而训练好的AlexNet 等网络中,移除层会导致预测性能损失。

  3. ImageNet分类数据集中,拥有152层的残差网络,以3.75% top-5 的错误率获得了ILSVRC 2015 分类比赛的冠军。

  4. 很多证据表明:残差学习是通用的,不仅可以应用于视觉问题,也可应用于非视觉问题。

5.1 网络退化问题

  1. 学习更深的网络的一个障碍是梯度消失/爆炸,该问题可以通过Batch Normalization 在很大程度上解决。

  2. ResNet 论文作者发现:随着网络的深度的增加,准确率达到饱和之后迅速下降,而这种下降不是由过拟合引起的。这称作网络退化问题。

    如果更深的网络训练误差更大,则说明是由于优化算法引起的:越深的网络,求解优化问题越难。如下所示:更深的网络导致更高的训练误差和测试误差。

  3. 理论上讲,较深的模型不应该比和它对应的、较浅的模型更差。因为较深的模型是较浅的模型的超空间。较深的模型可以这样得到:先构建较浅的模型,然后添加很多恒等映射的网络层。

    实际上我们的较深的模型后面添加的不是恒等映射,而是一些非线性层。因此,退化问题表明:通过多个非线性层来近似横等映射可能是困难的。

  4. 解决网络退化问题的方案:学习残差。

5.2 残差块

  1. 假设需要学习的是映射 ,残差块使用堆叠的非线性层拟合残差:

    其中:

    • 是块的输入和输出向量。

    • 是要学习的残差映射。因为 ,因此称 为残差。

    • + :通过快捷连接逐个元素相加来执行。快捷连接 指的是那些跳过一层或者更多层的连接。

      • 快捷连接简单的执行恒等映射,并将其输出添加到堆叠层的输出。
      • 快捷连接既不增加额外的参数,也不增加计算复杂度。
    • 相加之后通过非线性激活函数,这可以视作对整个残差块添加非线性,即

  2. 前面给出的残差块隐含了一个假设: 的维度相等。如果它们的维度不等,则需要在快捷连接中对 执行线性投影来匹配维度:

    事实上当它们维度相等时,也可以执行线性变换。但是实践表明:使用恒等映射足以解决退化问题,而使用线性投影会增加参数和计算复杂度。因此 仅在匹配维度时使用。

  3. 残差函数 的形式是可变的。

    • 层数可变:论文中的实验包含有两层堆叠、三层堆叠,实际任务中也可以包含更多层的堆叠。

      如果 只有一层,则残差块退化线性层: 。此时对网络并没有什么提升。

    • 连接形式可变:不仅可用于全连接层,可也用于卷积层。此时 代表多个卷积层的堆叠,而最终的逐元素加法+ 在两个feature map 上逐通道进行。

      此时 x 也是一个feature map,而不再是一个向量。

  4. 残差学习成功的原因:学习残差 比学习原始映射 要更容易。

    • 当原始映射 就是一个恒等映射时, 就是一个零映射。此时求解器只需要简单的将堆叠的非线性连接的权重推向零即可。

      实际任务中原始映射 可能不是一个恒等映射:

      • 如果 更偏向于恒等映射(而不是更偏向于非恒等映射),则 就是关于恒等映射的抖动,会更容易学习。
      • 如果原始映射 更偏向于零映射,那么学习 本身要更容易。但是在实际应用中,零映射非常少见,因为它会导致输出全为0。
    • 如果原始映射 是一个非恒等映射,则可以考虑对残差模块使用缩放因子。如Inception-Resnet 中:在残差模块与快捷连接叠加之前,对残差进行缩放。

      注意:ResNet 作者在随后的论文中指出:不应该对恒等映射进行缩放。因此Inception-Resnet对残差模块进行缩放。

    • 可以通过观察残差 的输出来判断:如果 的输出均为0附近的、较小的数,则说明原始映射 更偏向于恒等映射;否则,说明原始映射 更偏向于非横等映射。

5.3 ResNet 分析

  1. Veit et al. 认为ResNet 工作较好的原因是:一个ResNet 网络可以看做是一组较浅的网络的集成模型。

    但是ResNet 的作者认为这个解释是不正确的。因为集成模型要求每个子模型是独立训练的,而这组较浅的网络是共同训练的。

  2. 论文《Residual Networks Bahave Like Ensemble of Relatively Shallow Networks》ResNet 进行了深入的分析。

    • 通过分解视图表明:ResNet 可以被视作许多路径的集合。

    • 通过研究ResNet 的梯度流表明:网络训练期间只有短路径才会产生梯度流,深的路径不是必须的。

    • 通过破坏性实验,表明:

      • 即使这些路径是共同训练的,它们也不是相互依赖的。
      • 这些路径的行为类似集成模型,其预测准确率平滑地与有效路径的数量有关。

5.3.1 分解视图

  1. 考虑从输出 的三个ResNet 块构建的网络。根据:

    下图中:左图为原始形式,右图为分解视图。分解视图中展示了数据从输入到输出的多条路径。

    对于严格顺序的网络(如VGG ),这些网络中的输入总是在单个路径中从第一层直接流到最后一层。如下图所示。

  2. 分解视图中, 每条路径可以通过二进制编码向量 来索引:如果流过残差块 ,则 ;如果跳过残差块 ,则

    因此ResNet 从输入到输出具有 条路径,第 个残差块 的输入汇聚了之前的 个残差块的 条路径。

  3. 普通的前馈神经网络也可以在单个神经元(而不是网络层)这一粒度上运用分解视图,这也可以将网络分解为不同路径的集合。

    它与ResNet 分解的区别是:

    • 普通前馈神经网络的神经元分解视图中,所有路径都具有相同的长度。
    • ResNet 网络的残差块分解视图中,所有路径具有不同的路径长度。

5.3.2 路径长度分析

  1. ResNet 中,从输入到输出存在许多条不同长度的路径。这些路径长度的分布服从二项分布。对于 层深的ResNet,大多数路径的深度为

    下图为一个 54 个块的ResNet 网络的路径长度的分布 ,其中95% 的路径只包含 19~35个块。

5.3.3 路径梯度分析

  1. ResNet 中,路径的梯度幅度随着它在反向传播中经过的残差块的数量呈指数减小。因此,训练期间大多数梯度来源于更短的路径。

  2. 对于一个包含 54 个残差块的ResNet 网络:

    • 下图表示:单条长度为 的路径在反向传播到 input 处的梯度的幅度的均值,它刻画了长度为 的单条路径的对于更新的影响。

      因为长度为 的路径有多条,因此取其平均。

    • 下图表示:长度为 的所有路径在反向传播到 input 处的梯度的幅度的和。它刻画了长度为 的所有路径对于更新的影响。

      它不仅取决于长度为 的单条路径的对于更新的影响,还取决于长度为 的单条路径的数量。

  3. 有效路径:反向传播到 input 处的梯度幅度相对较大的路径。

    ResNet 中有效路径相对较浅,而且有效路径数量占比较少。在一个54 个块的ResNet 网络中:

    • 几乎所有的梯度更新都来自于长度为 5~17 的路径。
    • 长度为 5~17 的路径占网络所有路径的 0.45% 。
  4. 论文从头开始重新训练ResNet,同时在训练期间只保留有效路径,确保不使用长路径。实验结果表明:相比于完整模型的 6.10% 的错误率,这里实现了 5.96% 的错误率。二者没有明显的统计学上的差异,这表明确实只需要有效路径。

    因此,ResNet 不是让梯度流流通整个网络深度来解决梯度消失问题,而是引入能够在非常深的网络中传输梯度的短路径来避免梯度消失问题。

  5. ResNet 原理类似,随机深度网络起作用有两个原因:

    • 训练期间,网络看到的路径分布会发生变化,主要是变得更短。
    • 训练期间,每个mini-batch 选择不同的短路径的子集,这会鼓励各路径独立地产生良好的结果。

5.3.4 路径破坏性分析

  1. ResNet 网络训练完成之后,如果随机丢弃单个残差块,则测试误差基本不变。因为移除一个残差块时,ResNet 中路径的数量从 减少到 ,留下了一半的路径。

    VGG 网络训练完成之后,如果随机丢弃单个块,则测试误差急剧上升,预测结果就跟随机猜测差不多。因为移除一个块时,VGG 中唯一可行的路径被破坏。

  2. 删除ResNet 残差块通常会删除长路径。

    当删除了 个残差块时,长度为 的路径的剩余比例由下式给定:

    下图中:

    • 删除10个残差模块,一部分有效路径(路径长度为5~17)仍然被保留,模型测试性能会部分下降。
    • 删除20个残差模块,绝大部分有效路径(路径长度为5~17)被删除,模型测试性能会大幅度下降。

  3. ResNet 网络中,路径的集合表现出一种类似集成模型的效果。一个关键证据是:它们的整体表现平稳地取决于路径的数量。随着网络删除越来越多的残差块,网络路径的数量降低,测试误差平滑地增加(而不是突变)。

  4. 如果在测试时重新排序网络的残差块,这意味着交换了低层映射和高层映射。采用Kendall Tau rank 来衡量网络结构被破坏的程度,结果表明:随着 Kendall Tau rank 的增加,预测错误率也在增加。

5.4 网络性能

  1. plain 网络:一些简单网络结构的叠加,如下图所示。图中给出了四种plain 网络,它们的区别主要是网络深度不同。其中,输入图片尺寸 224x224 。

    ResNet 简单的在plain 网络上添加快捷连接来实现。

    FLOPsfloating point operations 的缩写,意思是浮点运算量,用于衡量算法/模型的复杂度。

    FLOPSfloating point per second的缩写,意思是每秒浮点运算次数,用于衡量计算速度。

  2. 相对于输入的feature map,残差块的输出feature map 尺寸可能会发生变化:

    • 输出 feature map 的通道数增加,此时需要扩充快捷连接的输出feature map 。否则快捷连接的输出 feature map 无法和残差块的feature map 累加。

      有两种扩充方式:

      • 直接通过 0 来填充需要扩充的维度,在图中以实线标识。
      • 通过1x1 卷积来扩充维度,在图中以虚线标识。
    • 输出 feature map 的尺寸减半。此时需要对快捷连接执行步长为 2 的池化/卷积:如果快捷连接已经采用 1x1 卷积,则该卷积步长为2 ;否则采用步长为 2 的最大池化 。

  3. 计算复杂度:

     VGG-1934层 plain 网络Resnet-34
    计算复杂度(FLOPs)19.6 billion3.5 billion3.6 billion
  4. 模型预测能力:在ImageNet 验证集上执行10-crop 测试的结果。

    • A 类模型:快捷连接中,所有需要扩充的维度的填充 0 。
    • B 类模型:快捷连接中,所有需要扩充的维度通过1x1 卷积来扩充。
    • C 类模型:所有快捷连接都通过1x1 卷积来执行线性变换。

    可以看到C 优于BB 优于A。但是 C 引入更多的参数,相对于这种微弱的提升,性价比较低。所以后续的ResNet 均采用 B 类模型。

    模型top-1 误差率top-5 误差率
    VGG-1628.07%9.33%
    GoogleNet-9.15%
    PReLU-net24.27%7.38%
    plain-3428.54%10.02%
    ResNet-34 A25.03%7.76%
    ResNet-34 B24.52%7.46%
    ResNet-34 C24.19%7.40%
    ResNet-5022.85%6.71%
    ResNet-10121.75%6.05%
    ResNet-15221.43%5.71%

六、ResNet 变种

6.1 恒等映射修正

  1. 在论文《Identity Mappings in Deep Residual Networks》中,ResNet 的作者通过实验证明了恒等映射的重要性,并且提出了一个新的残差单元来简化恒等映射。

6.1.1 新残差块

  1. 新的残差单元中,恒等映射添加到ReLU 激活函数之后。它使得训练变得更简单,并且提高了网络的泛化能力。

  2. 假设 是第 个残差单元的输入特征; 为一组与第 个残差单元相关的权重(包括偏置项), 是残差单元中的层的数量; 代表残差函数。则第 个残差单元的输出为(它也等价于第 个残差单元的输入):

    考虑递归,对于任意深的残差单元 ,则有:

    因此,对任意深的单元 ,其输入特征 可以表示为浅层单元 的特征 加上一个形如 的残差函数。

    这意味着:任意单元 之间都具有残差性。

  3. 对于任意深的单元 ,其输入特征 可以表示为: 。即:之前所有残差函数输出的总和,再加上

    与之形成鲜明对比的是常规网络中,输入特征 是一系列矩阵向量的乘积。即为: (忽略了激活函数和 BN )。

  4. 新的残差单元也更具有良好的反向传播特性。对于损失函数 ,有:

    可以看到:

    • 梯度 可以分解为两个部分:

      • :直接传递信息而不涉及任何权重。它保证了信息能够直接传回给任意浅层
      • :通过各权重层来传递。
    • 在一个mini-batch 中,不可能出现梯度消失的情况。

      可能对于某个样本,存在 的情况,但是不可能出现mini-batch 中所有的样本满足

      这意味着:哪怕权重是任意小的,也不可能出现梯度消失的情况。

    对于旧的残差单元,由于恒等映射还需要经过ReLU 激活函数,因此当 时饱和,其梯度为0 。

  5. 根据3.4. 的讨论表明:在前向和反向阶段,信号都能够直接传递到任意单元。

6.1.2 快捷连接验证

  1. 假设可以对快捷连接执行缩放(如线性的1x1 卷积),第 个残差单元的缩放因子为 ,其中 也是一个可以学习的参数。此时有: ,以及:

    令:,则有:

    对于特别深的网络:如果 , 则 发生梯度爆炸;如果 , 则 发生梯度消失。这会丧失快捷连接的好处。

  2. 如果对快捷连接执行的不是线性缩放,而是一个复杂的函数 ,则上式括号中第一部分变成: 。其中 的导数。

    这也会丧失快捷连接的好处,阻碍梯度的传播。

  3. 下图所示为对快捷连接进行的各种修改:

    为了简化,这里没有画出BN 层。每个权重层的后面实际上都有一个BN 层。

    • (a):原始的、旧的残差块。

    • (b):对所有的快捷连接设置缩放。其中缩放因子

      残差有两种配置:缩放(缩放因子 0.5)、不缩放。

    • (c):对快捷连接执行门控机制。残差由 来缩放,快捷连接由 来缩放。

      其中

    • (d):对快捷连接执行门控机制,但是残差并不进行缩放。

    • (e): 对快捷连接执行1x1 卷积。

    • (f):对快捷连接执行dropout,其中遗忘比例为0.5 。

      在统计学上,它等效于一个缩放比例为0.5的缩放操作。

    CIFAR-10 上利用ResNet-110 的测试误差如下:(fail 表示测试误差超过 20% )

    on shortcuton F 列分别给出了快捷连接、残差块上的缩放比例。

  4. 最终结果表明:快捷连接是信息传递最直接的路径,快捷连接中的各种操作都会阻碍信息的传递,以致于对优化造成困难。

  5. 理论上,对快捷连接执行1x1 卷积,会引入更多的参数。它应该比恒等连接具备更强大的表达能力。

    事实上,其训练误差要比恒等连接的训练误差高的多。这意味着模型退化是因为优化问题,而不是网络表达能力的问题。

6.1.3 激活函数验证

  1. 设残差块之间的函数为 ,即:+ 之后引入

    前面的理论推导均假设 为恒等映射 ,而上面的实验中 。因此接下来考察 的影响。

  2. 如下图所示,组件都相同,但是不同的组合导致不同的残差块或

    • (a):原始的、旧的残差块,

    • (b):将BN 移动到addition 之后,

    • (c):将ReLU 移动到addition 之前,

      这种结构问题较大,因为理想的残差块的输出范围是 。这里的残差块经过个ReLU 之后的输出为非负,从而使得残差的输出为 ,从而使得前向信号会逐级递增。这会影响网络的表达能力。

    • (d):将ReLU 移动到残差块之前,

    • (e): 将BNReLU 移动到残差块之前,

  3. 最终结果表明:full pre-activation 效果最好。有两个原因:

    • 快捷连接通路是顺畅的,这使得优化更加简单。

    • 对两个权重层的输入都执行了BN

      所有其它四组结构中,只有第二个权重层的输入的到了标准化,第一个权重层的输入并未的到标准化。

6.1.4 网络性能

  1. ILSVRC 2012 验证集上的评估结果:

    方法数据集增强train croptest croptop-1 误差top-5 误差
    ResNet-152,原始残差块scale224x224224x22423.0%6.7%
    ResNet-152,原始残差块scale224x224320x32021.3%5.5%
    ResNet-152,full pre-activationscale224x224320x32021.1%5.5%
    ResNet-200,原始残差块scale224x224320x32021.8%6.0%
    ResNet-200,full pre-activationscale224x224320x32020.7%5.3%
    ResNet-200,full pre-activationscale + asp ratio224x224320x32020.1%4.8%
    Inception v3scale + asp ratio299x299299x29921.2%5.6%

6.2 ResNeXt

  1. 通常提高模型准确率的方法是加深网络深度或者加宽网络宽度,但这些方法会增加超参数的数量、参数数量和计算量。

    ResNeXt 网络可以在不增加网络参数复杂度的前提下提高准确率,同时还减少了超参数的数量。

  2. ResNeXt 的设计参考了VGGInception 的设计哲学。

    • VGG:网络通过简单地层叠相同结构的层来实现,因此网络结构简单。其缺点是网络参数太多,计算量太大。

    • Inception:通过执行分裂-变换-合并策略来精心设计拓扑结构,使得网络参数较少,计算复杂度较低。这种分裂-变换-合并行为预期能够达到一个大的dense 层的表达能力,但是计算复杂度要低的多。

      其缺点是:

      • 每个“变换”中,滤波器的数量和尺寸等超参数都需要精细的设计。
      • 一旦需要训练新的任务(如新任务是一个NLP 任务),可能需要重新设计网络结构。因此可扩展性不高。
    • ResNeXt 结合了二者的优点:

      • 网络结构也是通过简单地层叠相同结构的层来实现。
      • 网络的每一层都执行了分裂-变换-合并策略。
  3. 在相同的参数数量和计算复杂度的情况下,ResNeXt 的预测性能要优于ResNet

    • 它在ILSVRC 2016 分类任务中取得了第二名的成绩。
    • 101 层的ResNeXt 就能够获得超过200ResNet 的准确率,并且计算量只有后者的一半。
  4. ResNeXt 改进了ResNet 网络结构,并提出了一个新的维度,称作“基数”cardinality。基数是网络的深度和网络的宽度之外的另一个重要因素。

    作者通过实验表明:增加基数比增加网络的深度或者网络的宽度更有效。

6.2.1 分裂-变换-合并

  1. 考虑全连接网络中的一个神经元。假设输入为 ,为一个一度的输入向量(长度为 )。假设对应的权重为 。不考虑偏置和激活函数,则神经元的输出为:

    它可以视作一个最简单的“分裂-变换-合并”:

    • 分裂:输入被分割成 个低维(维度为零)嵌入。
    • 变换:每个低维嵌入通过对应的权重 执行线性变换。
    • 合并:变换之后的结果通过直接相加来合并。
  2. Inception 的“分裂-变换-合并”策略:

    • 分裂:输入通过1x1 卷积被分割成几个低维嵌入。
    • 变换:每个低维嵌入分别使用一组专用滤波器(3x35x5 等) 执行变换。
    • 合并:变换之后的结果进行合并(沿深度方向拼接)。
  3. 对一个ResNeXt 块,其“分裂-变换-合并”策略用公式表述为:

    其中:

    • 为任意函数,它将 映射为 的一个低维嵌入,并对该低维嵌入执行转换。
    • 为转换的数量,也就是基数cardinality
  4. ResNeXt 中,为了设计方便 采取以下设计原则:

    • 所有的 具有相同的结构。这是参考了VGG 的层叠相同结构的层的思想。

    • 的结构通常是:

      • 第一层:执行1x1 的卷积来产生 的一个低维嵌入。
      • 第二层 ~ 倒数第二层:执行卷积、池化等等变换。
      • 最后一层:执行1x1 的卷积来将结果提升到合适的维度。

6.2.2 ResNeXt 块

  1. 一个ResNeXt 模块执行了一组相同的“变换”,每一个“变换”都是输入的一个低维嵌入,变换的数量就是基数 C

    如下所示:左图为ResNet 块;右图为ResNeXt 块。

  2. ResNeXt 模块有两种等效的形式:图(a) 为标准形式,图(b)类似Inception-ResNet 模块。其中图(b) 的拼接是沿着深度方向拼接。

    • 等效的原因是:输入通道数为1281x1 卷积可以如下拆分:( 设输入张量为 ,输出张量为 ,核张量为 )

      经过这种拆分,图(b) 就等效于图(a)。其中: 表示输出单元位于 通道, 表示输入单元位于 通道, 表示通道中的坐标。

      本质原因是1x1 卷积是简单的对通道进行线性相加。它可以拆分为:先将输入通道分组,然后计算各组的子通道的线性和(1x1 卷积);然后将所有组的和相加。

    • (b)Inception-ResNet 模块的区别在于:这里每一条路径都是相同的。

    • (c) 是一个分组卷积的形式,它就是用分组卷积来实现图(b)。它也是图(b) 在代码中的实现方式。

  3. 通常ResNeXt 模块至少有三层。事实上它也可以有两层,此时它等效于一个宽的、密集模块。

    • 此时并没有通过 1x1 卷积进行降维与升维,而是在降维的过程中同时进行变换,在升维的过程中也进行变换。
    • 如下图所示,它等价于图(c) 中,去掉中间的变换层(128,3x3,128 层),同时将第一层、第三层的 1x1 替换为3x3 卷积层。

6.2.3 网络性能

  1. ResNeXt 的两种重要超参数是:基数C 和颈宽d

    • 基数 C:决定了每个ResNeXt 模块有多少条路径。
    • 颈宽(bottleneck widthd:决定了ResNeXt 模块中第一层1x1 卷积降维的维度。

    这二者也决定了ResNeXt 模块等价形式中,通道分组卷积的通道数量为 Cxd

  2. ResNeXt 的网络参数和计算量与同等结构的ResNet 几乎相同。以ResNet-50 为例(输入图片尺寸224x224 ):

    ResNeXt-50(32x4d) 意思是:基数C=32,颈宽d=4

  3. ImageNet 上进行的对比实验(验证集误差,single crop ):

    • 基数 vs 颈宽:基数越大越好。

      模型配置top-1 error(%)
      ResNet-50C=1,d=6423.9
      ResNeXt-50C=2,d=4023.0
      ResNeXt-50C=4,d=2422.6
      ResNeXt-50C=8,d=1422.3
      ResNeXt-50C=32,d=422.2
      ResNet-101C=1,d=6422.0
      ResNeXt-101C=2,d=4021.7
      ResNeXt-101C=4,d=2421.4
      ResNeXt-101C=8,d=1421.3
      ResNeXt-101C=32,d=421.2
    • 基数 vs 深度/宽度:基数越大越好。

  4. 与其它模型的预测能力比较(验证集误差,single crop):

    ResNet/ResNeXt 的图片尺寸为224x224320x320Inception 的图片尺寸为299x299

6.3 随机深度网络

  1. 随机深度网络提出了训练时随机丢弃网络层的思想,从而能够让网络深度增加到超过1000层,并仍然可以减少测试误差。

    如图所示:在CIFAR-10 上,1202 层的ResNet 测试误差要高于 110 层的ResNet ,表现出明显的过拟合。而 1202 层的随机深度网络(结合了ResNet )的测试误差要低于 110 层的ResNet

  2. 神经网络的表达能力主要由网络深度来决定,但是过深的网络会带来三个问题:反向传播过程中的梯度消失、前向传播过程中的feature 消失、训练时间过长。

    • 虽然较浅的网络能够缓解这几个问题,但是较浅的网络表达能力不足,容易陷入欠拟合。

    • 随机深度网络解决这一矛盾的策略是:构建具有足够表达能力的深度神经网络(具有数百层甚至数千层),然后:

      • 在网络训练期间,对每个mini batch 随机地移除部分层来显著的减小网络的深度。

        移除操作:删除对应的层,并用跳跃连接来代替。

      • 在网络测试期间,使用全部的网络层。

  3. 随机深度的思想可以和ResNet 结合。因为ResNet 已经包含了跳跃连接,因此可以直接修改。

6.3.1 随机深度

  1. 假设ResNet 个残差块,则有: 。其中:

    • 表示第 个残差块的输出, 为第 个残差块的输入(它也是第 个残差块的输出)。
    • 为一组与第 个残差单元相关的权重(包括偏置项), 是残差单元中的层的数量。
    • 代表残差函数。
  2. 假设第 个残差块是否随机丢弃由伯努利随机变量 来指示:当 时,第 个残差块被丢弃;当 时,第 个残差块被保留。

    因此有:

    对随机变量 ,令:

    其中 称做保留概率或者存活概率,它是一个非常重要的超参数。

  3. 的选择有两个策略:

    • 所有残差块的存活概率都相同:

    • 所有残差块的存活概率都不同,且根据残差块的深度进行线性衰减:

      其背后的思想是:靠近输入的层提取的是被后续层使用的低级特征,因此更应该被保留下来。

  4. 给定第 个残差块的保留概率 ,则网络的深度 的期望为(以残差块数量为单位):

    • 对于均匀存活: