2. 加宽(more )
3. 增加卷积层的滤波器大小( sizes)
WRN 结构如上,作者表示,小的滤波器更加高效,所以不准备使用超过 3×3 的卷积核,提出了宽度放大倍数 k 和卷积层数 l。
作者发现,参数随着深度的增加呈线性增长,但随着宽度却是平方长大。虽然参数会增多,但卷积运算更适合 GPU。参数的增多需要使用正则化()减少过拟合,何恺明等人使用了 batch ,但由于这种方法需要heavy ,于是作者使用了 。
WRN 40-4 与 -1001 结果相似,参数数量相似,但是前者训练快 8 倍。作者总结认为:
1. 宽度的增加提高了性能
2. 增加深度和宽度都有好处,直到参数太大,正则化不够
3. 相同参数时,宽度比深度好训练
:何恺明等人在 升级 ,提出“深度”和“宽度”之外的神经网络新维度
2017 年 2 月,已经加入 的何恺明和 S. Xie 等人在《残差变换聚合深度网络》( for Deep )[8]中提出一个名为 的残差网络变体,它的构建块如下所示:
左:[2]的构建块;右: 的一个构建块,基数=32
这个可能看起来很眼熟,因为它与 [4]的 模块非常类似。它们都遵循“拆分-转换-合并“的范式,区别只在于 这个变体中,不同路径的输出通过将相加在一起来合并,而在 [4]中不同路径的输出是深度连结的。另一个区别是, [4]中,每个路径彼此不同(1×1, 3×3 和 5×5 卷积),而在 架构中,所有路径共享相同的拓扑。
的作者引入了一个被称为“基数”()的超参数——即独立路径的数量,以提供一种新方式来调整模型容量。实验表明,通过增加“基数”提高准确度相比让网络加深或扩大来提高准确度更有效。作者表示,基数是衡量神经网络在深度(depth)和宽度(width)之外的另一个重要因素。作者还指出,与 相比,这种新的架构更容易适应新的数据集/任务,因为它有一个简单的范式,而且需要微调的超参数只有一个,而 有许多超参数(如每个路径的卷积层核的大小)需要微调。
这一新的构建块有如下三种对等形式:
在实践中,“分割-变换-合并”通常是通过逐点分组卷积层来完成的,它将输入分成一些特征映射组,并分别执行卷积,其输出被深度级联然后馈送到 1×1 卷积层。
在 -1K 数据集上,作者表明,即使在保持复杂性的限制条件下,增加基数也能够提高分类精度。此外,当增加容量时,增加基数比更深或更宽更有效。 在 2016 年的 竞赛中获得了第二名。
:将输出从相加改为“相并联”
也是在 2016 年,康奈尔大学的 Gao Huang 和清华大学的 Liu 等人在论文 [9]中,提出一种称为 的新架构。不同于 将输出与输入相加,形成一个残差结构, 将输出与输入相并联,实现每一层都能直接得到之前所有层的输出。
进一步利用 连接的好处——将所有层都直接连接在一起。在这个新架构中,每层的输入由所有前面的层的特征映射( maps)组成,其输出传递给每个后续的层。特征映射与 depth- 聚合。
将输出与输入相加,形成一个残差结构;而 却是将输出与输入相并联,实现每一层都能直接得到之前所有层的输出。
for Deep [8]的作者除了应对梯度消失问题外,还认为这种架构可以鼓励特征重新利用,从而使得网络具有高度的参数效率。一个简单的解释是,在 Deep for Image [2]和 in Deep [7]中, 的输出被添加到下一个块,如果两个层的特征映射具有非常不同的分布,这可能会阻碍信息流。因此,级联特征映射可以保留所有特征映射并增加输出的方差,从而鼓励特征重新利用。
遵循这个范式,我们知道第 l 层将具有 k *(l-1)+ k_0 个输入特征映射,其中 k_0 是输入图像中的通道数。作者使用一个名为增长率(k)的超参数来防止网络的生长过宽,以及使用一个 1×1 的卷积瓶颈层来减少昂贵的 3×3 卷积之前的特征映射数量。整体结构如下表所示:
的架构
谷歌 :视觉模型往移动端轻量级发展
说道 ()的变体,还有一个模型不得不提,那就是谷歌的,这是一种用于移动和嵌入式设备的视觉应用高效模型,在同样的效果下,计算量可以压缩至1/30。
基于一个流线型的架构,该架构使用 来构建轻量级的深度神经网络。作者引入了两个简单的全局超参数,有效权衡延迟和准确度。这些超参数能让模型搭建者根据问题的限制为其应用选择适当规模的模型。
新智元此前专门采访了 的其中一位作者,谷歌 G-RMI 团队的朱梦龙。
朱梦龙介绍:“ 一个很大的亮点是对 卷积的大规模使用。将一个二维的 卷积和 1×1 的映射卷积组合起来可以很好的逼近普通的三维卷积。对于常用的 3×3 三维卷积来说,利用 和 1×1 映射来取代可以将计算量压缩8-9倍,所用到的参数量也大大减少,但仍然保持相类似的精确度。这样的想法来自于矩阵分解,一般如果一个矩阵是 low rank(低秩)的话,可以有很多办法将其分解成为两个或者多个矩阵。另外一个启发是大部分的计算会产生于早期的卷积层,所以 较早的采用 2 而大大减少了计算量。 在 分类的任务上能达到类似 VGG 的效果,但是参数和计算量都少了都超过一个数量级(约1/30)。”
【相关新智元报道】
孙剑团队 :超越谷歌
旷视(Face++)孙剑等人的研究团队最近发表了《:一种极高效的移动端卷积神经网络》一文,作者针对移动端低功耗设备提出了一种更为高效的卷积模型结构,在大幅降低模型计算复杂度的同时仍然保持了较高的识别精度,并在多个性能指标上均显著超过了同类方法。
受 的启发,作者提出使用分组逐点卷积(group )来代替原来的结构。通过将卷积运算的输入限制在每个组内,模型的计算量取得了显著的下降。然而这样做也带来了明显的问题:在多层逐点卷积堆叠时,模型的信息流被分割在各个组内,组与组之间没有信息交换。这将可能影响到模型的表示能力和识别精度。
图 1 逐点卷积与通道重排操作
因此,在使用分组逐点卷积的同时,需要引入组间信息交换的机制。也就是说,对于第二层卷积而言,每个卷积核需要同时接收各组的特征作为输入,如图 1(b)所示。作者指出,通过引入“通道重排”( ,见图 1(c))可以很方便地实现这一机制;并且由于通道重排操作是可导的,因此可以嵌在网络结构中实现端到端的学习。
基于分组逐点卷积和通道重排操作,作者提出了全新的结构单元,如图2所示。该结构继承了“残差网络”()[3]的设计思想,在此基础上做出了一系列改进来提升模型的效率:首先,使用逐通道卷积替换原有的3×3卷积,降低卷积操作抽取空间特征的复杂度,如图2(a)所示;接着,将原先结构中前后两个1×1逐点卷积分组化,并在两层之间添加通道重排操作,进一步降低卷积运算的跨通道计算量。最终的结构单元如图2(b)所示。类似地,文中还提出了另一种结构单元(图2(c)),专门用于特征图的降采样。
借助结构单元,作者构建了完整的网络模型。它主要由16个结构单元堆叠而成,分属网络的三个阶段,每经过一个阶段特征图的空间尺寸减半,而通道数翻倍。整个模型的总计算量约为。通过简单地将各层通道数进行放缩,可以得到其他任意复杂度的模型。
另外可以发现,当卷积运算的分组数越多,模型的计算量就越低;这就意味着当总计算量一定时,较大的分组数可以允许较多的通道数,作者认为这将有利于网络编码更多的信息,提升模型的识别能力。
作者使用一样的整体网络布局,在保持计算复杂度的同时将 结构单元分别替换为 VGG-like、、-like 和 中的结构单元,使用完全一样训练方法。表2中的结果显示在不同的计算复杂度下, 始终大大优于其他网络。
表2 和其他网络结构的分类错误率对比(百分制)
颜水成团队双通道网络 DPN:结合残差网络与 两者优点,夺得 2017 目标定位冠军
新加坡国立大学与奇虎 AI 研究院合作,指出 是 的一种特例,并提出了一类新的网络拓补结构:双通道网络(Dual Path )。在 -1k 分类任务中:该网络不仅提高了准确率,还将200 层 的计算量降低了 57%,将最好的 (64x4d) 的计算量降低了25%;131 层的 DPN 成为新的最佳单模型,并在实测中提速约 300%。
作者发现, 其实是 在跨层参数共享时候的特例。于是,他们结合残差网络和 两者的优点,提出了一类全新的双通道网络结构:Dual Path (DPNs)。
DPN 具体网络结构
其核心思想是,将残差通道和 path 相融合,实现优缺互补,其重点不在于细节部分是如何设定的。
作者分别在“图像分类”,“物体检测”和“物体分割”三大任务上对 DPN 进行了验证。在 1000 类分类任务中的性能如表 2 所示:
在实测中: DPN-98 也显著提高了训练速度,降低内存占用,并保持更高的准确率。在 -1k 分类任务中:该网络不仅提高了准确率,还将200 层 的计算量降低了 57%,将最好的 (64x4d) 的计算量降低了25%;131 层的 DPN 成为新的最佳单模型,并在实测中提速约 300%。
就在这周, 官方网站公布了 2017 年 Large Scale 2017 () 的比赛结果,在目标定位任务中,新加坡国立大学与奇虎360 合作提出的 DPN 双通道网络 + 基本聚合获得第一,定位错误率为 0.。
结语
我们重新回顾了 的架构,简要介绍了其最近取得的成功背后的原因。我们还介绍了一些 的有趣变体。短短两年,2017 年 竞赛冠军架构——基于 的双通道网络 DPN将 200 层 的计算量降低了 57%。
计算机视觉在这两年取得了突飞猛进的发展,回顾 、WRN、、、 和最新的 DPN,我们在这里向最后一届 竞赛致敬,并期待未来更多更好的轻量级视觉模型。同时,让我们向视觉理解进军。
,再见!
本文中的所有图片均来自参考文献中列出的论文。
:
[1]. A. , I. , and G. E. . with deep . In in ,–1105,2012.
[2]. K. He, X. Zhang, S. Ren, and J. Sun. Deep for image . arXiv arXiv:1512.03385,2015.
[3]. K. and A. . Very deep for large-scale image . arXiv arXiv:1409.1556,2014.
[4]. C. , W. Liu, Y. Jia, P. , S. Reed, D. , D. Erhan, V. , and A. . Going with . In of the IEEE on and ,pages 1–9,2015.
[5]. R. , K. Greff and J. . Very Deep . arXiv arXiv:1507.,2015.
[6]. S. and J. . Long short-term . ., 9(8):1735–1780, Nov. 1997.
[7]. K. He, X. Zhang, S. Ren, and J. Sun. in Deep . arXiv arXiv:1603.,2016.
[8]. S. Xie, R. , P. , Z. Tu and K. He. for Deep . arXiv arXiv:1611.,2016.
[9]. G. Huang, Z. Liu, K. Q. and L. . . arXiv:1608.,2016.
[10]. G. Huang, Y. Sun, Z. Liu, D. Sedra and K. Q. . Deep with Depth. arXiv:1603.,2016.
[11]. N. , G. , A. , I. and R. . : A Way to from . The of 15(1) (2014) 1929–1958.
[12]. A. Veit, M. and S. . Like of . arXiv:1605.,2016.
本文部分内容来自: 作者: Fung
【号外】新智元正在进行新一轮招聘,
发表回复