主要介绍一些分类网络,并计算了FLOPS,参数个数和感受野信息,方便大家查询。

很多本人没有用过,另外也没有认真校对,有可能有错误。

1 VGG-16

VGG16[1]是非常经典的模型,好用,是的亚军(有可能是vgg-19)。核心思想:小核,堆叠。主要分成5个,22333,13个卷积层,16的意思应该是加上3个FC层。每个stage后面都跟着一个pool来减小尺寸,参数方面fc占了很多,所以后面大多用conv或者 pool来代替。在做分割时,一般会把第四个pool的设成1,然后stage 5的conv用 conv来增加尺寸。212的感受野还是比较小的,并且按照一些论文的分析实际的感受野一般会比理论上的小很多,因此如果用它来做检测等任务的话,感受野也许这个是个问题。

2 -V4

v1()应该是获得了image net 2014的冠军vgg应该是亚军(有可能是vgg19),这个V4[2]版本是在2016年出来。在15年初还出现了一篇对深度学习网络影响比较大的论文,所以基本后面的网络都会在conv后面加BN,在caffe里一般会用两个层组合来实现这个功能bn/scale.所以画的图中用bsr来表示和relu的组合.结构中嵌入了多尺度信息,集成了多种不同感受野上的特征,另外一个思想是将cross 和 分离开。一般用1*1的 conv去提取cross 的信息,然后3*3或者其他大核去提取空间信息。可以从架构图中看出来还是比较乱的,要设置的参数太多,一般认为的的能力没有vgg强,所以你可以在其他任务中如检测,分割中看到vgg,而很少见到.不过RF确实比较大。

3

[3]是2015年image net的冠军。同等条件下,的速度和精度都会比VGG要好。个人觉得还是受到了的启发,采用了多路的架构。但是有很好的解释性,它的核心是下面的.每一个这样的都有一条通路加input通过某种方式叠加在输出中,就好比 = input+,其中input和类似,那么就类似于一个残差的东西,因此就叫做残差网.

4

在原始的中,左边的通道经过了Relu,因此并不是一个纯粹的等价映射通道,所以在这篇论文中作者利用了full pre-构建了一个 [4]的 block来替换原有的,以便于信息和梯度传播,不过后面会介绍的WRN论文指出网络小于100层的用影响不太大。

5 –

结合了和的思想[2]

6 WRN (wide )

WRN[5]的思想非常简单,主要把的 block的增大,把网络变宽,从而能用不是很深的网络也能达到很好的效果.具体地说,比如对应于的1-3-1这样架构,WRN就是把前两个卷积的通道数量增加了一倍,参考的是caffe版本,未对照是否与原作者的有出入.同时这篇论文还指出了的架构也许更适用于,其他一些数据库可能使用其他的 block更合适些。

7 V1.1

在把网络做宽做深的同时,为了一些物联网、移动应用,学术界也在研究精简网络架构,在不损失很多精度下减小model size和提高速度。当然有些分支是利用裁剪,权重量化等方法,不在这里的讨论范围。

[6]主要利用三个思想。第一个是大量使用1*1卷积,这会造成空间关系提取的困难,因此在每一个fire unit有还有3*3的通路,其实也是的思想,一个提取空间,一个提取cross ;第二个,通过的方式降低3*3输入测数量;第三个,推迟下采样,使得后面的 map的分辨率大一些。个人觉得还是降的挺快的,不过确实不想其他网络降到了32倍,只降到16倍。注意论文中作者还利用了其他方法对模型进行压缩,压到了0.5M.

8

[7]开始使用 conv的方式提高速度和降低model size.它基于这样的假设,空间的联系和cross 的联系可以完全独立。所以它用了3*3的 conv的核提取空间关系,而用1*1的 conv提取corss 特征。另外它的 block应该也受到了[4]的影响,采用了 的架构,而且感觉它的分辨率降得很快。用的是keras或者的实现,的大小是向上取整.下图中右侧多了个relu,画图方便,也不影响结果

9

[8]结合了WRN和group conv的思想。下图中的c就是group的数量。

10

[9]的思想跟一致,不过它的 block变简单了,没有采用结构

11

像上面的几种网络采用group conv后,很多计算都集中在1*1的conv,如果1*1的conv也能用group的话那对模型压缩和速度都有好处,但是不利于精度,因为cross 的很多信息丢了,那怎么能提取cross 的一些特征,作者就提出了的概念[10],比如原来有两组,第一组是1234通道,第二组是5678,那么重排后第一组是1526,第二组是3748,这样就还能拿到这些信息。

12

跟的的基础模块不同,虽然也用了的结构,[11]用代替 add,因此输出的通道数量都比输入要多一些,论文中这个值一般是32。未优化下训练时特别耗显存.

13 Dual

Dual Path [12]结合了和.一个path照着把不同分支的特征 add,另外一个path照着把不同分支的特征.因此叫双路网络。

14 SENet

SENet[13]设计了一个()模块让网络可以自学习各个的权重。下图展示的是将SE block加入到了 UnitA中的情况。大体的意思还是比较好理解。

【未开始】

参考

[1] K, A. for large-scale image [J]. arXiv:1409.1556, 2014.

[2] C, Ioffe S, V,et al. -v4, – and the of [C]//AAAI. 2017: 4278-4284.

[3]He K, Zhang X, Ren S, et al.Deep for image [C]// of the on and . 2016: 770-778.

[4]He K, Zhang X, Ren S, et al. in deep [C]// on . , 2016: 630-645.

[5] S, N. Wide [J]. arXiv arXiv:1605.07146, 2016

[6] F N, Han S, M W, et al.: -level with 50x fewer and< 0.5 size[J]. arXiv arXiv:1602.07360, 2016.

[7] F. : Deep with [J]. arXiv arXiv:1610.02357, 2016.

[8]Xie S, R, Dollár P, et al. ons for deep [J]. arXiv arXiv:1611.05431,2016.

[9] A G, Zhu M, Chen B, et al. : al for [J]. arXiv :1704.04861, 2017.

[10]Zhang X, Zhou X, Lin M, et al. : An al for [J]. arXiv :1707.01083, 2017.

[11]Huang G, Liu Z, K Q, et al. al [J]. arXiv arXiv:1608.06993, 2016.

[12]Chen Y, Li J, Xiao H, et al. Dual [J]. arXiv arXiv:1707.01629, 2017.

[13]Hu J, Shen L, Sun G. -and- [J]. arXiv:1709.01507, 2017