从AI研究的角度来说,AI的学习和跟进是有偏向性的,更多的精英是擅长相关的一到两个领域,在这个领域做到更好。而从AI应用的角度来说,每一个工程都可能涉及很多个AI的方向,而他们需要了解掌握不同的方向才能更好的开发和设计。
因此我们从应用的角度 提出一个 叫做 ,描述不同方向的经典算法模型发展,以及应用上热门的算法。带领新手入门
第一个版本涉及的是 人,物 与艺术,三个大的部分。主要包括了图像方向的十二个子方向,上百篇文章和代码。里面列的模型除了商业化的部分外,其他大部分具有相关的开源算法与模型,所有论文和代码都已开源
AI AI路书发展地图 –
物
成千上万的物体是世界的组成,我们希望人工智能能够像我们一样理解这个世界。也就有了物体相关的算法发展。
深度学习在解决分类问题上非常厉害。让它声名大噪的也是对于图像分类问题的解决。也产生了很多很经典的模型。其他方向的模型发展很多都是源于这各部分,它是很多模型的基础工作。因此我们首先了解一下它们。
是所有发展的基础,很多其他方向的模型都是基于这个主线来改进的。
为什么算法都从图像领域发展而来?由于图像的数据最为丰富,卷积神经网络在图像上分类的稳定有效,1998年,LeNet,这个商用的手写数字识别网络就做出了有力的证明。而到了2012年,Alex 设计了 在当年的图像分类竞赛中下第一,开始了深度学习的黄金时代。
学术界发表的paper一般可以分为两大类,一类是网络结构的改进,一类是训练过程的改进,如,loss改进等。而网络结构设计发展主要有两条主线,一条是系列(即上面说的复杂度),从 到 V2 V3 V4, 。 模块在不断变化,一条是VGG系列(即深度),用简单的结构,尽可能的使得网络变得更深。从VGG 发展到 ,再到 ,DPN等。
最终 Brain用500块GPU训练出了比人类设计的网络结构更优的网络。
此外,应用方面更注重的是,如何将模型设计得更小,这中间就涉及到很多卷积核的变换。这条路线则包括 , V1 V2 等。的变种 和SENet 都是从小模型的设计思路发展而来。
从模型的发展过程中,随着准确率的提高,网络结构也在不断的进行改进,现在主要是两个方向,一是深度,二是复杂度。此外还有卷积核的变换等等。
深度神经网络的发展要从经典的LeNet模型说起,那是1998年提出的一个模型,在手写数字识别上达到商用标准。之后神经网络的发展就由于硬件和数据的限制,调参的难度等各种因素进入沉寂期。
到了2012年,Alex 设计了一个使用ReLu做激活函数的 在当年的图像分类竞赛中( 2012),以top-5错误率15.3%拿下第一。 他的top-5错误率比上一年的冠军下降了十个百分点,而且远远超过当年的第二名。而且网络针对多GPU训练进行了优化设计。从此开始了深度学习的黄金时代。
深度学习模型 准确率
大家发表的paper一般可以分为两大类,一类是网络结构的改进,一类是训练过程的改进,如,loss改进等。
之后网络结构设计发展主要有两条主线,一条是系列(即上面说的复杂度),从 到 V2 V3 V4, 。 模块在不断变化,一条是VGG系列(即深度),用简单的结构,尽可能的使得网络变得更深。从VGG 发展到 ,再到 ,DPN等。
最终 Brain用500块GPU训练出了比人类设计的网络结构更优的网络,最近训出了。
此外,应用方面更注重的是,如何将模型设计得更小,这中间就涉及到很多卷积核的变换。这条路线则包括 , V1 V2 等。
的变种 和SENet 都是从小模型的设计思路发展而来。
输入:图片 输出:类别标签
深度学习模型比较
2016 年的 ,来自中国的团队大放异彩:
(商汤和港中文),-(公安部三所),(商汤和港中文),(海康威视),(商汤和香港城市大学),NUIST(南京信息工程大学)包揽了各个项目的冠军。
(商汤科技和港中文):目标检测第一; -(公安部三所):目标定位第一; (商汤和港中文):视频中物体检测子项目第一; NUIST(南京信息工程大学):视频中的物体探测两个子项目第一; (海康威视):场景分类第一; (商汤和港中文):场景分析第一。
其中,- 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 分类任务的胜利。该团队使用了分类模型的集成(即 、-、 和宽度残差网络模块的平均结果)和基于标注的定位模型 R-CNN 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。
2017 提出的SENet 获得了最后一届 2017 竞赛 Image 任务的冠军, 2.251% Top-5 错误率
LeNet 详解 Yann LeCun
LeNet 是最经典的CNN网络
[1] LeCun, Yann; Léon ; ; (1998). “-based to “
详解 Alex ,
详解 /
V3 详解 /
VGG 详解 Karen , / Group(VGG)
单独看VGG19的模型:
[5] , Karen, and . “Very deep for large-scale image .” arXiv arXiv:1409.1556 (2014).
and 详解 何凯明 He
结构采用 ,减少了超参数的数量(子模块的拓扑结构一样),不增加参数复杂度,提高准确率。
[7] He, , et al. ” for Deep .” arXiv arXiv:1611.05431 . (,Very very deep , CVPR best paper)
–V2详解 /
V2是基于 V3 和 结构发展而来的一个网络。在这篇paper中,还同期给出了 V4.
[8] , et al. “-v4, – and the of on ” arXiv arXiv:1602.07261 (2015). pdf
详解 黄高Gao Huang, 刘壮 Liu
作者发现(Deep with depth)通过类似的方法随机扔掉一些层,能够提高的泛化能力。于是设计了。 将的 发挥到了极致,它做了两个重要的设计,一是网络的每一层都直接与其前面层相连,实现特征的重复利用,第二是网络的每一层都很窄,达到降低冗余性的目的。
很容易训练,但是它有很多数据需要重复使用,因此显存占用很大。不过现在的更新版本,已经通过用时间换空间的方法,将(-BN-)中部分数据使用完就释放,而在需要的时候重新计算。这样增加少部分计算量,节约大量内存空间。
[9] Gao Huang, Liu, et al. :2016, arXiv arXiv:1608.06993 . pdf CVPR 2017 Best Paper [10]Geoff , Danlu Chen, Gao Huang, et al.- of .
DPN详解 颜水成
之前我们已经了解了 和 ,使用的是相加(-wise ),则使用的是拼接()。
DPN把和联系到了一起,该神经网络结合和的长处,共享公共特征,并且通过双路径架构保留灵活性以探索新的特征。在设计上,采用了和一样的group操作。
它在在图像分类、目标检测还是语义分割领域都有极大的优势,可以去看2017 NUS- 的表现。
[11] Chen, Li, Xiao, Jin, Yan, Feng.Dual Path pdf
[ Zhang] 林达华[Dahua Lin] / CUHK-MMLAB & 商汤科技 详解
这个模型在 的基础上,替换了之前的 ,改用 作为基础模块,然后通过数学多项式来组合设计每一层网络结构。因此结构非常复杂。
在大规模图像分类测试集上获得了-crop错误率4.25%和multi-crop错误率3.45%。在的比赛中商汤科技与香港中大-商汤科技联合实验室在多项比赛中选用了这种网络结构并取得了三个单项第一的优异成绩。
[12] Zhang, Li, Loy, Dahua Lin,: A of in Very Deep .2017 pdf
SENet 详解
提出的SENet 获得了最后一届 2017 竞赛 Image 任务的冠军。 它在结构中增加了一个se模块,通过 和 的操作,学习自动获取每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
[13] -and-
这是谷歌用(Auto )在500块GPU上自行堆砌 cell(有两种cell )设计的网络。性能各种战胜人类设计。
[14] for Image
最后,
从诞生以来,从默默更新,到点赞超过1k+ star ,感谢大家认可。由于很多人表示,信息太多,如何有效学习是一个问题。
之后我们会开启一个连载,带大家一起通读了解整个AI发展,希望大家能一同进步
发表回复