《清华大学:中国人工智能发展报告2019(388页).pdf》由会员分享,可在线阅读,更多相关《清华大学:中国人工智能发展报告2019(388页).pdf(388页珍藏版)》请在三个皮匠报告上搜索。
1、卷积神经网络的发展,最早可以追溯到 1962 年,Hubel 和 Wiesel 对猫大脑中的视觉系统的研究。1980 年,一个日本科学家福岛邦彦(Kunihiko Fukushima)提出了一个包含卷积层、池化层的神经网络结构。在这个基础上,Yann Lecun 将BP 算法应用到这个神经网络结构的训练上,就形成了当代卷积神经网络的雏形。其实最初的 CNN 效果并不算好,而且训练也非常困难。虽然也在阅读支票、识别数字之类的任务上有一定的效果,但由于在一般的实际任务中表现不如SVM、Boosting 等算法好,因此一直处于学术界的边缘地位。直到 2012 年, ImageNet图像识别大赛中,H
2、inton 组的AlexNet引入了全新的深层结构和Dropout方法,一下子把error rate 从 25%降低到了 15%,这颠覆了图像识别领域。AlexNet有很多创新,尽管都不是很难的方法。其最主要的结果是让人们意识到原来那个福岛邦彦提出的、Yann LeCun 优化的 LeNet 结构原来是有很大改进空间的:只要通过一些方法能够加深这个网络到 8 层左右,让网络表达能力提升,就能得到出人意料的好结果。顺着 AlexNet 的思想,LeCun 组 2013 年提出一个 DropConnect,把 error rate降低到了11%。而NUS 的颜水成组则提出了一个重要的Network
3、 in Network(NIN)方法,NIN 的思想是在原来的 CNN 结构中加入了一个 1*1 conv 层,NIN 的应用也得到了2014 年 Imagine 另一个挑战图像检测的冠军。Network in Network更加引发了大家对CNN 结构改变的大胆创新。因此,两个新的架构 Inception 和VGG 在 2014 年把网络加深到了 20 层左右,图像识别的 error rate(越小越好)也大幅降低到 6.7%,接近人类错误率的 5.1%。2015 年,MSRA 的任少卿、何恺明、孙剑等人,尝试把 identity 加入到卷积神经网络中提出 ResNet。最简单的Identi
4、ty 却出人意料的有效,直接使 CNN 能够深化到 152 层、1202 层等,error rate 也降到了 3.6%。后来,ResNeXt, Residual-Attention,DenseNet,SENet 等也各有贡献,各自引入了 Group convolution ,Attention ,Dense connection , channelwise-attention 等,最终 ImageNet 上 error rate 降到了 2.2%,大大超过人类的错误率。现在,即使手机上的神经网络,也能达到超过人类的水平。而另一个挑战图像检测中,也是任少卿、何恺明、孙剑等优化了原先的 R-CNN, fast R-CNN 等通过其他方法提出 region proposal,然后用 CNN 去判断是否是 object的方法,提出了faster R-CNN。Faster R-CNN 的主要贡献是使用和图像识别相同