摘要:大量實(shí)驗(yàn)結(jié)果證明了恒等映射的重要性。本文實(shí)驗(yàn)了不同形式的,發(fā)現(xiàn)使用恒等映射的網(wǎng)絡(luò)性能最好,誤差減小最快且訓(xùn)練損失最低。為了使得是恒等映射,需要調(diào)整和帶權(quán)值層的位置。恒等映射形式的快捷連接和預(yù)激活對(duì)于信號(hào)在網(wǎng)絡(luò)中的順暢傳播至關(guān)重要。
ResNet-v2
Identity Mappings in Deep Residual Networks
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Caffe實(shí)現(xiàn):https://github.com/binLearnin...
摘要近期已經(jīng)涌現(xiàn)出很多以深度殘差網(wǎng)絡(luò)(deep residual network)為基礎(chǔ)的極深層的網(wǎng)絡(luò)架構(gòu),在準(zhǔn)確率和收斂性等方面的表現(xiàn)都非常引人注目。本文主要分析殘差網(wǎng)絡(luò)基本構(gòu)件(block)中的信號(hào)傳播,我們發(fā)現(xiàn)當(dāng)使用恒等映射(identity mapping)作為快捷連接(skip connection)并且將激活函數(shù)移至加法操作后面時(shí),前向-反向信號(hào)都可以在兩個(gè)block之間直接傳播而不受到任何變換操作的影響。大量實(shí)驗(yàn)結(jié)果證明了恒等映射的重要性。本文根據(jù)這個(gè)發(fā)現(xiàn)重新設(shè)計(jì)了一種殘差網(wǎng)絡(luò)基本單元(unit),使得網(wǎng)絡(luò)更易于訓(xùn)練并且泛化性能也得到提升。官方實(shí)現(xiàn)(Torch)的源碼地址:https://github.com/KaimingHe/... 。
1. Introduction深度殘差網(wǎng)絡(luò)(ResNet)由“殘差單元(Residual Units)”堆疊而成,每個(gè)單元可以表示為:
其中F是殘差函數(shù),在ResNet中,h(xl)=xl是恒等映射,f是ReLU激活函數(shù)。
在ImageNet數(shù)據(jù)集和COCO數(shù)據(jù)集上,超過(guò)1000層的殘差網(wǎng)絡(luò)都取得了最優(yōu)的準(zhǔn)確率。殘差網(wǎng)絡(luò)的核心思想是在h(xl)的基礎(chǔ)上學(xué)習(xí)附加的殘差函數(shù)F,其中很重要的選擇就是使用恒等映射h(xl)=xl,這可以通過(guò)在網(wǎng)絡(luò)中添加恒等快捷連接(skip connection / shortcut)來(lái)實(shí)現(xiàn)。
本文中主要著眼于分析在深度殘差網(wǎng)絡(luò)中構(gòu)建一個(gè)信息“直接”傳播的路徑——不只是在殘差單元直接,而是在整個(gè)網(wǎng)絡(luò)中信息可以“直接”傳播。如果h(xl)和f(yl)都是恒等映射,那么信號(hào)可以在單元間直接進(jìn)行前向-反向傳播。實(shí)驗(yàn)證明基本滿足上述條件的網(wǎng)絡(luò)架構(gòu)一般更容易訓(xùn)練。本文實(shí)驗(yàn)了不同形式的h(xl),發(fā)現(xiàn)使用恒等映射的網(wǎng)絡(luò)性能最好,誤差減小最快且訓(xùn)練損失最低。這些實(shí)驗(yàn)說(shuō)明“干凈”的信息通道有助于優(yōu)化。各種不同形式的h(xl)見(jiàn)圖1,2,4中的灰色箭頭所示。
為了構(gòu)建f(yl)=yl成為恒等映射,我們將激活函數(shù)(ReLU和BN)移到權(quán)值層之前,形成一種“預(yù)激活(pre-activation)”的方式,而不是常規(guī)的“后激活(post-activation)”方式,這樣就設(shè)計(jì)出了一種新的殘差單元(見(jiàn)圖1(b))。基于這種新的單元我們?cè)贑IFAR-10/100數(shù)據(jù)集上使用1001層殘差網(wǎng)絡(luò)進(jìn)行訓(xùn)練,發(fā)現(xiàn)新的殘差網(wǎng)絡(luò)比之前的更容易訓(xùn)練并且泛化性能更好。另外還考察了200層新殘差網(wǎng)絡(luò)在ImageNet上的表現(xiàn),原先的殘差網(wǎng)絡(luò)在這個(gè)層數(shù)之后開(kāi)始出現(xiàn)過(guò)擬合的現(xiàn)象。
2. Analysis of Deep Residual Networks原先的殘差網(wǎng)絡(luò)中的殘差單元可以表示為:
如果h、f都是恒等映射,那么公式(1)(2)可以合并為:
那么任意深層的單元L與淺層單元l之間的關(guān)系為:
公式(4)有兩個(gè)特性:(i)深層單元的特征可以由淺層單元的特征和殘差函數(shù)相加得到;(ii)任意深層單元的特征都可以由起始特征x0與先前所有殘差函數(shù)相加得到,這與普通(plain)網(wǎng)絡(luò)不同,普通網(wǎng)絡(luò)的深層特征是由一系列的矩陣向量相乘得到。殘差網(wǎng)絡(luò)是連加,普通網(wǎng)絡(luò)是連乘。
反向傳播時(shí)的計(jì)算公式如下:
從公式(5)中可以看出,反向傳播也是兩條路徑,其中之一直接將信息回傳,另一條會(huì)經(jīng)過(guò)所有的帶權(quán)重層。另外可以注意到第二項(xiàng)的值在一個(gè)mini-batch中不可能一直是1,也就是說(shuō)回傳的梯度不會(huì)消失,不論網(wǎng)絡(luò)中的權(quán)值的值再小都不會(huì)發(fā)生梯度消失現(xiàn)象。
3. On the Importance of Identity Skip Connections首先考察恒等映射的重要性。假設(shè)將恒等映射簡(jiǎn)單的改為h(xl)=λxl,即:
如公式(3)到(4)一樣遞歸調(diào)用公式(6),得到:
那么這種情況下的反向傳播計(jì)算公式為:
假設(shè)模型是一個(gè)極深層的網(wǎng)絡(luò),考察第一個(gè)連乘的項(xiàng),如果所有的λ都大于1,那么這一項(xiàng)會(huì)指數(shù)級(jí)增大;如果所有λ都小于1,那么這一項(xiàng)會(huì)很小甚至消失,會(huì)阻礙信號(hào)直接傳播,而強(qiáng)制信號(hào)通過(guò)帶權(quán)值的層進(jìn)行傳播。實(shí)驗(yàn)表明這種方式會(huì)導(dǎo)致模型很難優(yōu)化。不同形式的變換映射都會(huì)妨礙信號(hào)的傳播,進(jìn)而影響訓(xùn)練進(jìn)程。
3.1 Experiments on Skip Connections考察使用不同形式映射(見(jiàn)圖2)的網(wǎng)絡(luò)的性能,具體結(jié)果見(jiàn)表1,在訓(xùn)練過(guò)程中的誤差變化見(jiàn)圖3。
在使用exclusive gating時(shí),偏置bg的初始值對(duì)于網(wǎng)絡(luò)性能的影響很大。
3.2 Discussions快捷連接中的乘法操作(scaling, gating, 1×1 convolutions, and dropout)會(huì)妨礙信號(hào)傳播,導(dǎo)致優(yōu)化出現(xiàn)問(wèn)題。
值得注意的是gating和1×1 convolutions快捷連接引進(jìn)了更多的參數(shù),增強(qiáng)了模型的表示能力,但是它們的訓(xùn)練誤差反而比恒等映射更大,這說(shuō)明是退化現(xiàn)象導(dǎo)致了這些模型的優(yōu)化問(wèn)題。
第3章討論了公式(1)中的h是恒等映射的重要性,現(xiàn)在討論公式(2)中的f,如果f也是恒等映射的話網(wǎng)絡(luò)性能會(huì)不會(huì)也有提升。為了使得f是恒等映射,需要調(diào)整ReLU、BN和帶權(quán)值層的位置。
4.1 Experiments on Activation下面考察多種組織方式(見(jiàn)圖4),使用不同激活方式的網(wǎng)絡(luò)的性能表現(xiàn)見(jiàn)表2。
BN after addition
效果比基準(zhǔn)差,BN層移到相加操作后面會(huì)阻礙信號(hào)傳播,一個(gè)明顯的現(xiàn)象就是訓(xùn)練初期誤差下降緩慢。
ReLU before addition
這樣組合的話殘差函數(shù)分支的輸出就一直保持非負(fù),這會(huì)影響到模型的表示能力,而實(shí)驗(yàn)結(jié)果也表明這種組合比基準(zhǔn)差。
Post-activation or pre-activation?
原來(lái)的設(shè)計(jì)中相加操作后面還有一個(gè)ReLU激活函數(shù),這個(gè)激活函數(shù)會(huì)影響到殘差單元的兩個(gè)分支,現(xiàn)在將它移到殘差函數(shù)分支上,快捷連接分支不再受到影響。具體操作如圖5所示。
根據(jù)激活函數(shù)與相加操作的位置關(guān)系,我們稱(chēng)之前的組合方式為“后激活(post-activation)”,現(xiàn)在新的組合方式稱(chēng)之為“預(yù)激活(pre-activation)”。原來(lái)的設(shè)計(jì)與預(yù)激活殘差單元之間的性能對(duì)比見(jiàn)表3。預(yù)激活方式又可以分為兩種:只將ReLU放在前面,或者將ReLU和BN都放到前面,根據(jù)表2中的結(jié)果可以看出full pre-activation的效果要更好。
使用預(yù)激活有兩個(gè)方面的優(yōu)點(diǎn):1)f變?yōu)楹愕扔成洌沟镁W(wǎng)絡(luò)更易于優(yōu)化;2)使用BN作為預(yù)激活可以加強(qiáng)對(duì)模型的正則化。
Ease of optimization
這在訓(xùn)練1001層殘差網(wǎng)絡(luò)時(shí)尤為明顯,具體見(jiàn)圖1。使用原來(lái)設(shè)計(jì)的網(wǎng)絡(luò)在起始階段誤差下降很慢,因?yàn)閒是ReLU激活函數(shù),當(dāng)信號(hào)為負(fù)時(shí)會(huì)被截?cái)啵鼓P蜔o(wú)法很好地逼近期望函數(shù);而使用預(yù)激活的網(wǎng)絡(luò)中的f是恒等映射,信號(hào)可以在不同單元直接直接傳播。我們使用的1001層網(wǎng)絡(luò)優(yōu)化速度很快,并且得到了最低的誤差。
f為ReLU對(duì)淺層殘差網(wǎng)絡(luò)的影響并不大,如圖6-right所示。我們認(rèn)為是當(dāng)網(wǎng)絡(luò)經(jīng)過(guò)一段時(shí)間的訓(xùn)練之后權(quán)值經(jīng)過(guò)適當(dāng)?shù)恼{(diào)整,使得單元輸出基本都是非負(fù),此時(shí)f不再對(duì)信號(hào)進(jìn)行截?cái)唷5墙財(cái)喱F(xiàn)象在超過(guò)1000層的網(wǎng)絡(luò)中經(jīng)常發(fā)生。
Reducing overfitting
觀察圖6-right,使用了預(yù)激活的網(wǎng)絡(luò)的訓(xùn)練誤差稍高,但卻得到更低的測(cè)試誤差,我們推測(cè)這是BN層的正則化效果所致。原來(lái)的設(shè)計(jì)中雖然也用到了BN,但歸一化后的信號(hào)很快與快捷連接通道中的相加了,而相加后的信號(hào)是沒(méi)有歸一化的。本文新設(shè)計(jì)的預(yù)激活的單元中的所有權(quán)值層的輸入都是歸一化的信號(hào)。
表4、表5分別展示了不同網(wǎng)絡(luò)在不同數(shù)據(jù)集上的表現(xiàn)。使用的預(yù)激活單元的更深層的殘差網(wǎng)絡(luò)都取得了最好的成績(jī)。
Computational Cost
本文提出的模型的計(jì)算復(fù)雜度正比于網(wǎng)絡(luò)深度,在ImageNet數(shù)據(jù)集上,200層的殘差網(wǎng)絡(luò)使用8塊GPU耗時(shí)約3周完成訓(xùn)練。
恒等映射形式的快捷連接和預(yù)激活對(duì)于信號(hào)在網(wǎng)絡(luò)中的順暢傳播至關(guān)重要。
另附件介紹了各種網(wǎng)絡(luò)的實(shí)現(xiàn)細(xì)節(jié)。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/19630.html
摘要:顯示了殘差連接可以加速深層網(wǎng)絡(luò)的收斂速度,考察了殘差網(wǎng)絡(luò)中激活函數(shù)的位置順序,顯示了恒等映射在殘差網(wǎng)絡(luò)中的重要性,并且利用新的架構(gòu)可以訓(xùn)練極深層的網(wǎng)絡(luò)。包含恒等映射的殘差有助于訓(xùn)練極深層網(wǎng)絡(luò),但同時(shí)也是殘差網(wǎng)絡(luò)的一個(gè)缺點(diǎn)。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實(shí)現(xiàn):https://github...
摘要:本文提出的網(wǎng)絡(luò)名為,意為維度基數(shù)。在空間通道維度分解網(wǎng)絡(luò),減少冗余,可以對(duì)網(wǎng)絡(luò)進(jìn)行加速或精簡(jiǎn)。復(fù)雜度不變的情況下,隨著基數(shù)的增大錯(cuò)誤率持續(xù)減小。考察增加深度寬度基數(shù)對(duì)網(wǎng)絡(luò)性能的提升。 ResNeXt Aggregated Residual Transformations for Deep Neural NetworksSaining Xie, Ross Girshick, Piotr ...
摘要:將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸,展示了中的很多層對(duì)最終的結(jié)果影響極小,可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。得益于密集連接的方式,可以同時(shí)具有恒等映射深度監(jiān)督和深度多樣性的特性。 DenseNet Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens ...
摘要:和是兩個(gè)非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見(jiàn)表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:前面層中的以類(lèi)別無(wú)關(guān)的方式增強(qiáng)可共享的低層表示的質(zhì)量。通過(guò)調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能。基本都是常規(guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(loc...
閱讀 569·2023-04-26 02:58
閱讀 2309·2021-09-27 14:01
閱讀 3616·2021-09-22 15:57
閱讀 1175·2019-08-30 15:56
閱讀 1049·2019-08-30 15:53
閱讀 796·2019-08-30 15:52
閱讀 651·2019-08-26 14:01
閱讀 2167·2019-08-26 13:41