国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[ResNet系] 001 ResNet

greatwhole / 748人閱讀

摘要:在本文中,快捷連接是為了實現恒等映射,它的輸出與一組堆疊層的輸出相加見圖。實驗表明見圖,學習得到的殘差函數通常都是很小的響應值,表明將恒等映射作為先決條件是合理的。

ResNet

Deep Residual Learning for Image Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Caffe實現:https://github.com/binLearnin...

摘要

越深層的網絡往往越難以訓練。本文提出一種殘差學習框架,使得比先前網絡深的多的網絡也易于訓練。我們將網絡中的層改寫為在參照該層輸入的情況下學習殘差函數的形式,替換之前那種無參考學習的方式。我們通過大量實驗證明這種殘差網絡易于優化,并且預測準確率隨著網絡深度的增加而增大。在ImageNet數據集上使用了一個152層的殘差網絡,深度是VGG網絡的8倍但復雜度卻更低。使用這種殘差網絡的集合在ImageNet測試集上達到3.57%的top-5錯誤率,這個結果贏得了ILSVRC2015年分類任務的第一名。另外我們在CIFAR-10數據集上對100層和1000層的殘差網絡進行了分析。
模型表示的深度在許多視覺識別任務中是最重要的影響因素。完全得益于極深層的表示,我們在COCO物體檢測數據集上得到了28%的性能提升。深度殘差網絡是我們在參加ILSVRC2015和COCO2015競賽時提交的解決方案的基礎,在這兩個競賽中我們還贏得了ImageNet檢測、ImageNet定位、COCO檢測以及COCO分割等任務的第一名。

1. Introduction

深度網絡可以將低/中/高層特征與分類器結合起來成為一種端到端的多層形式,其中特征的“層”可以通過增加網絡層數(深度)來豐富。最近的研究也表明網絡深度對于網絡的性能提升至關重要。
那么,是不是隨著網絡中堆疊的層數增加可以很容易的訓練得到一個性能更好的網絡呢? 一個惡名昭彰的攔路虎妨礙驗證該疑問是否正確——梯度消失/爆炸,它會妨礙網絡收斂。隨著歸一化初始化、中間歸一化層(BN)等技術的提出,梯度消失/爆炸問題得到一定程度的解決,現在可以使用隨機梯度下降(SGD)加上反向傳播的方法訓練一個數十層的網絡至收斂。
然而,另一個攔路虎來襲——退化(degradation)問題。隨著網絡深度的增加,準確率趨向于飽和,然后迅速下降。讓人出乎意料的是,這種退化現象并不是由過擬合導致,在一個表現不錯的網絡中添加更多的層反而會導致更高的訓練誤差(過擬合時訓練誤差減小,但測試誤差增大)。圖1中顯示了一個典型案例。

訓練準確率的退化表明并不是所有系統都易于優化??紤]一個淺層架構以及與其對應的更深層的模型,構造更深層模型的方案是新添加的層都是簡單的恒等映射,其他的層都是從已學習的淺層網絡中拷貝得到,那么這樣的構造方式表明更深層的網絡不應該比與之對應的淺層網絡有更高的訓練誤差。但實驗顯示我們現階段的求解器無法發現一個比上述構造方案更好或相當的方案。
為了解決退化問題,本文提出一種深度殘差學習框架。我們讓每一層學習一個殘差映射,并不是像之前一樣希望每一層都學習得到所需的潛在映射(desired underlying mapping)。這里將所需的潛在映射表示為H(x),那么殘差映射可以表示為F(x)=H(x)-x,之前的映射H(x)=F(x)+x。我們假設殘差映射比原來的無參考的映射更容易優化??紤]到一個極端情況,如果最優的方案就是恒等映射,那么將一個殘差逼近零比使用一組堆疊的非線性層來擬合恒等映射要容易的多。
公式F(x)+x可以通過在前饋神經網絡中添加“快捷連接(shortcut connections)”來實現,快捷連接就是在網絡中跳過若干層而直接相連(見圖2)。
在本文中,快捷連接是為了實現恒等映射,它的輸出與一組堆疊層的輸出相加(見圖2)。恒等快捷連接沒有增加額外的參數及計算復雜度,修改后的網絡仍然可以使用SGD及BP進行端到端的訓練,并且利用現有的深度學習軟件框架(如Caffe)可以很容易構建出來。

實驗表明:1)極深的殘差網絡依然易于優化,但是相應的“普通(plain)”網絡(只是簡單地堆疊層)隨著深度增加訓練誤差也越來越大;2)深度殘差網絡隨著深度的極大增加準確率也會提高,得到比先前網絡更好的結果。

2. Related Work

殘差表示(Residual Representations)
在做矢量量化編碼(vector quantization)時,對殘差矢量進行編碼相較于對原始矢量進行編碼要更高效。
用于求解偏微分方程(Partial Differential Equations, PDEs)的多重網格(Multigrid)法的思想表明,恰當的重定義或預處理可以簡化優化過程。
快捷連接(Shortcut Connections)
快捷連接在很多網絡結構中得到應用,或為了解決梯度消失/爆炸問題,或為了增強網絡表示能力。
與本文思想一致的是Highway Networks,其中提出的快捷連接由門限函數控制。門限函數包含參數且依賴于數據,因此Highway Networks中的門限會有“關閉”的情況,此時網絡的表現如同無殘差函數即普通的網絡結構。而本文方法使用的恒等連接沒有參數,永遠不會關閉,所有信息始終暢通無阻的進行傳播,網絡只是學習殘差函數。另外,沒有實驗證明Highway Networks可以隨著網絡深度的極大增加相應的提高準確率。

3. Deep Residual Learning 3.1. Residual Learning

用H(x)表示若干堆疊層所擬合的潛在映射,x表示這些層中第一層的輸入。如果多個非線性層可以漸進擬合任意復雜函數的假設成立,那么它們可以漸進擬合殘差函數(如H(x)-x)的假設也成立。所以與其期望堆疊層擬合H(x),我們直接讓這些層擬合殘差函數F(x)=H(x)-x,雖然這兩種形式都可以擬合真正所需的函數,但訓練學習的難易程度是不同的。
這樣重定義的動機就是退化問題,如果新添加的層只是恒等映射,那么更深層的網絡不應該比相應的淺層網絡具有更高的訓練誤差,但是退化問題表明當前的求解器難以將多層非線性層近似成恒等映射。而使用殘差學習的重定義形式,如果恒等映射是最優解,那么求解器可以很容易的將非線性層的參數全都逼近零來近似恒等映射。
在實際情況下恒等映射不見得就是最優解,但是這樣的重定義可能給問題提供了一個合理的先決條件。如果最優函數近似于恒等映射而不是乘零映射,那么求解器在參考恒等映射的前提下可以很容易的發現這些小的擾動,比重新學習一個新的函數要簡單的多。實驗表明(見圖7),學習得到的殘差函數通常都是很小的響應值,表明將恒等映射作為先決條件是合理的。

3.2. Identity Mapping by Shortcuts

本文將殘差學習應用于若干堆疊層的組合,基本的構造單元(building block)如圖2所示,將構造單元定義為:
y = F(x,{Wi}) + x --- (1)
F(x,{Wi})表示學習得到的殘差映射。F+x由快捷連接和元素級加法實現,而快捷連接不會增加參數量及計算復雜度。 x與F的維度必須相同,在改變輸入輸出的通道數時也要相應改變x的維度。殘差函數F可以是任意形式,本文使用兩個或三個網絡層來表示F(見圖5),當然也可以使用更多的層,但是單個層的效果相當于線性層y=W1x+x,沒有發現什么優勢。

3.3. Network Architectures

Plain Networks
主要借鑒于VGG網絡,卷積核最大3x3并遵循下面兩個設計原則:(i)如果輸出特征圖的尺寸相同,那么特征圖的數量也相同;(ii)如果特征圖尺寸減半,那么卷積核數量加倍,保證每層的計算復雜度相同。降采樣由步長為2的卷積層實現,網絡最后是全局平均池化層和1000路全連接層及softmax層。帶權重的層總共有34個(見圖3-middle)。注意,這個模型比VGG網絡的復雜度要低,共36億FLOPs,只有VGG-19的18%。
Residual Network
在上面Plain Networks的基礎上插入快捷連接就成為深度殘差網絡(見圖3-right)。當block的維度發生變化時有兩個解決辦法:(A)捷徑仍然是恒等映射,在新增的維度填充零,這個方法不會增加額外的參數;(B)使用變換映射來匹配新的維度(一般是用1x1卷積層實現)。

3.4. Implementation

在ImageNet數據集上訓練,圖像在[256,480]范圍內隨機縮放,在縮放后的圖像中隨機剪切224x224的區域并水平翻轉,然后做像素級的均值減除,另外也使用顏色增廣方法。在每個卷積層激活函數之前應用batch normalization,使用msra初始化方法。使用SGD,batch size為256,初始學習率為0.1,當訓練誤差停止下降時除10。權值衰減系數0.0001,動量0.9,沒有使用dropout。
測試時使用10個剪切塊,并在不同分辨率上{224,256,384,480,640}分別預測,最后取平均值作為最終的結果。

4. Experiments 4.1. ImageNet Classification

使用不同網絡進行實驗,具體配置如表1,結果見表2。

Plain Networks

從表2中可以看出,更深層的普通網絡比淺層網絡有更高的驗證誤差。通過比較它們在訓練過程中的訓練/驗證誤差(見圖4),以發現退化問題——34層的普通網絡在整個訓練過程中都有更高的訓練誤差,雖然18層網絡的解空間是34層網絡解空間的子空間。
這種優化問題不太可能由梯度消失導致,BN的使用保證了信號在前向/反向傳播時都不會消失。我們推測深層的普通網絡可能是指數級低的收斂速率,因此影響到了訓練誤差的減?。ㄈ欢鴮嶒炑娱L訓練時間并沒有發現該問題改進的跡象)。

Residual Networks
殘差網絡的結果卻恰恰相反。34層的殘差網絡表現要比18層的更好,這表明殘差網絡可以解決退化問題,
并且可以隨著深度的增加而提高準確率。34層殘差網絡的表現比34層普通網絡要好,這證明了殘差學習在深度模型中的有效性。另外18層的殘差網絡和18層的普通網絡性能相當,但是收斂速度更快(見圖4),這說明在網絡“并不太深”時,當前的求解器可以很好的解決,在這種情況下殘差網絡通過在早期加速收斂速度使得優化更容易。
Identity vs. Projection Shortcuts
3.3中介紹在維度發生變化時的處理方法(A)(B),再加一種(C)所有快捷連接都經過變換,表3展示了不同方法的性能。
從表3中可以看出三種方法都比相應的普通網絡的表現要好,B比A要好一些,主要因為A的零值填充并沒有殘差學習,C比B稍好,但會引入更多的參數,綜合來看ABC的差別并不大,這說明變換快捷連接對解決退化問題不是必需的,為了減少內存/時間復雜度以及模型大小,本文采用B方案。

Deeper Bottleneck Architectures
將基本構造單元修改為bottleneck形式,具體見圖5。第一個1x1卷積層為了降維,第二個1x1層為了恢復原來的維度,這樣使得中間的3x3卷積層有更小的輸入/輸出維度。這兩種設計具有相似的時間復雜度。
無參數的恒等映射在bottleneck架構中特別重要,如果將恒等映射改為變換映射,那么時間復雜度和模型大小都將翻倍,因為快捷連接的兩端都有很高維度。

50-layer ResNet
用三層的bottleneck替換原來的兩層形式,網絡中帶參數的層共有50個,具體如表1,維度增加時使用B方案,該模型共有38億FLOPs。
101-layer and 152-layer ResNets
更深層的網絡,具體配置見表1。雖然深度急劇增加,但152層ResNet(113億FLOPs)仍然比VGG-16/19(153/196億FLOPs)的復雜度更低。
從表3,表4中可以看出50/101/152層ResNet比34層的準確率更高。并沒有發現退化現象,并且隨著深度增加準確率也相應提升。

Comparisons with State-of-the-art Methods
從表4中可以看出,ResNet比先前的網絡性能更好。單個152層ResNet的top-5錯誤率4.49%低于所有網絡,而結合了6個網絡(其中2個152層)可以達到3.57%的top-5錯誤率,以此贏得ILSVRC2015年的第一名(見表5)。

4.2. CIFAR-10 and Analysis

使用CIFAR-10測試了不同的網絡,考察其性能,具體表現如表6所示。

各網絡在訓練過程中的訓練/測試誤差如圖6所示,總體而言符合預期。普通網絡隨著深度的增加誤差反而增大,出現退化現象;而殘差網絡隨著深度增加誤差也相應減小,說明殘差網絡很好的解決了退化問題,但有一點需要注意,就是極深層的情況——1202層網絡。
Exploring Over 1000 layers
1202層的殘差網絡雖然也收斂并且誤差也比較小,但是它的性能卻比110層的網絡要差。我們認為導致該現象的原因是過擬合,CIFAR-10數據集比較小,不需要用1202層這么復雜的網絡,另外在這個實驗中我們也沒有使用maxout或dropout等比較強的正則化方法,一般來說使用這些正則化方法在小規模數據集上會取得更好的結果,所以如果本文的網絡添加了這些正則化的方法應該能獲得更好的結果。

Analysis of Layer Responses
3.1節就提到了網絡層的響應值的問題,現在分別對不同網絡的響應值進行考察,從圖7中可以看出,殘差網絡中的層的響應值通常要比普通網絡中的小,這個結果說明殘差函數比非殘差函數更接近于零。另外越深層的網絡中的層的響應值越小,具有越多層的殘差網絡在每一層中對信號的修改就越少。

4.3 Object Detection on PASCAL and MS COCO

本文提出的殘差網絡在其他的視覺任務中也有很好的泛化性能。表7、表8分別展示了不同網絡在PASCAL VOC和COCO數據集上進行物體檢測的表現。檢測算法使用Faster R-CNN架構,具體的細節見附件。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19631.html

相關文章

  • [ResNet] 006 DPN

    摘要:和是兩個非常重要的網絡,它們顯示了深層卷積神經網絡的能力,并且指出使用極小的卷積核可以提高神經網絡的學習能力。也有工作考察與的關系,與其相似,本文考察了與的關系。與的網絡架構配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

    plus2047 評論0 收藏0
  • [ResNet] 003 ResNeXt

    摘要:本文提出的網絡名為,意為維度基數。在空間通道維度分解網絡,減少冗余,可以對網絡進行加速或精簡。復雜度不變的情況下,隨著基數的增大錯誤率持續減小??疾煸黾由疃葘挾然鶖祵W絡性能的提升。 ResNeXt Aggregated Residual Transformations for Deep Neural NetworksSaining Xie, Ross Girshick, Piotr ...

    kidsamong 評論0 收藏0
  • [ResNet] 005 DenseNet

    摘要:將這些需要保留的信息直接通過恒等映射進行傳輸,展示了中的很多層對最終的結果影響極小,可以在訓練時隨機丟棄部分層。得益于密集連接的方式,可以同時具有恒等映射深度監督和深度多樣性的特性。 DenseNet Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens ...

    CODING 評論0 收藏0
  • [ResNet] 004 WRN

    摘要:顯示了殘差連接可以加速深層網絡的收斂速度,考察了殘差網絡中激活函數的位置順序,顯示了恒等映射在殘差網絡中的重要性,并且利用新的架構可以訓練極深層的網絡。包含恒等映射的殘差有助于訓練極深層網絡,但同時也是殘差網絡的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現:https://github...

    hankkin 評論0 收藏0
  • [ResNet] 002 ResNet-v2

    摘要:大量實驗結果證明了恒等映射的重要性。本文實驗了不同形式的,發現使用恒等映射的網絡性能最好,誤差減小最快且訓練損失最低。為了使得是恒等映射,需要調整和帶權值層的位置。恒等映射形式的快捷連接和預激活對于信號在網絡中的順暢傳播至關重要。 ResNet-v2 Identity Mappings in Deep Residual NetworksKaiming He, Xiangyu Zhang...

    JohnLui 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<