關于Resnet殘差網絡的一些理解

antyiwei 發布于2019-06-26 18:22 / 2165人閱讀

摘要：在當前的背景下，卷積神經網絡提出之后，深度成為人們要追求的目標。同時，殘差網絡也很好的解決了梯度下降中的梯度彌散的問題。經典網絡目前最主經典的殘差網絡莫過于。

注：整理自各個博客，并且添加個人理解
隨著卷積神經網絡的發展和普及，網絡深度和架構研究早已經成為人們常見的問題，所以，現在卷積神經網絡的趨勢發展趨勢就是：足夠深、足夠廣。足夠深就是網絡層數足夠深，足夠廣就意味著不能從傳統尺度來解決問題，而應該是多尺度，也就是multi-scale。
但是隨著網絡的深入，一些經典的問題也就隨之出現，例如梯度彌散和梯度爆炸。這兩種問題都是由于神經網絡的特殊結構和特殊求參數方法造成的，也就是鏈式求導的間接產物。

梯度彌散：當使用反向傳播方法計算導數的時候，隨著網絡的深度的增加，反向傳播的梯度（從輸出層到網絡的最初幾層）的幅度值會急劇地減小。結果就造成了整體的損失函數相對于最初幾層的權重的導數非常小。這樣，當使用梯度下降法的時候，最初幾層的權重變化非常緩慢，以至于它們不能夠從樣本中進行有效的學習。這種問題通常被稱為“梯度的彌散”。
梯度爆炸：差梯度在網絡訓練時被用來得到網絡參數更新的方向和幅度，進而在正確的方向上以合適的幅度更新網絡參數。在深層網絡或遞歸神經網絡中，誤差梯度在更新中累積得到一個非常大的梯度，這樣的梯度會大幅度更新網絡參數，進而導致網絡不穩定。在極端情況下，權重的值變得特別大，以至于結果會溢出（NaN值，無窮與非數值）。當梯度爆炸發生時，網絡層之間反復乘以大于1.0的梯度值使得梯度值成倍增長。

這兩個不良影響也常常困擾著卷積神經網絡的設計者和使用者，也成為人們不得不思考的問題。但是所幸的是，一些網絡的出現很好的解決了這些問題。最近學習的Resnet就有效的解決了這個問題。
Resnet在2015年提出之后，立馬獲得了當年的Image圖像比賽第一名，并且準確率奇高。

最初Resnet的提出目的并不是為了解決梯度彌散，有效的消除梯度彌散可以說是無心之舉。在當前的背景下，卷積神經網絡提出之后，深度成為人們要追求的目標。但是隨著層數增加，就出現了學習退化的問題。

本來隨著網絡深度增加準確率越來越好的網絡出現了詭異的變化，隨著后續的發現，發現問題主要來自于兩個，第一個是恒等函數的問題，第二個就是來自于梯度爆炸和梯度彌散的問題。
深層網絡應該優于淺層網絡，可以說是所有人都認同的的事實，但是隨著網絡的加深，一些層通常是沒有必要出現的，如果訓練好參數隨著后面的網絡擾動，會被類似于白噪音的問題使參數重新偏移變差。因此，人們想到了恒等函數，也就是說，直接在后面幾層使得F(x)=x，來進行等效傳遞。但是問題是，等效傳遞并不容易，更不用說Sigmoid函數等特殊函數曲線的存在。因此，利用殘差塊，可以完美的解決這個問題。

對于輸出函數變為了H(x),并且H(x)=F(x)+x。此時，為了使得進行恒等變換，只用使F(x)足夠小就可以了，此時，輸出也就近似變成了H(x)=x。也就是說，假如優化目標函數是逼近一個恒等映射, 而不是0映射，那么學習找到對恒等映射的擾動會比重新學習一個映射函數要容易。
同時，殘差網絡也很好的解決了梯度下降中的梯度彌散的問題。當我們進行鏈式求導，來求得某個參數的偏導數的時候，在深層網絡總會遇到偏導結果較小，從而導致參數更新過小的情況。
例如:

當網絡足夠深的時候，會出一下Loss函數：

從而使得偏導結果：

非常小，相當于原地踏步。因此，當進行殘差塊的增添之后，偏導結果如下所示：

此時，就不用再擔心梯度下降的相關問題。并且與此同時，函數的擬合F(x)=0會比F(x)=x更加容易，后者對參數的變化會更加敏感。總的來說，殘差學習再淺層的時候，學習是線性疊加，到深層后，F(x)會趨于零，從而使得殘差塊編程恒等映射，從而避免層數增加影響學習結果的情況。

經典Resnet網絡

目前最主經典的殘差網絡莫過于Resnet v2。由于ResNet的結構有別于傳統的卷積結構，使得信號的前向傳播和梯度的反向傳播變得更復雜。為了穩定訓練時信號的前向傳播和梯度的反向傳播，從ResNet開始，網絡普遍使用Batch Normalization，因此，Resnet v2也采用了BN算法。
BN算法：我們在訓練深度學習模型的時候，經常會采用隨機梯度下降的方式，每次隨機選取訓練數據中的一個小部分進行求訓練模型，經過多步迭代后會逐漸手鏈，模型的loss會逐漸趨于穩定，但由于只是一部分數據進行訓練，還是會有一定起伏，一般訓練誤差如下圖所示。

隨著神經網絡的深度增加，也會出現梯度擴散和梯度爆炸的問題。

這里簡單解釋一下梯度擴散和梯度爆炸，隨著神經網絡深度增加，每層計算誤差都會逐步縮小，這個主要跟我們選的激活函數有關，鏈式法則相乘之后，輸出層的很大的誤差，對前幾層帶來的影響會變得非常小，此時前幾層的梯度修正會非常小，梯度會趨于零，使得訓練無效，這就是梯度消失gradient vanish，相反的則是梯度爆炸gradient explode。

改變激活函數，比如說ReLu可以較好地避免梯度的問題，而這兩篇作者提出的batch normalization也可以解決這個問題。

BN的主要思想就是對每層輸入數據做標準化，使其以較小的方差集中在均值附近，具體方法如下圖：

在正向傳播的時候對輸入數據進行標準化，求隨機梯度下降的一個batch進行正規化可以大大減小計算量，同時作者為了避免數據整體影響，在最后還進行了一個規模和位置的線性轉換，用以盡量保留原數據的方差與均值信息。

GPU云服務器云服務器 ResNet java的一些代碼深度學習的一些應用關于網絡安全的知識

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/19718.html

一文簡述ResNet及其多種變體

摘要：一個簡單的解釋是，在論文和論文中，恒等映射的輸出被添加到下一個模塊，如果兩個層的特征映射有著非常不同的分布，那么這可能會阻礙信息流。在 AlexNet [1] 取得 LSVRC 2012 分類競賽冠軍之后，深度殘差網絡（Residual Network, 下文簡寫為 ResNet）[2] 可以說是過去幾年中計算機視覺和深度學習領域最具開創性的工作。ResNet 使訓練數百甚至數千層成為可能...

suemi 2019-04-25 18:25 評論0 收藏0
[ResNet系] 006 DPN

摘要：和是兩個非常重要的網絡，它們顯示了深層卷積神經網絡的能力，并且指出使用極小的卷積核可以提高神經網絡的學習能力。也有工作考察與的關系，與其相似，本文考察了與的關系。與的網絡架構配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

plus2047 2019-06-26 18:17 評論0 收藏0
經典ResNet結果不能復現？何愷明回應：它經受住了時間的考驗

摘要：大神何愷明受到了質疑。今天，上一位用戶對何愷明的提出質疑，他認為何愷明年的原始殘差網絡的結果沒有被復現，甚至何愷明本人也沒有。我認為，的可復現性經受住了時間的考驗。大神何愷明受到了質疑。今天，Reddit 上一位用戶對何愷明的ResNet提出質疑，他認為：何愷明 2015 年的原始殘差網絡的結果沒有被復現，甚至何愷明本人也沒有。網友稱，他沒有發現任何一篇論文復現了原始 ResNet 網絡的...

Ilikewhite 2019-04-25 18:32 評論0 收藏0
[ResNet系] 004 WRN

摘要：顯示了殘差連接可以加速深層網絡的收斂速度，考察了殘差網絡中激活函數的位置順序，顯示了恒等映射在殘差網絡中的重要性，并且利用新的架構可以訓練極深層的網絡。包含恒等映射的殘差有助于訓練極深層網絡，但同時也是殘差網絡的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現：https://github...

hankkin 2019-06-26 18:15 評論0 收藏0