摘要:在當前的背景下,卷積神經網絡提出之后,深度成為人們要追求的目標。同時,殘差網絡也很好的解決了梯度下降中的梯度彌散的問題。經典網絡目前最主經典的殘差網絡莫過于。
注:整理自各個博客,并且添加個人理解
隨著卷積神經網絡的發展和普及,網絡深度和架構研究早已經成為人們常見的問題,所以,現在卷積神經網絡的趨勢發展趨勢就是:足夠深、足夠廣。足夠深就是網絡層數足夠深,足夠廣就意味著不能從傳統尺度來解決問題,而應該是多尺度,也就是multi-scale。
但是隨著網絡的深入,一些經典的問題也就隨之出現,例如梯度彌散和梯度爆炸。這兩種問題都是由于神經網絡的特殊結構和特殊求參數方法造成的,也就是鏈式求導的間接產物。
梯度彌散:當使用反向傳播方法計算導數的時候,隨著網絡的深度的增加,反向傳播的梯度(從輸出層到網絡的最初幾層)的幅度值會急劇地減小。結果就造成了整體的損失函數相對于最初幾層的權重的導數非常小。這樣,當使用梯度下降法的時候,最初幾層的權重變化非常緩慢,以至于它們不能夠從樣本中進行有效的學習。這種問題通常被稱為“梯度的彌散”。
梯度爆炸:差梯度在網絡訓練時被用來得到網絡參數更新的方向和幅度,進而在正確的方向上以合適的幅度更新網絡參數。在深層網絡或遞歸神經網絡中,誤差梯度在更新中累積得到一個非常大的梯度,這樣的梯度會大幅度更新網絡參數,進而導致網絡不穩定。在極端情況下,權重的值變得特別大,以至于結果會溢出(NaN值,無窮與非數值)。當梯度爆炸發生時,網絡層之間反復乘以大于1.0的梯度值使得梯度值成倍增長。
這兩個不良影響也常常困擾著卷積神經網絡的設計者和使用者,也成為人們不得不思考的問題。但是所幸的是,一些網絡的出現很好的解決了這些問題。最近學習的Resnet就有效的解決了這個問題。
Resnet在2015年提出之后,立馬獲得了當年的Image圖像比賽第一名,并且準確率奇高。
最初Resnet的提出目的并不是為了解決梯度彌散,有效的消除梯度彌散可以說是無心之舉。在當前的背景下,卷積神經網絡提出之后,深度成為人們要追求的目標。但是隨著層數增加,就出現了學習退化的問題。
本來隨著網絡深度增加準確率越來越好的網絡出現了詭異的變化,隨著后續的發現,發現問題主要來自于兩個,第一個是恒等函數的問題,第二個就是來自于梯度爆炸和梯度彌散的問題。
深層網絡應該優于淺層網絡,可以說是所有人都認同的的事實,但是隨著網絡的加深,一些層通常是沒有必要出現的,如果訓練好參數隨著后面的網絡擾動,會被類似于白噪音的問題使參數重新偏移變差。因此,人們想到了恒等函數,也就是說,直接在后面幾層使得F(x)=x,來進行等效傳遞。但是問題是,等效傳遞并不容易,更不用說Sigmoid函數等特殊函數曲線的存在。因此,利用殘差塊,可以完美的解決這個問題。
對于輸出函數變為了H(x),并且H(x)=F(x)+x。此時,為了使得進行恒等變換,只用使F(x)足夠小就可以了,此時,輸出也就近似變成了H(x)=x。也就是說,假如優化目標函數是逼近一個恒等映射, 而不是0映射,那么學習找到對恒等映射的擾動會比重新學習一個映射函數要容易。
同時,殘差網絡也很好的解決了梯度下降中的梯度彌散的問題。當我們進行鏈式求導,來求得某個參數的偏導數的時候,在深層網絡總會遇到偏導結果較小,從而導致參數更新過小的情況。
例如:
當網絡足夠深的時候,會出一下Loss函數:
從而使得偏導結果:
非常小,相當于原地踏步。因此,當進行殘差塊的增添之后,偏導結果如下所示:
此時,就不用再擔心梯度下降的相關問題。并且與此同時,函數的擬合F(x)=0會比F(x)=x更加容易,后者對參數的變化會更加敏感。總的來說,殘差學習再淺層的時候,學習是線性疊加,到深層后,F(x)會趨于零,從而使得殘差塊編程恒等映射,從而避免層數增加影響學習結果的情況。
經典Resnet網絡
目前最主經典的殘差網絡莫過于Resnet v2。由于ResNet的結構有別于傳統的卷積結構,使得信號的前向傳播和梯度的反向傳播變得更復雜。為了穩定訓練時信號的前向傳播和梯度的反向傳播,從ResNet開始,網絡普遍使用Batch Normalization,因此,Resnet v2也采用了BN算法。
BN算法:我們在訓練深度學習模型的時候,經常會采用隨機梯度下降的方式,每次隨機選取訓練數據中的一個小部分進行求訓練模型,經過多步迭代后會逐漸手鏈,模型的loss會逐漸趨于穩定,但由于只是一部分數據進行訓練,還是會有一定起伏,一般訓練誤差如下圖所示。
隨著神經網絡的深度增加,也會出現梯度擴散和梯度爆炸的問題。
這里簡單解釋一下梯度擴散和梯度爆炸,隨著神經網絡深度增加,每層計算誤差都會逐步縮小,這個主要跟我們選的激活函數有關,鏈式法則相乘之后,輸出層的很大的誤差,對前幾層帶來的影響會變得非常小,此時前幾層的梯度修正會非常小,梯度會趨于零,使得訓練無效,這就是梯度消失gradient vanish,相反的則是梯度爆炸gradient explode。
改變激活函數,比如說ReLu可以較好地避免梯度的問題,而這兩篇作者提出的batch normalization也可以解決這個問題。
BN的主要思想就是對每層輸入數據做標準化,使其以較小的方差集中在均值附近,具體方法如下圖:
在正向傳播的時候對輸入數據進行標準化,求隨機梯度下降的一個batch進行正規化可以大大減小計算量,同時作者為了避免數據整體影響,在最后還進行了一個規模和位置的線性轉換,用以盡量保留原數據的方差與均值信息。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19718.html
摘要:一個簡單的解釋是,在論文和論文中,恒等映射的輸出被添加到下一個模塊,如果兩個層的特征映射有著非常不同的分布,那么這可能會阻礙信息流。 在 AlexNet [1] 取得 LSVRC 2012 分類競賽冠軍之后,深度殘差網絡(Residual Network, 下文簡寫為 ResNet)[2] 可以說是過去幾年中計算機視覺和深度學習領域最具開創性的工作。ResNet 使訓練數百甚至數千層成為可能...
摘要:和是兩個非常重要的網絡,它們顯示了深層卷積神經網絡的能力,并且指出使用極小的卷積核可以提高神經網絡的學習能力。也有工作考察與的關系,與其相似,本文考察了與的關系。與的網絡架構配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:大神何愷明受到了質疑。今天,上一位用戶對何愷明的提出質疑,他認為何愷明年的原始殘差網絡的結果沒有被復現,甚至何愷明本人也沒有。我認為,的可復現性經受住了時間的考驗。 大神何愷明受到了質疑。今天,Reddit 上一位用戶對何愷明的ResNet提出質疑,他認為:何愷明 2015 年的原始殘差網絡的結果沒有被復現,甚至何愷明本人也沒有。網友稱,他沒有發現任何一篇論文復現了原始 ResNet 網絡的...
摘要:顯示了殘差連接可以加速深層網絡的收斂速度,考察了殘差網絡中激活函數的位置順序,顯示了恒等映射在殘差網絡中的重要性,并且利用新的架構可以訓練極深層的網絡。包含恒等映射的殘差有助于訓練極深層網絡,但同時也是殘差網絡的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現:https://github...
閱讀 1142·2019-08-30 12:44
閱讀 650·2019-08-29 13:03
閱讀 2558·2019-08-28 18:15
閱讀 2426·2019-08-26 10:41
閱讀 3088·2019-08-26 10:28
閱讀 3037·2019-08-23 16:54
閱讀 1990·2019-08-23 15:16
閱讀 813·2019-08-23 14:55