深度學習最全優(yōu)化方法總結(jié)比較

wean 發(fā)布于2019-04-25 18:15 / 909人閱讀

摘要：前言標題不能再中二了本文僅對一些常見的優(yōu)化方法進行直觀介紹和簡單的比較，各種優(yōu)化方法的詳細內(nèi)容及公式只好去認真啃論文了，在此我就不贅述了。就是每一次迭代計算的梯度，然后對參數(shù)進行更新，是最常見的優(yōu)化方法了。

前言

（標題不能再中二了）本文僅對一些常見的優(yōu)化方法進行直觀介紹和簡單的比較，各種優(yōu)化方法的詳細內(nèi)容及公式只好去認真啃論文了，在此我就不贅述了。

SGD

此處的SGD指mini-batch gradient descent，關(guān)于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具體區(qū)別就不細說了。現(xiàn)在的SGD一般都指mini-batch gradient descent。

SGD就是每一次迭代計算mini-batch的梯度，然后對參數(shù)進行更新，是最常見的優(yōu)化方法了。即：

缺點：（正因為有這些缺點才讓這么多大神發(fā)展出了后續(xù)的各種算法）

選擇合適的learning rate比較困難 - 對所有的參數(shù)更新使用同樣的learning rate。對于稀疏數(shù)據(jù)或者特征，有時我們可能想更新快一些對于不經(jīng)常出現(xiàn)的特征，對于常出現(xiàn)的特征更新慢一些，這時候SGD就不太能滿足要求了

SGD容易收斂到局部最優(yōu)，并且在某些情況下可能被困在鞍點【原來寫的是“容易困于鞍點”，經(jīng)查閱論文發(fā)現(xiàn)，其實在合適的初始化和step size的情況下，鞍點的影響并沒這么大。感謝@冰橙的指正】

Momentum

momentum是模擬物理里動量的概念，積累之前的動量來替代真正的梯度。公式如下：

Nesterov

nesterov項在梯度更新時做一個校正，避免前進太快，同時提高靈敏度。將上一節(jié)中的公式展開可得：

所以，加上nesterov項后，梯度在大的跳躍后，進行計算對當前梯度進行校正。如下圖：

momentum首先計算一個梯度(短的藍色向量)，然后在加速更新梯度的方向進行一個大的跳躍(長的藍色向量)，nesterov項首先在之前加速的梯度方向進行一個大的跳躍(棕色向量)，計算梯度然后進行校正(綠色梯向量)

其實，momentum項和nesterov項都是為了使梯度更新更加靈活，對不同情況有針對性。但是，人工設(shè)置一些學習率總還是有些生硬，接下來介紹幾種自適應學習率的方法

Adagrad

Adagrad其實是對學習率進行了一個約束。即：

在此處Adadelta其實還是依賴于全局學習率的，但是作者做了一定處理，經(jīng)過近似牛頓迭代法之后：

此時，可以看出Adadelta已經(jīng)不用依賴于全局學習率了。

特點：

訓練初中期，加速效果不錯，很快

訓練后期，反復在局部最小值附近抖動

RMSprop

RMSprop可以算作Adadelta的一個特例：

特點：

其實RMSprop依然依賴于全局學習率

RMSprop算是Adagrad的一種發(fā)展，和Adadelta的變體，效果趨于二者之間

適合處理非平穩(wěn)目標 - 對于RNN效果很好

Adam

Adam(Adaptive Moment Estimation)本質(zhì)上是帶有動量項的RMSprop，它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學習率。Adam的優(yōu)點主要在于經(jīng)過偏置校正后，每一次迭代學習率都有個確定范圍，使得參數(shù)比較平穩(wěn)。公式如下：

特點：

結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標的優(yōu)點

對內(nèi)存需求較小

為不同的參數(shù)計算不同的自適應學習率

也適用于大多非凸優(yōu)化 - 適用于大數(shù)據(jù)集和高維空間

Adamax

Adamax是Adam的一種變體，此方法對學習率的上限提供了一個更簡單的范圍。公式上的變化如下：

可以看出，Adamax學習率的邊界范圍更簡單

Nadam

Nadam類似于帶有Nesterov動量項的Adam。公式如下：

可以看出，Nadam對學習率有了更強的約束，同時對梯度的更新也有更直接的影響。一般而言，在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

經(jīng)驗之談

對于稀疏數(shù)據(jù)，盡量使用學習率可自適應的優(yōu)化方法，不用手動調(diào)節(jié)，而且較好采用默認值

SGD通常訓練時間更長，但是在好的初始化和學習率調(diào)度方案的情況下，結(jié)果更可靠

如果在意更快的收斂，并且需要訓練較深較復雜的網(wǎng)絡時，推薦使用學習率自適應的優(yōu)化方法。

Adadelta，RMSprop，Adam是比較相近的算法，在相似的情況下表現(xiàn)差不多。

在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

最后展示兩張可厲害的圖，一切盡在圖中啊，上面的都沒啥用了... ...

損失平面等高線

在鞍點處的比較

轉(zhuǎn)載須全文轉(zhuǎn)載且注明作者和原文鏈接，否則保留維權(quán)權(quán)利

引用

[1]Adagrad

[2]RMSprop[Lecture 6e]

[3]Adadelta

[4]Adam

[5]Nadam

[6]On the importance of initialization and momentum in deep learning

[7]Keras中文文檔

[8]Alec Radford(圖)

[9]An overview of gradient descent optimization algorithms

[10]Gradient Descent Only Converges to Minimizers

[11]Deep Learning:Nature

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務器 GPU云服務器深度學習比較深度學習學習方法深度學習常用方法深度學習哪些方法

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4569.html

發(fā)表評論

登陸后可評論

0條評論

wean

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow快速入門

閱讀 1541·2023-04-26 00:20
tensorflow2.3

閱讀 1132·2023-04-25 21:49
易主機是什么-電腦主機會響是什么原因？

閱讀 814·2021-09-22 15:52
DediPath，4折優(yōu)惠，OpenVZ VPS，$1.40/月，2核/1G內(nèi)存/30GB SSD/

閱讀 587·2021-09-07 10:16
騰訊云：云主機/短信/CDN/數(shù)據(jù)庫等秒殺；2G內(nèi)存、60GB SSD空間、6Mbps的VPS，年付

閱讀 979·2021-08-18 10:22
瀏覽器內(nèi)核、JS 引擎、頁面呈現(xiàn)原理及其優(yōu)化

閱讀 2676·2019-08-30 14:07
好的 CSS 命名規(guī)范可以節(jié)約 Debug 時間

閱讀 2246·2019-08-30 14:00
【二次元的CSS】—— 用 DIV + CSS3 畫Hello Kitty（詳解步驟）

閱讀 2661·2019-08-30 13:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

深度學習最全優(yōu)化方法總結(jié)比較

相關(guān)文章

從小白程序員一路晉升為大廠高級技術(shù)專家我看過哪些書籍？（建議收藏）

Python 進階之路 (十一) 再立Flag, 社區(qū)最全的itertools深度解析（下）

分享AI有道干貨 | 126 篇 AI 原創(chuàng)文章精選（ML、DL、資源、教程）

發(fā)表評論

0條評論

wean

男|高級講師

TA的文章

tensorflow快速入門

tensorflow2.3

易主機是什么-電腦主機會響是什么原因？

DediPath，4折優(yōu)惠，OpenVZ VPS，$1.40/月，2核/1G內(nèi)存/30GB SSD/

騰訊云：云主機/短信/CDN/數(shù)據(jù)庫等秒殺；2G內(nèi)存、60GB SSD空間、6Mbps的VPS，年付

瀏覽器內(nèi)核、JS 引擎、頁面呈現(xiàn)原理及其優(yōu)化

好的 CSS 命名規(guī)范可以節(jié)約 Debug 時間

【二次元的CSS】—— 用 DIV + CSS3 畫Hello Kitty（詳解步驟）

最新活動