Google軟件工程師解讀：深度學(xué)習(xí)的activation function哪家強(qiáng)？

frolc 發(fā)布于2019-04-25 18:10 / 2805人閱讀

摘要：現(xiàn)為谷歌軟件工程師。盡管存在這兩個(gè)問題，目前仍是最常用的，在搭建人工神經(jīng)網(wǎng)絡(luò)的時(shí)候推薦優(yōu)先嘗試函數(shù)人們?yōu)榱私鉀Q，提出了將的前半段設(shè)為而非。

夏飛，清華大學(xué)計(jì)算機(jī)軟件學(xué)士，卡內(nèi)基梅隆大學(xué)人工智能碩士。現(xiàn)為谷歌軟件工程師。

TLDR (or the take-away)

優(yōu)先使用ReLU (Rectified Linear Unit) 函數(shù)作為神經(jīng)元的activation function:

背景

深度學(xué)習(xí)的基本原理是基于人工神經(jīng)網(wǎng)絡(luò)，信號(hào)從一個(gè)神經(jīng)元進(jìn)入，經(jīng)過非線性的activation function，傳入到下一層神經(jīng)元；再經(jīng)過該層神經(jīng)元的activate，繼續(xù)往下傳遞，如此循環(huán)往復(fù)，直到輸出層。正是由于這些非線性函數(shù)的反復(fù)疊加，才使得神經(jīng)網(wǎng)絡(luò)有足夠的capacity來抓取復(fù)雜的pattern，在各個(gè)領(lǐng)域取得state-of-the-art的結(jié)果。顯而易見，activation function在深度學(xué)習(xí)中舉足輕重，也是很活躍的研究領(lǐng)域之一。目前來講，選擇怎樣的activation function不在于它能否模擬真正的神經(jīng)元，而在于能否便于優(yōu)化整個(gè)深度神經(jīng)網(wǎng)絡(luò)。

下面我們簡(jiǎn)單聊一下各類函數(shù)的特點(diǎn)以及為什么現(xiàn)在優(yōu)先推薦ReLU函數(shù)。

Sigmoid函數(shù)

Sigmoid函數(shù)是深度學(xué)習(xí)領(lǐng)域開始時(shí)使用頻率較高的activation function。它是便于求導(dǎo)的平滑函數(shù)，其導(dǎo)數(shù)為，這是優(yōu)點(diǎn)。然而，Sigmoid有三大缺點(diǎn)：

容易出現(xiàn)gradient vanishing

函數(shù)輸出并不是zero-centered

冪運(yùn)算相對(duì)來講比較耗時(shí)

Gradient Vanishing

優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法是Back Propagation，即導(dǎo)數(shù)的后向傳遞：先計(jì)算輸出層對(duì)應(yīng)的loss，然后將loss以導(dǎo)數(shù)的形式不斷向上一層網(wǎng)絡(luò)傳遞，修正相應(yīng)的參數(shù)，達(dá)到降低loss的目的。 Sigmoid函數(shù)在深度網(wǎng)絡(luò)中常常會(huì)導(dǎo)致導(dǎo)數(shù)逐漸變?yōu)?，使得參數(shù)無法被更新，神經(jīng)網(wǎng)絡(luò)無法被優(yōu)化。

原因在于兩點(diǎn)：

在上圖中容易看出，當(dāng)中較大或較小時(shí)，導(dǎo)數(shù)接近0，而后向傳遞的數(shù)學(xué)依據(jù)是微積分求導(dǎo)的鏈?zhǔn)椒▌t，當(dāng)前層的導(dǎo)數(shù)需要之前各層導(dǎo)數(shù)的乘積，幾個(gè)小數(shù)的相乘，結(jié)果會(huì)很接近0

Sigmoid導(dǎo)數(shù)的較大值是0.25，這意味著導(dǎo)數(shù)在每一層至少會(huì)被壓縮為原來的1/4，通過兩層后被變?yōu)?/16，…，通過10層后為1/1048576。請(qǐng)注意這里是“至少”，導(dǎo)數(shù)達(dá)到較大值這種情況還是很少見的。

輸出不是zero-centered

Sigmoid函數(shù)的輸出值恒大于0，這會(huì)導(dǎo)致模型訓(xùn)練的收斂速度變慢。

舉例來講，對(duì)，如果所有均為正數(shù)或負(fù)數(shù)，那么其對(duì)的導(dǎo)數(shù)總是正數(shù)或負(fù)數(shù)，這會(huì)導(dǎo)致如下圖紅色箭頭所示的階梯式更新，這顯然并非一個(gè)好的優(yōu)化路徑。深度學(xué)習(xí)往往需要大量時(shí)間來處理大量數(shù)據(jù)，模型的收斂速度是尤為重要的。所以，總體上來講，訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)盡量使用zero-centered數(shù)據(jù) (可以經(jīng)過數(shù)據(jù)預(yù)處理實(shí)現(xiàn)) 和zero-centered輸出。

冪運(yùn)算相對(duì)耗時(shí)

相對(duì)于前兩項(xiàng)，這其實(shí)并不是一個(gè)大問題，我們目前是具備相應(yīng)計(jì)算能力的，但面對(duì)深度學(xué)習(xí)中龐大的計(jì)算量，較好是能省則省 :-)。之后我們會(huì)看到，在ReLU函數(shù)中，需要做的僅僅是一個(gè)thresholding，相對(duì)于冪運(yùn)算來講會(huì)快很多。

tanh函數(shù)

tanh讀作Hyperbolic Tangent，如上圖所示，它解決了zero-centered的輸出問題，然而，gradient vanishing的問題和冪運(yùn)算的問題仍然存在。

ReLU函數(shù)

ReLU函數(shù)其實(shí)就是一個(gè)取較大值函數(shù)，注意這并不是全區(qū)間可導(dǎo)的，但是我們可以取sub-gradient，如上圖所示。ReLU雖然簡(jiǎn)單，但卻是近幾年的重要成果，有以下幾大優(yōu)點(diǎn)：

解決了gradient vanishing問題 (在正區(qū)間)

計(jì)算速度非常快，只需要判斷輸入是否大于0

收斂速度遠(yuǎn)快于sigmoid和tanh

ReLU也有幾個(gè)需要特別注意的問題：

ReLU的輸出不是zero-centered

Dead ReLU Problem，指的是某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活，導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新。有兩個(gè)主要原因可能導(dǎo)致這種情況產(chǎn)生: (1) 非常不幸的參數(shù)初始化，這種情況比較少見 (2) learning rate太高導(dǎo)致在訓(xùn)練過程中參數(shù)更新太大，不幸使網(wǎng)絡(luò)進(jìn)入這種狀態(tài)。解決方法是可以采用Xavier初始化方法，以及避免將learning rate設(shè)置太大或使用adagrad等自動(dòng)調(diào)節(jié)learning rate的算法。

盡管存在這兩個(gè)問題，ReLU目前仍是最常用的activation function，在搭建人工神經(jīng)網(wǎng)絡(luò)的時(shí)候推薦優(yōu)先嘗試！

Leaky ReLU函數(shù)

人們?yōu)榱私鉀QDead ReLU Problem，提出了將ReLU的前半段設(shè)為而非0。另外一種直觀的想法是基于參數(shù)的方法，即Parametric ReLU:，其中可由back propagation學(xué)出來。理論上來講，Leaky ReLU有ReLU的所有優(yōu)點(diǎn)，外加不會(huì)有Dead ReLU問題，但是在實(shí)際操作當(dāng)中，并沒有完全證明Leaky ReLU總是好于ReLU。

ELU (Exponential Linear Units) 函數(shù)

ELU也是為解決ReLU存在的問題而提出，顯然，ELU有ReLU的基本所有優(yōu)點(diǎn)，以及：

不會(huì)有Dead ReLU問題

輸出的均值接近0，zero-centered

它的一個(gè)小問題在于計(jì)算量稍大。類似于Leaky ReLU，理論上雖然好于ReLU，但在實(shí)際使用中目前并沒有好的證據(jù)ELU總是優(yōu)于ReLU。

小結(jié)

建議使用ReLU函數(shù)，但是要注意初始化和learning rate的設(shè)置；可以嘗試使用Leaky ReLU或ELU函數(shù)；不建議使用tanh，尤其是sigmoid函數(shù)。

參考資料

Udacity Deep Learning Courses

Stanford CS231n Course

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)為什么這么強(qiáng) 深度學(xué)習(xí)哪家好深度學(xué)習(xí)軟件學(xué)習(xí) 深度學(xué)習(xí)學(xué)習(xí)軟件

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/4496.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

frolc

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

請(qǐng)回答c語言-操作符【入門】

閱讀 2317·2021-11-15 11:38
Java語言編程過程

閱讀 2447·2021-11-15 11:37
#便宜#騰訊云：1核/2G/60G SSD/6Mbps/1T流量/國(guó)內(nèi)輕量云/年付74元，折合每月6

閱讀 2552·2021-08-24 10:00
CSS文字交錯(cuò)滑動(dòng)效果-001

閱讀 2912·2019-08-30 15:56
html簡(jiǎn)單響應(yīng)式滾動(dòng)條置頂

閱讀 1267·2019-08-30 15:53
基于 styled-components 的單位 px -> vw 自動(dòng)轉(zhuǎn)換

閱讀 3707·2019-08-29 18:43
前端每日實(shí)戰(zhàn)：158# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)雨傘 toggle 控件

閱讀 2935·2019-08-29 17:01
如何在微信小程序中使用iconfont

閱讀 3259·2019-08-29 16:25

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Google軟件工程師解讀：深度學(xué)習(xí)的activation function哪家強(qiáng)？

相關(guān)文章

**他山之石——運(yùn)維平臺(tái)哪家強(qiáng)？**

**亞馬遜推出三大機(jī)器學(xué)習(xí)云服務(wù)，AI成為云計(jì)算之戰(zhàn)天王山**

**GPU訓(xùn)練機(jī)器學(xué)習(xí)模型哪家強(qiáng)？AWS、谷歌云、IBM等6大平臺(tái)對(duì)比**

**讓AI簡(jiǎn)單且強(qiáng)大：深度學(xué)習(xí)引擎OneFlow技術(shù)實(shí)踐**

發(fā)表評(píng)論

0條評(píng)論

frolc

男|高級(jí)講師

TA的文章

請(qǐng)回答c語言-操作符【入門】

Java語言編程過程

#便宜#騰訊云：1核/2G/60G SSD/6Mbps/1T流量/國(guó)內(nèi)輕量云/年付74元，折合每月6

CSS文字交錯(cuò)滑動(dòng)效果-001

html簡(jiǎn)單響應(yīng)式滾動(dòng)條置頂

基于 styled-components 的單位 px -> vw 自動(dòng)轉(zhuǎn)換

前端每日實(shí)戰(zhàn)：158# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)雨傘 toggle 控件

如何在微信小程序中使用iconfont

最新活動(dòng)