從ReLU到Sinc，26種神經網絡激活函數可視化

Jeff 發布于2019-04-25 18:19 / 874人閱讀

摘要：修正線性單元，是神經網絡中最常用的激活函數。顧名思義，值激活函數返回輸入的值。如同余弦函數，或簡單正弦函數激活函數為神經網絡引入了周期性。此外，激活函數為零點對稱的奇函數。

在神經網絡中，激活函數決定來自給定輸入集的節點的輸出，其中非線性激活函數允許網絡復制復雜的非線性行為。正如絕大多數神經網絡借助某種形式的梯度下降進行優化，激活函數需要是可微分（或者至少是幾乎完全可微分的）。此外，復雜的激活函數也許產生一些梯度消失或爆炸的問題。因此，神經網絡傾向于部署若干個特定的激活函數（identity、sigmoid、ReLU 及其變體）。

下面是 26 個激活函數的圖示及其一階導數，圖的右側是一些與神經網絡相關的屬性。

1. Step

激活函數 Step 更傾向于理論而不是實際，它模仿了生物神經元要么全有要么全無的屬性。它無法應用于神經網絡，因為其導數是 0（除了零點導數無定義以外），這意味著基于梯度的優化方法并不可行。

2. Identity

通過激活函數 Identity，節點的輸入等于輸出。它完美適合于潛在行為是線性（與線性回歸相似）的任務。當存在非線性，多帶帶使用該激活函數是不夠的，但它依然可以在最終輸出節點上作為激活函數用于回歸任務。

3. ReLU

修正線性單元（Rectified linear unit，ReLU）是神經網絡中最常用的激活函數。它保留了 step 函數的生物學啟發（只有輸入超出閾值時神經元才激活），不過當輸入為正的時候，導數不為零，從而允許基于梯度的學習（盡管在 x=0 的時候，導數是未定義的）。使用這個函數能使計算變得很快，因為無論是函數還是其導數都不包含復雜的數學運算。然而，當輸入為負值的時候，ReLU 的學習速度可能會變得很慢，甚至使神經元直接無效，因為此時輸入小于零而梯度為零，從而其權重無法得到更新，在剩下的訓練過程中會一直保持靜默。

4. Sigmoid

Sigmoid 因其在 logistic 回歸中的重要地位而被人熟知，值域在 0 到 1 之間。Logistic Sigmoid（或者按通常的叫法，Sigmoid）激活函數給神經網絡引進了概率的概念。它的導數是非零的，并且很容易計算（是其初始輸出的函數）。然而，在分類任務中，sigmoid 正逐漸被 Tanh 函數取代作為標準的激活函數，因為后者為奇函數（關于原點對稱）。

5. Tanh

在分類任務中，雙曲正切函數（Tanh）逐漸取代 Sigmoid 函數作為標準的激活函數，其具有很多神經網絡所鐘愛的特征。它是完全可微分的，反對稱，對稱中心在原點。為了解決學習緩慢和/或梯度消失問題，可以使用這個函數的更加平緩的變體（log-log、softsign、symmetrical sigmoid 等等）

6. Leaky ReLU

經典（以及廣泛使用的）ReLU 激活函數的變體，帶泄露修正線性單元（Leaky ReLU）的輸出對負值輸入有很小的坡度。由于導數總是不為零，這能減少靜默神經元的出現，允許基于梯度的學習（雖然會很慢）。

7. PReLU

參數化修正線性單元（Parameteric Rectified Linear Unit，PReLU）屬于 ReLU 修正類激活函數的一員。它和 RReLU 以及 Leaky ReLU 有一些共同點，即為負值輸入添加了一個線性項。而最關鍵的區別是，這個線性項的斜率實際上是在模型訓練中學習到的。

8. RReLU

隨機帶泄露的修正線性單元（Randomized Leaky Rectified Linear Unit，RReLU）也屬于 ReLU 修正類激活函數的一員。和 Leaky ReLU 以及 PReLU 很相似，為負值輸入添加了一個線性項。而最關鍵的區別是，這個線性項的斜率在每一個節點上都是隨機分配的（通常服從均勻分布）。

9. ELU

指數線性單元（Exponential Linear Unit，ELU）也屬于 ReLU 修正類激活函數的一員。和 PReLU 以及 RReLU 類似，為負值輸入添加了一個非零輸出。和其它修正類激活函數不同的是，它包括一個負指數項，從而防止靜默神經元出現，導數收斂為零，從而提高學習效率。

10. SELU

擴展指數線性單元（Scaled Exponential Linear Unit，SELU）是激活函數指數線性單元（ELU）的一個變種。其中λ和α是固定數值（分別為 1.0507 和 1.6726）。這些值背后的推論（零均值/單位方差）構成了自歸一化神經網絡的基礎（SNN）。

11. SReLU

S 型整流線性激活單元（S-shaped Rectified Linear Activation Unit，SReLU）屬于以 ReLU 為代表的整流激活函數族。它由三個分段線性函數組成。其中兩種函數的斜度，以及函數相交的位置會在模型訓練中被學習。

12. Hard Sigmoid

Hard Sigmoid 是 Logistic Sigmoid 激活函數的分段線性近似。它更易計算，這使得學習計算的速度更快，盡管首次派生值為零可能導致靜默神經元/過慢的學習速率（詳見 ReLU）。

13. Hard Tanh

Hard Tanh 是 Tanh 激活函數的線性分段近似。相較而言，它更易計算，這使得學習計算的速度更快，盡管首次派生值為零可能導致靜默神經元/過慢的學習速率（詳見 ReLU）。

14. LeCun Tanh

LeCun Tanh（也被稱作 Scaled Tanh）是 Tanh 激活函數的擴展版本。它具有以下幾個可以改善學習的屬性：f(± 1) = ±1；二階導數在 x=1 較大化；且有效增益接近 1。

15. ArcTan

視覺上類似于雙曲正切（Tanh）函數，ArcTan 激活函數更加平坦，這讓它比其他雙曲線更加清晰。在默認情況下，其輸出范圍在-π/2 和π/2 之間。其導數趨向于零的速度也更慢，這意味著學習的效率更高。但這也意味著，導數的計算比 Tanh 更加昂貴。

16. Softsign

Softsign 是 Tanh 激活函數的另一個替代選擇。就像 Tanh 一樣，Softsign 是反對稱、去中心、可微分，并返回-1 和 1 之間的值。其更平坦的曲線與更慢的下降導數表明它可以更高效地學習。另一方面，導數的計算比 Tanh 更麻煩。

17. SoftPlus

作為 ReLU 的一個不錯的替代選擇，SoftPlus 能夠返回任何大于 0 的值。與 ReLU 不同，SoftPlus 的導數是連續的、非零的，無處不在，從而防止出現靜默神經元。然而，SoftPlus 另一個不同于 ReLU 的地方在于其不對稱性，不以零為中心，這興許會妨礙學習。此外，由于導數常常小于 1，也可能出現梯度消失的問題。

18. Signum

激活函數 Signum（或者簡寫為 Sign）是二值階躍激活函數的擴展版本。它的值域為 [-1,1]，原點值是 0。盡管缺少階躍函數的生物動機，Signum 依然是反對稱的，這對激活函數來說是一個有利的特征。

19. Bent Identity

激活函數 Bent Identity 是介于 Identity 與 ReLU 之間的一種折衷選擇。它允許非線性行為，盡管其非零導數有效提升了學習并克服了與 ReLU 相關的靜默神經元的問題。由于其導數可在 1 的任意一側返回值，因此它可能容易受到梯度爆炸和消失的影響。

20. Symmetrical Sigmoid

Symmetrical Sigmoid 是另一個 Tanh 激活函數的變種（實際上，它相當于輸入減半的 Tanh）。和 Tanh 一樣，它是反對稱的、零中心、可微分的，值域在 -1 到 1 之間。它更平坦的形狀和更慢的下降派生表明它可以更有效地進行學習。

21. Log Log

Log Log 激活函數（由上圖 f(x) 可知該函數為以 e 為底的嵌套指數函數）的值域為 [0,1]，Complementary Log Log 激活函數有潛力替代經典的 Sigmoid 激活函數。該函數飽和地更快，且零點值要高于 0.5。

22. Gaussian

高斯激活函數（Gaussian）并不是徑向基函數網絡（RBFN）中常用的高斯核函數，高斯激活函數在多層感知機類的模型中并不是很流行。該函數處處可微且為偶函數，但一階導會很快收斂到零。

23. Absolute

顧名思義，值（Absolute）激活函數返回輸入的值。該函數的導數除了零點外處處有定義，且導數的量值處處為 1。這種激活函數一定不會出現梯度爆炸或消失的情況。

24. Sinusoid

如同余弦函數，Sinusoid（或簡單正弦函數）激活函數為神經網絡引入了周期性。該函數的值域為 [-1,1]，且導數處處連續。此外，Sinusoid 激活函數為零點對稱的奇函數。

25. Cos

如同正弦函數，余弦激活函數（Cos/Cosine）為神經網絡引入了周期性。它的值域為 [-1,1]，且導數處處連續。和 Sinusoid 函數不同，余弦函數為不以零點對稱的偶函數。

26. Sinc

Sinc 函數（全稱是 Cardinal Sine）在信號處理中尤為重要，因為它表征了矩形函數的傅立葉變換（Fourier transform）。作為一種激活函數，它的優勢在于處處可微和對稱的特性，不過它比較容易產生梯度消失的問題。

原文鏈接：https://dashee87.github.io/data%20science/deep%20learning/visualising-activation-functions-in-neural-networks/

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器從域名到網站 ReLU spark從入門到前端從入門到精通

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4636.html

激活函數可視化

摘要：激活函數介紹形函數函數是神經網絡初期的激活函數。其他不常用的激活函數如反正切，，以及同樣減輕了以上問題。的意思就是對于一個個節點的隱層，使用作為激活函數的神經網絡。實際上這次的實驗中所有系的激活函數除了，使用都收斂的比較快。前言簡單來說，激活函數在神經網絡里的作用就是引入Non-linearity。假如沒有激活函數的話，一個多層的神經網絡等同于一個一層的神經網絡。簡單來說，一個神經...

tolerious 2019-07-31 11:06 評論0 收藏0
計算機視覺和 CNN 發展十一座里程碑

摘要：從到，計算機視覺領域和卷積神經網絡每一次發展，都伴隨著代表性架構取得歷史性的成績。在這篇文章中，我們將總結計算機視覺和卷積神經網絡領域的重要進展，重點介紹過去年發表的重要論文并討論它們為什么重要。這個表現不用說震驚了整個計算機視覺界。從AlexNet到ResNet，計算機視覺領域和卷積神經網絡（CNN）每一次發展，都伴隨著代表性架構取得歷史性的成績。作者回顧計算機視覺和CNN過去5年，總結...

劉厚水 2019-04-25 18:05 評論0 收藏0
神經網絡訓練tricks

摘要：下面介紹一些值得注意的部分，有些簡單解釋原理，具體細節不能面面俱到，請參考專業文章主要來源實戰那我們直接從拿到一個問題決定用神經網絡說起。當你使用時可以適當減小學習率，跑過神經網絡的都知道這個影響還蠻大。神經網絡構建好，訓練不出好的效果怎么辦？明明說好的擬合任意函數(一般連續)(為什么？可以參考http://neuralnetworksanddeeplearning.com/)，說好的足夠...

Jenny_Tong 2019-04-25 18:32 評論0 收藏0
調試神經網絡讓人抓狂？這有16條錦囊妙計送給你

摘要：即便對于行家來說，調試神經網絡也是一項艱巨的任務。神經網絡對于所有失真應該具有不變性，你需要特別訓練這一點。對于負數，會給出，這意味著函數沒有激活。換句話說，神經元有一部分從未被使用過。這是因為增加更多的層會讓網絡的精度降低。即便對于行家來說，調試神經網絡也是一項艱巨的任務。數百萬個參數擠在一起，一個微小的變化就能毀掉所有辛勤工作的成果。然而不進行調試以及可視化，一切就只能靠運氣，最后可能...

Scorpion 2019-04-25 18:18 評論0 收藏0
「自歸一化神經網絡」提出新型激活函數SELU

摘要：循環神經網絡令語音和自然語言處理達到了新階段。自歸一化神經網絡對于擾動是具有魯棒性的，它在訓練誤差上并沒有高方差見圖。構建自歸一化神經網絡我們通過調整函數的屬性以構建自歸一化神經網絡。近日，arXiv 上公開的一篇 NIPS 投稿論文《Self-Normalizing Neural Networks》引起了圈內極大的關注，它提出了縮放指數型線性單元（SELU）而引進了自歸一化屬性，該單元主...

馬忠志 2019-04-25 18:15 評論0 收藏0