深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎？

qianfeng 發(fā)布于2019-04-25 18:19 / 2236人閱讀

摘要：因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)任何一層的微分都是公平的，那么或許我們應(yīng)該使用存儲(chǔ)多種變體的復(fù)分析。

深度學(xué)習(xí)只能使用實(shí)數(shù)嗎？本文簡(jiǎn)要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究，并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模，以及 GAN 訓(xùn)練中更好的穩(wěn)定性。

曼德布洛特復(fù)數(shù)集合：https://en.wikipedia.org/wiki/Mandelbrot_set

深度學(xué)習(xí)只能使用實(shí)數(shù)，大家不覺得奇怪嗎？或許，深度學(xué)習(xí)使用復(fù)數(shù)才是更加奇怪的事情吧（注意：復(fù)數(shù)是有虛部的）。一個(gè)有價(jià)值的論點(diǎn)是：大腦在計(jì)算的時(shí)候不太可能使用復(fù)數(shù)。當(dāng)然你也可以提出這樣的論點(diǎn)：大腦也不用矩陣運(yùn)算或者鏈?zhǔn)椒▌t微分啊。此外，人工神經(jīng)網(wǎng)絡(luò)（ANN）具有實(shí)際神經(jīng)元的模型。長(zhǎng)期以來(lái)，我們用實(shí)分析代替了生物合理性（biological plausibility）。

然而，為什么我們要止步于實(shí)分析呢？我們已經(jīng)用了這么久線性代數(shù)和微分方程，那我們也可以將這一切都推倒，用復(fù)分析建立新的一套?；蛟S更加奇妙的復(fù)分析會(huì)賦予我們更強(qiáng)大的方法。畢竟它對(duì)量子力學(xué)奏效，那么它也有可能在深度學(xué)習(xí)領(lǐng)域發(fā)揮作用。此外，深度學(xué)習(xí)和量子力學(xué)都與信息處理有關(guān)，二者可能是同一件事情。

由于論據(jù)的原因，我們暫且不考慮生物合理性。這是一個(gè)很古老的觀點(diǎn)，可以追溯到 1957 年 Frank Rosenblatt 第一次提出人工神經(jīng)網(wǎng)絡(luò)的時(shí)候。那么問題來(lái)了，復(fù)數(shù)可以提供哪些實(shí)數(shù)不能提供的東西呢？

在過去幾年里，曾經(jīng)出現(xiàn)過一些探索在深度學(xué)習(xí)中使用復(fù)數(shù)的文章。奇怪的是，它們中的大部分都沒有被同行評(píng)議的期刊接受。因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。但是，我們還是要評(píng)述一些有趣的論文。

DeepMind 的論文《Associative Long Short-Term Memory》（Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, Alex Graves）探討了使用復(fù)數(shù)值形成聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)。該系統(tǒng)被用來(lái)增強(qiáng) LSTM 的記憶。論文的結(jié)論是使用復(fù)數(shù)的網(wǎng)絡(luò)可獲取更大的記憶容量。根據(jù)數(shù)學(xué)原理，與僅僅使用實(shí)數(shù)的情況相比，使用復(fù)數(shù)需要的矩陣更小。如下圖所示，使用復(fù)數(shù)的神經(jīng)網(wǎng)絡(luò)在內(nèi)存開銷上與傳統(tǒng) LSTM 有顯著區(qū)別。

Yoshua Bengio 及其在蒙特利爾的團(tuán)隊(duì)探索了另一種使用復(fù)數(shù)的方式。研究者在《Unitary Evolution Recurrent Neural Networks》（Martin Arjovsky, Amar Shah, Yoshua Bengio）一文中探討了酉矩陣。他們認(rèn)為，如果矩陣的特征值接近 1 的話，消失的梯度或許會(huì)帶來(lái)實(shí)際的好處。該研究使用復(fù)數(shù)作為 RNN 網(wǎng)絡(luò)的權(quán)重。結(jié)論如下：

實(shí)證表明我們的 uRNN 能夠更好地通過長(zhǎng)序列傳遞梯度信息，并且不會(huì)遇到像 LSTM 一樣多的飽和隱藏狀態(tài)（saturating hidden states）。

他們做了多次實(shí)驗(yàn)對(duì)使用復(fù)數(shù)的網(wǎng)絡(luò)與傳統(tǒng) RNN 的性能進(jìn)行了量化比較：

使用復(fù)數(shù)的系統(tǒng)明顯擁有更魯棒、更穩(wěn)定的性能。

Bengio 團(tuán)隊(duì)和 MIT 合作的一篇論文《Gated Orthogonal Recurrent Units: On Learning to Forget》（Li Jing, Caglar Gulcehre, John Peurifoy, Yichen Shen, Max Tegmark, Marin Solja?i?, Yoshua Bengio）提出了使用門控機(jī)制的方法。這篇論文探討了長(zhǎng)期依賴能夠更好地被捕獲以及形成一個(gè)更加魯棒的遺忘機(jī)制的可能性。下圖展示了其他基于 RNN 的系統(tǒng)在復(fù)制任務(wù)中的失敗；

FAIR 和 EPFL 的一個(gè)團(tuán)隊(duì)出了一篇類似的論文《Kronecker Recurrent Units》（Cijo Jose, Moustpaha Cisse, Francois Fleuret），他們?cè)谡撐睦镆舱宫F(xiàn)了在復(fù)制任務(wù)中使用酉矩陣的可行性。他們展示了一種能夠大幅減少所需參數(shù)的矩陣分解方法。文中描述了他們使用復(fù)數(shù)的動(dòng)機(jī)。

由于實(shí)空間的行列式是連續(xù)函數(shù)，所以實(shí)空間的酉集是不連貫的。因而，使用標(biāo)準(zhǔn)的連續(xù)優(yōu)化程序不能在實(shí)值網(wǎng)絡(luò)上跨越全酉集。相反，酉集在復(fù)空間中是連接在一起的，因?yàn)樗男辛惺绞菑?fù)空間中單位圓上的點(diǎn)，所以使用復(fù)數(shù)就不會(huì)出現(xiàn)這個(gè)問題。

這篇論文的精華之一就是下面這則富有建設(shè)性的思想：

狀態(tài)應(yīng)當(dāng)保持高維度，以使用高容量的網(wǎng)絡(luò)將輸入編碼成內(nèi)部狀態(tài)、提取預(yù)測(cè)值。但 recurrent dynamic 可使用低容量模型實(shí)現(xiàn)。

目前，這些方法已經(jīng)探索了在 RNN 上對(duì)復(fù)數(shù)值的使用。MILA（蒙特利爾學(xué)習(xí)算法研究所）最近的一篇論文《Deep Complex Networks》（Chiheb Trabelsi 等人）進(jìn)一步探索了這些方法在卷積神經(jīng)網(wǎng)絡(luò)上的使用。論文作者在計(jì)算機(jī)視覺任務(wù)上測(cè)試了他們的網(wǎng)絡(luò)，結(jié)果很有競(jìng)爭(zhēng)力。

最后，我們必須說(shuō)一下復(fù)數(shù)在 GAN 中的使用。畢竟 GAN 可以說(shuō)是最熱的話題了。論文《Numerics of GANs》（Lars Mescheder, Sebastian Nowozin, Andreas Geiger）探討了 GAN 中棘手的收斂性能。他們研究了帶有復(fù)數(shù)值的雅克比矩陣的特點(diǎn)，并使用它創(chuàng)建解決 GAN 均衡問題的較先進(jìn)方法。

在去年的一篇博文中，我介紹了全息原理和深度學(xué)習(xí)的關(guān)系。博文中的方法探索了張量網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)之間的相似性。量子力學(xué)可以被認(rèn)為是使用了一種更加通用的概率形式。對(duì)復(fù)數(shù)的使用則提供了常規(guī)概率無(wú)法提供的額外能力。具體來(lái)說(shuō)就是疊加和干擾的能力。為了實(shí)現(xiàn)全息術(shù)，在處理過程中使用復(fù)數(shù)會(huì)比較好。

在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。事實(shí)上，大多數(shù)從業(yè)者都認(rèn)為它是貝葉斯的，但實(shí)際上來(lái)自與統(tǒng)計(jì)學(xué)機(jī)制（除去名字，這里沒有統(tǒng)計(jì)學(xué)的那些繁文縟節(jié)）。

但如果量子力學(xué)是廣義的概率，那如果我們使用 QM 啟發(fā)的方法作為替代會(huì)如何呢？一些論文試圖研究這一方向，結(jié)果值得一看。在去年的一篇論文《Quantum Clustering and Gaussian Mixtures》中，作者探索了無(wú)監(jiān)督均值聚類的使用情況。報(bào)告是這樣說(shuō)的：

因此，我們觀察到了量子類干擾現(xiàn)象并不在高斯混合模型中出現(xiàn)。我們展示了量子方法在所有方面上都優(yōu)于高斯混合方法。

兩者的對(duì)比如圖：

噪聲發(fā)生了什么？

為什么在有了 20 世紀(jì)的量子概率理論后還要拘泥于 18 世紀(jì)的貝葉斯理論呢？

本文提及的研究論文證明了：在深度學(xué)習(xí)架構(gòu)中使用復(fù)數(shù)確實(shí)會(huì)帶來(lái)「實(shí)實(shí)在在」的優(yōu)勢(shì)。研究表明：使用復(fù)數(shù)能夠帶來(lái)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模，以及訓(xùn)練 GAN 時(shí)更好的穩(wěn)定性。這些優(yōu)點(diǎn)可不能被簡(jiǎn)單地忽略。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)--任何一層的微分都是公平的，那么或許我們應(yīng)該使用存儲(chǔ)多種變體的復(fù)分析。

或許復(fù)數(shù)沒有被經(jīng)常使用的原因是研究者對(duì)它不夠熟悉。在優(yōu)化研究社區(qū)中，數(shù)學(xué)傳統(tǒng)并沒有涉及到復(fù)數(shù)。然而物理學(xué)家卻一直在使用復(fù)數(shù)。那些虛部在量子力學(xué)中始終是存在的。這并不奇怪，這就是現(xiàn)實(shí)。我們?nèi)匀徊惶斫鉃楹芜@些深度學(xué)習(xí)系統(tǒng)會(huì)如此有用。所以探索其他的表示可能會(huì)帶來(lái)出乎意料的突破。

在不久的將來(lái)，這個(gè)局面可能會(huì)變化。較先進(jìn)的結(jié)構(gòu)可能會(huì)普遍使用復(fù)數(shù)，那時(shí)候不使用復(fù)數(shù)反倒變得奇怪了。

原文鏈接：https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器學(xué)習(xí)深度學(xué)習(xí)前應(yīng)該掌握什么什么時(shí)候應(yīng)該用深度學(xué)習(xí) 使用深度學(xué)習(xí) 深度學(xué)習(xí)使用

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/4638.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

qianfeng

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

目前可以用的短信驗(yàn)證碼平臺(tái)哪個(gè)比較好？

閱讀 4171·2021-11-22 13:52
主機(jī)服務(wù)器地址是什么-服務(wù)器地址填什么？

閱讀 2089·2021-09-22 15:12
談一談移動(dòng)端1px的問題

閱讀 1127·2019-08-30 15:53
一年內(nèi)經(jīng)驗(yàn)前端面試題記錄

閱讀 3463·2019-08-29 17:12
js 和 css動(dòng)畫

閱讀 2196·2019-08-29 16:23
React造輪系列：對(duì)話框組件 - Dialog 思路

閱讀 1660·2019-08-26 13:56
微信小程序緩存過期時(shí)間

閱讀 1778·2019-08-26 13:44
ES6中Promise 承諾對(duì)象封裝異步操作解析

閱讀 1895·2019-08-26 11:56

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎？

相關(guān)文章

**卷積為什么如此強(qiáng)大？理解深度學(xué)習(xí)中的卷積**

**理解深度學(xué)習(xí)中的卷積**

發(fā)表評(píng)論

0條評(píng)論

qianfeng

男|高級(jí)講師

TA的文章

目前可以用的短信驗(yàn)證碼平臺(tái)哪個(gè)比較好？

主機(jī)服務(wù)器地址是什么-服務(wù)器地址填什么？

談一談移動(dòng)端1px的問題

一年內(nèi)經(jīng)驗(yàn)前端面試題記錄

js 和 css動(dòng)畫

React造輪系列：對(duì)話框組件 - Dialog 思路

微信小程序緩存過期時(shí)間

ES6中Promise 承諾對(duì)象封裝異步操作解析

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎？

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！