摘要:我們還經驗性地演示了貝葉斯在語言建模基準和生成圖說任務上優于傳統,以及通過使用不同的訓練方案,這些方法如何改進我們的模型。第節和第節分別回顧了通過反向傳播做貝葉斯,和通過時間做反向傳播。
摘要
在這項工作里,我們探討了一種用于 RNN 的簡單變分貝葉斯方案(straightforward variational Bayes scheme)。首先,我們表明了一個通過時間截斷反向傳播的簡單變化,能夠得出良好的質量不確定性估計和優越的正則化結果,在訓練時只需花費很小的額外計算成本。其次,我們展示了一種新的后驗近似,能夠如何進一步改善貝葉斯 RNN 的性能。我們將局部梯度信息合并到近似后驗,以便在當前批次統計數據周圍對其進行銳化。這種技術并不僅限于循環神經網絡(RNN),還可以更廣泛地應用于訓練貝葉斯神經網絡。我們還經驗性地演示了貝葉斯 RNN 在語言建模基準和生成圖說任務上優于傳統 RNN,以及通過使用不同的訓練方案,這些方法如何改進我們的模型。 我們還引入了一個新的基準來研究語言模型的不確定性,便于未來研究的對比。
?
背景:將貝葉斯方法用于訓練,增加 RNN 不確定性和正則化
循環神經網絡(RNN)在一系列廣泛的序列預測任務上取得了業內較高水平的性能(Wu et al., 2016; Amodei et al., 2015; Jozefowicz et al., 2016; Zaremba et al., 2014; Lu et al., 2016)。在這項工作中,我們將通過將貝葉斯方法用于訓練,考察如何在 RNN 中增加不確定性和正則化。
貝葉斯方法為 RNN 提供了另一種表達不確定性的方法(通過參數)。同時,使用一個先驗(prior)將各種參數整合,使許多模型在訓練期間平均化,使網絡實現正則化的效果。近來,有的方法試圖將 dropout(Srivastava et al,2014)和權重衰減證明為一種變分推理的方案(Gal&Ghahramani,2016),或者應用隨機梯度 Langevin dynamics(Welling&Teh,2011,SGLD)在時間上直接截斷反向傳播(Gan et al,2016)。?
四大貢獻
有趣的是,最近的工作還沒有進一步研究像 Graves(2011)所做的那樣,直接應用變分貝葉斯推理方案(Beal,2003)。(注釋:原文沒有提到 Graves 2011 年的工作,這里是有人在 Reddit 上指出后,Oriol Vinyals 立即做的修改。)
我們在(Blundell et al,2015)Bayes by Backprop 工作的基礎上,提出了一個簡單直接的方法,經過實驗表明能夠解決很大規模的問題。
我們的方法是對通過時間截斷反向傳播的一個簡單改變,得到了對 RNN 權重后驗分布的估計。
將貝葉斯方法應用于成功的深度學習模型有兩大好處:對不確定性和正則化的明確表征。我們的公式明確地導出了一個有信息理論支撐的成本函數(cost function)。
變分推理后驗的形式決定了不確定性估計的質量,從而影響著模型的整體表現。我們將展示如何在批次的局部調整(“銳化”)后驗,提高 RNN 的性能。這種銳化使用基于批次的梯度來調整一個批次數據的變分后驗。這一過程可以被視為層次化分布(hierarchical distribution),其中局部批次梯度被用于調整全局的后驗,在每個批次都形成一個局部近似。
將變分推理應用于神經網絡時,這為高斯后驗(Gaussian posterior)的典型假設提供了更靈活的形式,減小了方差(variance)。這種技術可以在其他變分貝葉斯模型中更廣泛地應用。
我們展示了如何將 Backprop By Bayes(BBB)有效應用于 RNN。
我們開發了一種減少 BBB 方差的新技術,可以被廣泛地用于其他較大似然框架當中。
我們在兩項經過廣泛研究的基準上提高了測試結果,性能大幅超越了現有的正則化技術,比如 dropout。
我們為研究語言模型的不確定性提出了新的基準。
實驗結果:圖說生成超越現有基準
作者在論文中給出了他們新方法在圖說生成在 MSCOCO 上與此前方法的對比。可以看出,BBB 相較以前的結果有顯著提升。
論文的其余部分組織如下。第 2 節和第 3 節分別回顧了通過反向傳播做貝葉斯(Bayes by Backprop,BBB)和通過時間做反向傳播(Backprop through time)。第 4 節推導出了用于 RNN 的 Bayes by Backprop,而第 5 節描述了后驗的銳化。第 6 節簡要回顧了相關工作。第 7 節做了實驗評估,最后在第 8 節進行討論并得出結論。
論文地址:https://arxiv.org/abs/1704.02798
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4527.html
摘要:康納爾大學數學博士博士后則認為,圖神經網絡可能解決圖靈獎得主指出的深度學習無法做因果推理的核心問題。圖靈獎得主深度學習的因果推理之殤年初,承接有關深度學習煉金術的辯論,深度學習又迎來了一位重要的批評者。 作為行業的標桿,DeepMind的動向一直是AI業界關注的熱點。最近,這家世界最較高級的AI實驗室似乎是把他們的重點放在了探索關系上面,6月份以來,接連發布了好幾篇帶關系的論文,比如:關系歸...
摘要:年以來,深度學習方法開始在目標跟蹤領域展露頭腳,并逐漸在性能上超越傳統方法,取得巨大的突破。值得一提的是,目前大部分深度學習目標跟蹤方法也歸屬于判別式框架。 開始本文之前,我們首先看上方給出的3張圖片,它們分別是同一個視頻的第1,40,80幀。在第1幀給出一個跑步者的邊框(bounding-box)之后,后續的第40幀,80幀,bounding-box依然準確圈出了同一個跑步者。以上展示的其...
摘要:因為深度學習的正統觀念在該領域已經很流行了。在機器和深度學習空間中進行的大多數數學分析傾向于使用貝葉斯思想作為參數。如果我們接受了目前深度學習的主流觀點任何一層的微分都是公平的,那么或許我們應該使用存儲多種變體的復分析。 深度學習只能使用實數嗎?本文簡要介紹了近期一些將復數應用于深度學習的若干研究,并指出使用復數可以實現更魯棒的層間梯度信息傳播、更高的記憶容量、更準確的遺忘行為、大幅降低的網...
摘要:摘要在年率先發布上線了機器翻譯系統后,神經網絡表現出的優異性能讓人工智能專家趨之若鶩。目前在阿里翻譯平臺組擔任,主持上線了阿里神經網絡翻譯系統,為阿里巴巴國際化戰略提供豐富的語言支持。 摘要: 在2016年Google率先發布上線了機器翻譯系統后,神經網絡表現出的優異性能讓人工智能專家趨之若鶩。本文將借助多個案例,來帶領大家一同探究RNN和以LSTM為首的各類變種算法背后的工作原理。 ...
閱讀 3091·2023-04-25 20:43
閱讀 1726·2021-09-30 09:54
閱讀 1598·2021-09-24 09:47
閱讀 2881·2021-09-06 15:02
閱讀 3519·2021-02-22 17:09
閱讀 1241·2019-08-30 15:53
閱讀 1447·2019-08-29 17:04
閱讀 1966·2019-08-28 18:22