摘要:在底層的膠囊之后連接了層和層。膠囊效果的討論在論文最后,作者們對膠囊的表現進行了討論。他們認為,由于膠囊具有分別處理不同屬性的能力,相比于可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現。
背景
目前的神經網絡中,每一層的神經元都做的是類似的事情,比如一個卷積層內的每個神經元都做的是一樣的卷積操作。而Hinton堅信,不同的神經元完全可以關注不同的實體或者屬性,比如在一開始就有不同的神經元關注不同的類別(而不是到最后才有歸一化分類)。具體來說,有的神經元關注位置、有的關注尺寸、有的關注方向。這類似人類大腦中語言、視覺都有分別的區域負責,而不是分散在整個大腦中。
為了避免網絡結構的雜亂無章,Hinton提出把關注同一個類別或者同一個屬性的神經元打包集合在一起,好像膠囊一樣。在神經網絡工作時,這些膠囊間的通路形成稀疏激活的樹狀結構(整個樹中只有部分路徑上的膠囊被激活),從而形成了他的Capsule理論。值得一提的是,同在谷歌大腦(但不在同一個辦公室)的Jeff Dean也認為稀疏激活的神經網絡是未來的重要發展方向,不知道他能不能也提出一些不同的實現方法來。
Capsule這樣的網絡結構在符合人們“一次認知多個屬性”的直觀感受的同時,也會帶來另一個直觀的問題,那就是不同的膠囊應該如何訓練、又如何讓網絡自己決定膠囊間的激活關系。Hinton這篇論文解決的重點問題就是不同膠囊間連接權重(路由)的學習。
解決路由問題
首先,每個層中的神經元分組形成不同的膠囊,每個膠囊有一個“活動向量”activity vector,它是這個膠囊對于它關注的類別或者屬性的表征。樹結構中的每個節點就對應著一個活動的膠囊。通過一個迭代路由的過程,每個活動的膠囊都會從高一層網絡中的膠囊中選擇一個,讓它成為自己的母節點。對于高階的視覺系統來說,這樣的迭代過程就很有潛力解決一個物體的部分如何層層組合成整體的問題。
對于實體在網絡中的表征,眾多屬性中有一個屬性比較特殊,那就是它出現的概率(網絡檢測到某一類物體出現的置信度)。一般典型的方式是用一個多帶帶的、輸出0到1之間的回歸單元來表示,0就是沒出現,1就是出現了。在這篇論文中,Hinton想用活動向量同時表示一個實體是否出現以及這個實體的屬性。他的做法是用向量不同維度上的值分別表示不同的屬性,然后用整個向量的模表示這個實體出現的概率。為了保證向量的長度,也就是實體出現的概率不超過1,向量會通過一個非線性計算進行標準化,這樣實體的不同屬性也就實際上體現為了這個向量在高維空間中的方向。
采用這樣的活動向量有一個很大的好處,就是可以幫助低層級的膠囊選擇自己連接到哪個高層級的膠囊。具體做法是,一開始低層級的膠囊會給所有高層級的膠囊提供輸入;然后這個低層級的膠囊會把自己的輸出和一個權重矩陣相乘,得到一個預測向量。如果預測向量和某個高層級膠囊的輸出向量的標量積更大,就可以形成從上而下的反饋,提高這兩個膠囊間的耦合系數,降低低層級膠囊和其它高層級膠囊間的耦合系數。進行幾次迭代后,貢獻更大的低層級膠囊和接收它的貢獻的高層級膠囊之間的連接就會占越來越重要的位置。
在論文作者們看來,這種“一致性路由”(routing-by-agreement)的方法要比之前較大池化之類只保留了一個最活躍的特征的路由方法有效得多。
網絡構建
作者們構建了一個簡單的CapsNet。除最后一層外,網絡的各層都是卷積層,但它們現在都是“膠囊”的層,其中用向量輸出代替了CNN的標量特征輸出、用一致性路由代替了較大池化。與CNN類似,更高層的網絡觀察了圖像中更大的范圍,不過由于不再是較大池化,所以位置信息一直都得到了保留。對于較低的層,空間位置的判斷也只需要看是哪些膠囊被激活了。
這個網絡中最底層的多維度膠囊結構就展現出了不同的特性,它們起到的作用就像傳統計算機圖形渲染中的不同元素一樣,每一個膠囊關注自己的一部分特征。這和目前的計算機視覺任務中,把圖像中不同空間位置的元素組合起來形成整體理解(或者說圖像中的每個區域都會首先激活整個網絡然后再進行組合)具有截然不同的計算特性。在底層的膠囊之后連接了PrimaryCaps層和DigitCaps層。
實驗結果
由于膠囊具有新的特性,所以文中的實驗結果也并不只是跑跑Benchmark而已,還有很多對膠囊帶來的新特性的分析。
數字識別
首先在MNIST數據集上,經過三次路由迭代學習、層數也不算多的CapsNet就得到了優秀的錯誤率。
同時,作者們依據CapsNet中的表征對“網絡認為自己識別到”的圖像進行重構,表明在正確識別的樣本中(豎線左側),CapsNet可以正確識別到圖像中的細節,同時降低噪聲。
健壯性
由于網絡結構中DigitCaps部分能夠分別學到書寫中旋轉、粗細、風格等變化,所以對小變化的健壯性更好。在用一個隨機抹黑過數字的MNIST數據集訓練CapsNet后,作者們用它來識別affNIST數據集。這個數據集中的樣本都是經過小幅度變化后的MNIST樣本,變化后的樣本如下圖。這個CapsNet直接拿來識別affNIST的正確率有79%;同步訓練的、參數數目類似的CNN只有66%。
分割高度重合的數字
作者們把MNIST數據集中的數字兩兩疊在一起建立了MultiMNIST數據集,兩個數字的邊框范圍平均有80%是重合的。CapsNet的識別結果高于CNN基準自不必提,但作者們接下來做的圖形分析中清晰地展現出了膠囊的妙處。
如圖,作者們把兩個激活程度較高的膠囊對應的數字作為識別結果,據此對識別到的圖像元素進行了重構。對于下圖中識別正確的樣本(L指真實標簽,R指激活程度較高的兩個膠囊對應的標簽),可以看到由于不同的膠囊各自工作,在一個識別結果中用到的特征并不會影響到另一個識別結果,不受重疊的影響(或者說重疊部分的特征可以復用)。
另一方面,每個膠囊還是需要足夠多的周邊信息支持,而不是一味地認為重疊部分的特征就需要復用。下圖左圖是選了一個高激活程度的膠囊和一個低激活程度膠囊的結果(*R表示其中一個數字既不是真實標簽也不是識別結果,L仍然為真實標簽)。可以看到,在(5,0)圖中,關注“7”的膠囊并沒有找到足夠多的“7”的特征,所以激活很弱;(1,8)圖中也是因為沒有“0”的支持特征,所以重疊的部分也沒有在“0”的膠囊中用第二次。
膠囊效果的討論
在論文最后,作者們對膠囊的表現進行了討論。他們認為,由于膠囊具有分別處理不同屬性的能力,相比于CNN可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現。膠囊基于的“圖像中同一位置至多只有某個類別的一個實體”的假設也使得膠囊得以使用活動向量這樣的分離式表征方式來記錄某個類別實例的各方面屬性,還可以通過矩陣乘法建模的方式更好地利用空間信息。不過膠囊的研究也才剛剛開始,他們覺得現在的膠囊至于圖像識別,就像二十一世紀初的RNN之于語音識別 —— 研究現在只是剛剛起步,日后定會大放異彩。
論文全文參見:https://arxiv.org/pdf/1710.09829.pdf?
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4660.html
摘要:近日,該論文的一作終于在上公開了該論文中的代碼。該項目上線天便獲得了個,并被了次。 當前的深度學習理論是由Geoffrey Hinton大神在2007年確立起來的,但是如今他卻認為,CNN的特征提取層與次抽樣層交叉存取,將相同類型的相鄰特征檢測器的輸出匯集到一起是大有問題的。去年9月,在多倫多接受媒體采訪時,Hinton大神斷然宣稱要放棄反向傳播,讓整個人工智能從頭再造。10月,人們關注已久...
摘要:而加快推動這一趨勢的,正是卷積神經網絡得以雄起的大功臣。卷積神經網絡面臨的挑戰對的深深的質疑是有原因的。據此,也斷言卷積神經網絡注定是沒有前途的神經膠囊的提出在批判不足的同時,已然備好了解決方案,這就是我們即將討論的膠囊神經網絡,簡稱。 本文作者 張玉宏2012年于電子科技大學獲計算機專業博士學位,2009~2011年美國西北大學聯合培養博士,現執教于河南工業大學,電子科技大學博士后。中國計...
摘要:沒有繼續完成學業,而是退了學,搬到了當時倫敦北部臟亂的伊斯靈頓區,成了一名木匠。于是,他決定辭職以表抗議,并隨后搬到了加拿大,遠離軍事機構的資助。谷歌宣布旗下的無人駕駛汽車已經行駛了英里,沒有發生一次意外。 英國《每日電訊報》打算用三篇報道,來描繪人工智能在加拿大多倫多的繁榮景象。本文是其中第一篇:The ‘Godfather of AI’ on making machines clever...
摘要:使用神經網絡的思路被摧毀和抹黑,教授說,傳統的模型得到了人們無疑的信賴。但終于,神經網絡奏效了。 深度學習泰斗 Geoffrey Hinton 的名字在當今的人工智能研究界可謂是如雷貫耳,他曾發明了玻爾茲曼機(Boltzmann machine),也首先將反向傳播(Backpropagation)應用于多層神經網絡;不僅如此,他還有 Yann LeCun 和 Ilya Sutskever 等...
摘要:的研究興趣涵蓋大多數深度學習主題,特別是生成模型以及機器學習的安全和隱私。與以及教授一起造就了年始的深度學習復興。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學計算機視覺博士學位,讀博期間師從現任 Google AI 首席科學家李飛飛,研究卷積神經網絡在計算機視覺、自然語言處理上的應...
閱讀 774·2023-04-25 15:13
閱讀 1394·2021-11-22 12:03
閱讀 823·2021-11-19 09:40
閱讀 1905·2021-11-17 09:38
閱讀 1711·2021-11-08 13:18
閱讀 653·2021-09-02 15:15
閱讀 1763·2019-08-30 15:54
閱讀 2632·2019-08-30 11:12