摘要:而加快推動這一趨勢的,正是卷積神經網絡得以雄起的大功臣。卷積神經網絡面臨的挑戰對的深深的質疑是有原因的。據此,也斷言卷積神經網絡注定是沒有前途的神經膠囊的提出在批判不足的同時,已然備好了解決方案,這就是我們即將討論的膠囊神經網絡,簡稱。
本文作者 張玉宏
2012年于電子科技大學獲計算機專業博士學位,2009~2011年美國西北大學聯合培養博士,現執教于河南工業大學,電子科技大學博士后。中國計算機協會(CCF)會員,YOCSEF鄭州2018~2019年度副主席,ACM/IEEE會員。《品味大數據》一書作者。
江山代有才人出,各領風騷數百年。但在計算機科學領域,風騷數十年都非常難。卷積神經網絡在短短三十多年里,幾起幾落。別看它現在依然如日沖天,要知道,浪潮之巔的下一步,就是衰落。而加快推動這一趨勢的,正是卷積神經網絡得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神經膠囊”理論,這“膠囊”里到底裝的是什么“藥”呢??
從神經元到神經膠囊
在大計算和大數據的背景下,深度學習大行其道、大受歡迎,究其原因,卷積神經網絡的出色表現,可謂居功至偉。盡管如此,卷積神經網絡也有其局限性,如訓練數據需求大、環境適應能力、可解釋性差、數據分享難等不足。
2017年10月,Hinton教授和他的團隊在機器學習的較高級會議“神經信息處理系統大會(NIPS)”上發表論文,超越了自己前期的理論研究——反向傳播算法(BP),提出了一種全新的神經網絡——膠囊網絡(CapsNet)。
2017年9月(論文發表的前一個月),在多倫多舉行的人工智能會議上,Hinton對他參與構建的反向傳播(BP)理論表示深深的懷疑。Hinton還引用了著名物理學家馬克斯·普朗克的名言:“科學之道,不破不立”,來為自己的新理論站臺。
在這次會議上,Hinton最后總結:
科學是踩著葬禮前行的,未來由極其質疑我所說的一切的那批學生所決定。
卷積神經網絡面臨的挑戰
Hinton對CNN的“深深的質疑”是有原因的。CNN的內在缺陷主要體現在3個方面。
CNN生物學基礎不足,難以“熟能生巧”。
CNN全連接模式過于冗余而低效。
CNN勝在特征檢測,但窮于特征理解。
Hinton評價說:“CNN分類正確率很高,看似一個大好局面,實則是一場災難。”據此,Hinton也斷言:“卷積神經網絡注定是沒有前途的!”
神經膠囊的提出
Hinton在批判CNN不足的同時,已然備好了解決方案,這就是我們即將討論的“膠囊神經網絡(Capsule Network,簡稱CapsNet)。”
Hinton認為CNN的不變性并不理想,“同變性”才是我們想要的。不變性指的是對象的表征,不隨對象X的“變換”而變化。從計算機視覺的角度來看,這里的變換包括平移、旋轉、放縮等。
由于CNN具有不變特性,它對物體的平移、旋轉和縮放等并不敏感。以北京故宮紫禁城門前的那尊獅子為例,這類變化并不影響CNN對方框內獅子的識別。這自然大大提高了分類的魯棒性。
然而,任何性能的提升,通常都以犧牲某項性能為代價。CNN對分類性能的提升,同樣要付出成本。Hinton認為,平移、旋轉及縮放等變換之所以可以做到局部不變性,其實是以丟棄“坐標框架”為代價的。沒有了坐標的約束,自然也就用判斷圖像是否發生平移、旋轉或縮放。
而“同變性”則不會丟失這些信息,它只是對內容做了一種變換。這就好比,畫紙相當于坐標框架,當畫家畫了一個人合適大小的嘴巴時,具有格局觀的畫家(抽象派除外),就能知道臉的大致位置和大小該怎么畫。當嘴巴畫斜了,臉自然也得傾斜才算是一張正常的臉。
類似地,在下圖中,當數字“7”的位置發生變化時,人的視覺系統會自動建立“坐標框架”,在此處,“坐標框架”屬于先驗知識。坐標框架會參與到識別過程中,識別過程受到了空間概念的支配,因此,它并不是一個獨立的過程。
不變性與同變性對比示意圖
在(a)子圖中,平移前的7和平移后的7的表征是一樣的(可以通過CNN的池化操作實現),這樣位置變了我們依然識別出7,但代價是我們根本無法判斷出7在圖像所處的位置。
在(b)子圖頭部所示的公式描述的是,對象x的表征,在經過轉換(平移)之后,其結果等同于轉換之后對象的表征,這就是所謂的“同變性”。具體說到數字“7”的平移,平移前的7和平移后的7的表征里,包含有位置這個信息(這個可以通過后文即將講到神經膠囊做到),這樣一來,我們不但能識別出7,還能判斷出7在圖像所處的位置。
于是,Hinton教授提出了一個設想:觀察者和物體之間的關系,應該由一整套激活的神經元來表征,而不是由單個神經元或一組粗編碼的神經元表征。只有這樣,有關“坐標框架”之類的先驗知識才能有機會被表達出來。而這一整套神經元,Hinton將其取名為“神經膠囊”。
那么在神經膠囊框架下,又是如何體現同變性呢?Hinton認為,同變性大致包括兩種類型:
位置編碼:當內容的位置發生較大變化時,則由不同的“膠囊”表示其內容。
速率編碼:當內容的位置發生較小變化時,則由相同的“膠囊”表示其內容,但是內容有所改變。
二者的關聯是,高層的“膠囊”有更廣的域,低層的“位置編碼”信息通過匯總,抵達高層變成“速率編碼”。對這兩種編碼的理解,可以想象成兩種不同比例尺的地圖。“位置編碼”相當于小比例尺的地圖(比如說街道級別),而“速率編碼”相當于大比例尺的地圖(比如說地區級別)。
相比CNN,使用膠囊網絡的一大優勢在于,它需要的訓練數據量遠小于CNN,而效果卻毫不遜色于CNN。從這個意義上來講,神經膠囊實際上更接近人腦的行為。我們知道,為了學會區分阿貓阿狗,小孩子也不過就學習了幾十個例子就可以做到。而當前的CNN,動輒需要幾萬甚至幾十萬的案例才能取得很好的效果。這看起來,CNN的工作更像是在暴力破解,其工作機理顯然要比大腦低級,行為更是一點也不優雅。
此外,和其他模型相比,膠囊網絡在不同角度的圖片分類上,有著更好的辨識度。例如,在下圖中,對應的,上一列和下一列的圖片屬于同一類,它們僅僅是呈現的視角不同。的研究論文表明,相比于其他同類算法,使用膠囊網絡,錯誤識別率顯著降低。
膠囊網絡的多角度圖片識別
神經膠囊網絡t既然這么好用,勢必有強大的理論為之支撐。那么,它的理論基礎又是什么呢?
神經膠囊理論基礎
神經膠囊的生物學基礎
我們知道,人工神經網絡在很大程度上是模仿生物神經網絡而來的。作為“仿生派”的代表人物Hinton,他提出的“神經膠囊”,同樣受益于腦科學的研究進展。
目前,大多數神經解剖學研究都支持這樣一個結論——大部分哺乳類,特別是靈長類大腦皮層中存在大量稱為皮層微柱的柱狀結構,其內部包含上百個神經元,并存在內部分層。
這些小模塊,非常擅長處理不同類型的可視化刺激。生物學家推測,大腦一定有某種機制,以某些權重“穿針引線”般組合低層次的可視化特征,從而構建出我們“看到”的五彩繽紛的大千世界。
大腦皮層中普遍存在的皮層微柱這一研究發現,極大啟發了Hinton。于是,Hinton提出了一個假想,物體和觀察者之間的關系,應該由一整套而非一個激活的神經元表征。
于是,在人工神經網絡中,Hinton提出了一個對應的結構,它就是我們前面提到的神經膠囊。簡單來說,神經膠囊是一組被打包的神經元,它們在內部做了大量運算,而后僅輸出一個被壓縮的結果——一個高維向量。
神經膠囊網絡的哲學基礎
其實,人工智能領域也是哲學家們最愛光顧的地方之一。因為說到“智能”,就離不開“意識”“存在性”等基本問題。而這類問題,本來就是哲學的傳統地盤。
古話說,“形而下者為器,形而上者為道”。如果我們總是低頭看路,看到的都是具體的“器”,那我們肯定難以看到哲學的影子。但如果我們仰望星空,不再關注具體有形的事物,將研究視角提升到“道”的層面,Hinton提出的神經膠囊,在哲學層面的意義,已然若隱若現。Hinton提出的理論,實際上踐行了哲學中的“本體論(Ontology)”。
簡單來說,本體論研究的問題,就是“什么是‘存在’”。拿香蕉來舉例,“香蕉”就是本體,而香蕉的圖片,香蕉的視頻,中文“香蕉”二字,英文單詞“banana”等,都是描述“本體”的外在符號。于是,這個世界上的所有圖像、音頻、視頻、語言等,都成為某種符號到實體的映射,這就是哲學意義上的“本體”。
事實上,哲學上的“本體論”,對信息科學是有啟發意義的。
回到神經膠囊的討論上來。我們知道,一個活動的膠囊內的神經元活動,表示了特定實體的各種屬性。這些屬性包括但不限于不同類型的實例化參數,例如前面提到的位姿(pose,包括位置、大小、方向等),形變,速度,反照率,色相,紋理等。某些特殊屬性的存在,就能表明某個類別實例的存在。
在機器學習領域,判斷存在性的一個簡易方法是,使用一個獨立的邏輯回歸單元,其輸出值是連續的,輸出范圍在[0,1]之間,其大小是實體存在的概率。比如,0表示肯定沒出現,1表示確定出現,中間值就是一個出現的概率。
有意思的是,Hinton等人提出了一個更加巧妙的替代方法。他們提出的神經膠囊,其輸出值是一個高維向量,通過歸一化處理,可以用向量模長(length)表示實體存在的概率,同時用向量的各種“位姿”表示實體的各類屬性。如果一個向量在各個方向表現得都很顯著,那么它的模長自然也就越大,判定這個本體存在性概率就越高。
在這里面就蘊含了使用實體的屬性來定義實體存在性的本體論精髓。如果發現一個實體的各種屬性都有難以忽略的存在,那么該實體也必然存在。據此做分類依據,自然也就非常靠譜。
在傳統的深度學習模型(如CNN、RNN及DBN等)中,是沒有這樣的性質的。
這是因為,在傳統深度學習網絡中,一個神經元的激活只能表示某個實體(可理解為標量神經元),其維度的單一性決定了神經元本身不能同時表示多個屬性。于是,不得不退而求其次事物的性質只能隱含到茫茫的網絡參數之中。這樣一來,網絡的參數調整,動機就難以單純,它必須需要顧及到各類樣本的輸入,故此調參異常繁瑣而耗時,就在所難免了。
而現在就不同了,利用神經膠囊,我們可以判定實體存在的各種性質統統封裝在一個膠囊之內,于是,調參的約束條件就會大大減少,自然而然的結果,調參變得優雅了,較佳的參數容易獲取了。?
今天我們為大家帶來了AI領域非常前沿的“神經膠囊”理論的分享,相信各位也意猶未盡,想要繼續探索“神經膠囊”更深層的奧秘。關注“前沿技墅”,下一次將為大家全面揭秘“神經膠囊”理論的工作流程、參數設計,并帶來較佳實踐,敬請期待。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4782.html
摘要:本文從可視化的角度出發詳解釋了的原理的計算過程,非常有利于直觀理解它的結構。具體來說,是那些水平方向的邊緣。訓練過程可以自動完成這一工作。更進一步地說,這意味著每個膠囊含有一個擁有個值的數組,而一般我們稱之為向量。 CapsNet 將神經元的標量輸出轉換為向量輸出提高了表征能力,我們不僅能用它表示圖像是否有某個特征,同時還能表示這個特征的旋轉和位置等物理特征。本文從可視化的角度出發詳解釋了 ...
摘要:膠囊網絡是一種熱門的新型神經網絡架構,它可能會對深度學習特別是計算機視覺領域產生深遠的影響。下幾層膠囊也嘗試檢測對象及其姿態,但工作方式非常不同,即使用按協議路由算法。 膠囊網絡(Capsule networks, CapsNets)是一種熱門的新型神經網絡架構,它可能會對深度學習特別是計算機視覺領域產生深遠的影響。等一下,難道計算機視覺問題還沒有被很好地解決嗎?卷積神經網絡(Convolu...
摘要:鏈接是他們在數據集上達到了較先進的性能,并且在高度重疊的數字上表現出比卷積神經網絡好得多的結果。在常規的卷積神經網絡中,通常會有多個匯聚層,不幸的是,這些匯聚層的操作往往會丟失很多信息,比如目標對象的準確位置和姿態。 PPT由于筆者能力有限,本篇所有備注皆為專知內容組成員根據講者視頻和PPT內容自行補全,不代表講者本人的立場與觀點。膠囊網絡Capsule Networks你好!我是Aurél...
摘要:等人最近關于膠囊網絡的論文在機器學習領域造成相當震撼的影響。它提出了理論上能更好地替代卷積神經網絡的方案,是當前計算機視覺領域的技術。而這就是這些膠囊網絡運行方式的本質。為了簡化,我們將假設一個兩層的膠囊網絡。產生的結果值將被稱為。 Geoff Hinton等人最近關于膠囊網絡(Capsule networks)的論文在機器學習領域造成相當震撼的影響。它提出了理論上能更好地替代卷積神經網絡的...
摘要:在底層的膠囊之后連接了層和層。膠囊效果的討論在論文最后,作者們對膠囊的表現進行了討論。他們認為,由于膠囊具有分別處理不同屬性的能力,相比于可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現。 背景目前的神經網絡中,每一層的神經元都做的是類似的事情,比如一個卷積層內的每個神經元都做的是一樣的卷積操作。而Hinton堅信,不同的神經元完全可以關注不同的實體或者屬性,比如在一開始就有不同的神...
閱讀 3241·2021-11-23 09:51
閱讀 2493·2021-09-27 13:34
閱讀 2476·2021-09-08 09:45
閱讀 675·2019-08-30 15:44
閱讀 3503·2019-08-29 12:17
閱讀 2769·2019-08-26 12:18
閱讀 2634·2019-08-26 10:10
閱讀 3087·2019-08-23 18:02