摘要:研究證明,用于加工聽覺信號的腦區可用于視覺任務。我們已經發現為計算機圖像視覺通道開發出來的圖形處理單元,也可以用于加快語音和語言的機器學習任務。
最初針對視覺信號設計出來的 CNN 也能處理聽覺信號,最終幫助機器傾聽和更好地理解我們。 CNN 在某些程度上能遷移學習,掌握多種模式的共同特征。
有一系列神經網絡機器學習方法不只是「有深度的」。在這段時間,針對先進的語音技術和人工智能的神經網絡變得日益流行,有趣的是當前的許多技術最初是針對圖像或視頻處理開發出來的。
卷積神經網絡 ( CNN )是這些方法中的一種,使得我們很容易理解為什么神經網絡處理圖像的方式極其類似于人腦加工聲音刺激的方式。因此 CNN 很好地闡釋了人腦加工聽覺和視覺信息的過程以多種(而不是一種)方式彼此聯系。
關于 CNN ,你需要了解哪些?
作為人類,我們能識別面孔或物體,不管它們出現在我們的視野(或圖片)中的哪個位置。當你試圖通過教機器如何搜索視覺特征(以面孔識別為例,這些視覺特征是在神經網絡較低層次上的邊或線,或者較高層次上的眼睛和耳朵)來培養它的這種能力,你往往針對局部區域來做這件事,因為所有相關的像素彼此非常靠近。與此對應的人類視覺是這樣工作的,一簇神經元專注于一小部分感受野 (receptive field ),這是更大的整個視野的一部分。
因為你不知道相關特征將出現在哪里,你必須掃描整個視野,要么按順序滑動你的一小部分感受野,就像(從上到下且從左到右)掃描一個窗口一樣;要么使用許多更小的感受野(神經元簇),每一個都專注于(可能重疊)一小部分視覺輸入。
CNN 是按后一種方式來做的。這些感受野合在一起,覆蓋了整個輸入,這被叫做「卷積( convolutions )」。然后較高層次的 CNN 壓縮來自較低層次的卷積的信息,并從特定位置提取出信息,就像下圖展示的一樣。
圖源:Wikipedia
所以,如果你在手機上用谷歌相冊搜索面孔或物品,或者在蘋果 iOS 10 系統中完成相同的新功能,你可以假設 CNNs 用于識別圖片中有關的候選區域,在這些區域中可能出現你想要的面孔或物品。
圖源:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
但是我們發現 CNN 在語音和語言方面也有一些作為。
CNN 可以用于以一種端對端的方式處理原始語音信號(不需要人們定義語音特征)。 CNN 通過展開一個輸入欄( input field )來查看語音信號,其中時間是一個維度,語音信號在不同頻率上的能量分布( energy distribution )是第二個維度,進而自動化學習哪個頻率段是與語音最相關的。然后網絡中較高的層被用于語音識別的核心任務:找出語音信號中的音素和詞匯。
研究證明,用于加工聽覺信號的腦區可用于視覺任務。
一旦你掌握了詞匯,接下來要做的是自然語言理解 ( NLU )中的「意圖分類」,或者從用戶的語音要求中理解用戶想達到什么目的(在最近的一篇博客中,我講解了 NLU 的其它方面,即實體識別等)。例如,用戶的語音指令是「從我的存款賬戶中轉一筆錢給 John Smith 」,其意圖就是「轉錢」。意圖往往是由一個詞或一組詞(通常是雙方熟悉的)表達出來的,在查詢系統中這些詞無處不在。
所以,類似于圖像識別,我們需要通過隨時空變化(發音;同時看一個詞及其上下文)而不是空間域的變化而滑動窗口來搜索局部特征。而且這表現得很好:當我們為這個任務介紹 CNN 時,它們表現出的準確率比先前的技術多了 10% 以上。
視覺和聽覺是大腦內部的鄰居
為什么 CNN 在這些任務上取得了成功?一個相當直接的解釋是它們只是與圖像處理享有相同的特征;兩者都屬于「在更大的信號中找到更小的信號,而且我們不知道所需的更小的信號可能在哪里」類型。但是可能有其它稍微更有趣的解釋,即 CNN 是為視覺任務而設計出來的,也在語音相關任務上發揮作用,這反映了這樣一個事實,大腦用非常相似的方法加工視覺和聽覺/語音刺激。
考慮一下聯覺現象,或者「對一種感覺或認知通路的刺激在另一種感覺或認知通路上引起了自動化的、無意識的體驗」。例如,聲音或語音刺激可以導致視覺反應。(我使用一個口味溫和的版本;對我而言,每周的每一天都有獨特的顏色。周一是暗紅色,周二是灰色,周三是暗灰色,周四是淺紅色,諸如此類。)可以這樣解釋,聲音和語音信號以及視覺加工的過程在大腦中以某種方式肯定是所謂的「鄰居」。
類似地,研究證明用于加工聲音信號和語音的腦區可以用于視覺任務,比如天生具有聽覺障礙的人能重新部署自己大腦中的聲音/語音區域,使之加工手勢語。這可能意味著加工視覺或聽覺信號的大腦細胞(神經元)的組織結構一定非常相似。
所以,回到所有這些觀點的實際應用上。不難想象幾年后你自己坐在自動駕駛汽車上與一個自動化助理聊天,命令它播放你最喜歡的音樂或預訂一家餐廳。「在這種場景的背后」,可能有一些 CNN 積極發揮作用:
LIDAR 系統(「光探測和測距」,一種基于激光的雷達系統,被汽車用來創建周圍環境的模型,包括障礙物和其他車輛)將會使用一個或一些 CNN 。
汽車很可能也將使用攝像頭檢測和解讀交通信號; CNN 也將擁有被用于做這種事的好機會。
?在語音識別和自然語言理解組件上,自動化助理將使用 CNN ,從而讓兩種組件分別發現語音信號中的音素和詞匯以及發現詞匯流中的概念。
將來可能還有其他應用。當然,所有這些任務是由不同 CNN 實現的,甚至可能在不同的控制元件中。每一個 CNN 只能在自己得到過訓練的任務上表現得很準確,而不能在其他任務上表現很好(除非它在其他任務上得到再次訓練)。
你可能說計算機游戲中的進展有助于切實可行地訓練深度神經網絡。
然而——在此又變得令人著迷——研究表明,當 CNN 得到訓練,它們(尤其是較低層)似乎獲得某種能實現其他任務的通用性能(或者觀念)。很容易理解這為什么能在相關領域中發揮作用;例如,在語音識別中,你可以用一種語言(比如英語)訓練 CNN ,而且用另一種語言(比如德語)只重復訓練較高層,然后 CNN 就能在新的語言上表現良好。顯然,較低層抓住了多種語言之間的共通性。
但是——我發現這更加令人吃驚——人們也嘗試過用多種模式(比如場景圖像和場景的文本表征)訓練 CNN 。結果,網絡可以基于文本提取圖像,也能基于圖像提取文本。這些人總結道, CNN 在某些程度上掌握了這些模式的共同特征——在沒有被告知如何去做這件事的情況下。有趣的結果又一次證明了視覺和處理語言(文本)之間肯定有很多共同點。
關于視覺和聲音/語音以及語言處理的相似性,還有其他非常實際的復雜結果。我們已經發現為計算機圖像(視覺通道)開發出來的圖形處理單元( GPU ),也可以用于加快語音和語言的機器學習任務。其原因是這些需要處理的任務在本質上是相似的:將相對簡單的數學運算應用于許多平行的數據點上。所以,你可能說,計算機游戲的進展有助于切實可行地訓練深度神經網絡。
神經網絡研究和創新產生了廣泛的影響,正如我們看見的,一個應用領域(比如圖像識別)的進步,也有益于其他領域(比如語音識別和自然語言理解)的發展。我們還看見,這可能是由人腦聽覺和視覺感受器的諸多相似之處或大腦常用的組織方式造成的。
結果,我們在許多領域持續看到機器學習和人工智能的快速前進,這些都得益于許多領域內可以共享的研究成果。更確切地說,最初是針對視覺設計出來的 CNN 將最終幫助機器傾聽和更好地理解我們,這不再值得大驚小怪——至關重要的是,我們持續地推動社會走向人機交互新時代。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4386.html
摘要:未來向何處去做領袖不容易,要不斷地指明方向。又譬如想識別在這些黑白圖像中,是否包含從到的手寫體數字,那么深度學習的傳統做法是,輸出一個維向量,,其中每個元素的取值范圍是,表示出現相應數字的概率。老爺子的論文中,輸出的是十個維向量,其中。 CNN 未來向何處去?做領袖不容易,要不斷地指明方向。所謂正確的方向,不僅前途要輝煌,而且道路要盡可能順暢。Geoffrey Hinton 是深度學習領域的...
摘要:在本次競賽中,南京信息工程大學和帝國理工學院的團隊獲得了目標檢測的最優成績,最優檢測目標數量為平均較精確率為。最后在視頻目標檢測任務中,帝國理工大學和悉尼大學所組成的團隊取得了較佳表現。 在本次 ImageNet 競賽中,南京信息工程大學和帝國理工學院的團隊 BDAT 獲得了目標檢測的最優成績,最優檢測目標數量為 85、平均較精確率為 0.732227。而在目標定位任務中Momenta和牛津...
摘要:深度學習推動領域發展的新引擎圖擁有記憶能力最早是提出用來解決圖像識別的問題的一種深度神經網絡。深度學習推動領域發展的新引擎圖深度神經網絡最近相關的改進模型也被用于領域。 從2015年ACL會議的論文可以看出,目前NLP最流行的方法還是機器學習尤其是深度學習,所以本文會從深度神經網絡的角度分析目前NLP研究的熱點和未來的發展方向。我們主要關注Word Embedding、RNN/LSTM/CN...
摘要:潘新鋼等發現,和的核心區別在于,學習到的是不隨著顏色風格虛擬性現實性等外觀變化而改變的特征,而要保留與內容相關的信息,就要用到。 大把時間、大把GPU喂進去,訓練好了神經網絡。接下來,你可能會迎來傷心一刻:同學,測試數據和訓練數據,色調、亮度不太一樣。同學,你還要去搞定一個新的數據集。是重新搭一個模型呢,還是拿來新數據重新調參,在這個已經訓練好的模型上搞遷移學習呢?香港中文大學-商湯聯合實驗...
摘要:一項由清華大學計算機系智能技術與系統國家重點實驗室清華國家信息實驗室清華大學計算機科學與技術系英特爾中國研究院清華大學電子工程系的研究人員共同參與的關于高效視覺目標檢測的研究已經被接收。 一項由清華大學計算機系智能技術與系統國家重點實驗室、清華國家信息實驗室、清華大學計算機科學與技術系、英特爾中國研究院、清華大學電子工程系的研究人員共同參與的關于高效視覺目標檢測的研究已經被 CVPR 201...
閱讀 1093·2021-10-14 09:42
閱讀 1389·2021-09-22 15:11
閱讀 3297·2019-08-30 15:56
閱讀 1260·2019-08-30 15:55
閱讀 3631·2019-08-30 15:55
閱讀 900·2019-08-30 15:44
閱讀 2035·2019-08-29 17:17
閱讀 2084·2019-08-29 15:37