国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

從圖像到知識:深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像理解的原理解析

UnixAgain / 1042人閱讀

摘要:本文將詳細解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。卷積神經(jīng)網(wǎng)絡(luò)與圖像理解卷積神經(jīng)網(wǎng)絡(luò)通常被用來張量形式的輸入,例如一張彩色圖象對應(yīng)三個二維矩陣,分別表示在三個顏色通道的像素強度。

本文將詳細解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。針對卷積神經(jīng)網(wǎng)絡(luò),本文將詳細探討網(wǎng)絡(luò) 中每一層在圖像識別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),全連接層(hidden layer),輸出層(softmax output layer)。針對遞歸神經(jīng)網(wǎng)絡(luò),本文將解釋它在在序列數(shù)據(jù)上表現(xiàn)出的強大能力。針對通用的深度神經(jīng)網(wǎng)絡(luò)模型,本文也將詳細探討網(wǎng)絡(luò)的前饋和學(xué)習(xí)過程。卷 積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)合形成的深度學(xué)習(xí)模型甚至可以自動生成針對圖片的文字描述。作為近年來重新興起的技術(shù),深度學(xué)習(xí)已經(jīng)在諸多人工智能領(lǐng)域取得 了令人矚目的進展,但是神經(jīng)網(wǎng)絡(luò)模型的可解釋性仍然是一個難題,本文從原理的角度探討了用深度學(xué)習(xí)實現(xiàn)圖像識別的基本原理,詳細解析了從圖像到知識的轉(zhuǎn)換 過程。

1、引言

傳統(tǒng)的機器學(xué)習(xí)技術(shù)往往使用原始形式來處理自然數(shù)據(jù),模型的學(xué)習(xí)能力受到很大的局限,構(gòu)成一個模式識別或機器學(xué)習(xí)系統(tǒng)往往需要相當(dāng)?shù)膶I(yè)知識來從原始數(shù)據(jù) 中(如圖像的像素值)提取特征,并轉(zhuǎn)換成一個適當(dāng)?shù)膬?nèi)部表示。而深度學(xué)習(xí)則具有自動提取特征的能力,它是一種針對表示的學(xué)習(xí)。

深度學(xué)習(xí)允許多個處理層組成復(fù)雜計算模型,從而自動獲取數(shù)據(jù)的表示與多個抽象級別。這些方法大大推動了語音識別,視覺識別物體,物體檢測,藥物發(fā)現(xiàn)和基因組學(xué)等領(lǐng)域的發(fā)展。通過使用BP算法,深度學(xué)習(xí)有能力發(fā)現(xiàn)在大的數(shù)據(jù)集的隱含的復(fù)雜結(jié)構(gòu)。

?“表示學(xué)習(xí)”能夠從原始輸入數(shù)據(jù)中自動發(fā)現(xiàn)需要檢測的特征。深度學(xué)習(xí)方法包含多個層次,每一個層次完成一次變換(通常是非線性的變換),把某個較低級別的 特征表示表示成更加抽象的特征。只要有足夠多的轉(zhuǎn)換層次,即使非常復(fù)雜的模式也可以被自動學(xué)習(xí)。對于圖像分類的任務(wù),神經(jīng)網(wǎng)絡(luò)將會自動剔除不相關(guān)的特征, 例如背景顏色,物體的位置等,但是會自動放大有用的特征,例如形狀。圖像往往以像素矩陣的形式作為原始輸入,那么神經(jīng)網(wǎng)絡(luò)中第一層的學(xué)習(xí)功能通常是檢測特 定方向和形狀的邊緣的存在與否,以及這些邊緣在圖像中的位置。第二層往往會檢測多種邊緣的特定布局,同時忽略邊緣位置的微小變化。第三層可以把特定的邊緣 布局組合成為實際物體的某個部分。后續(xù)的層次將會把這些部分組合起來,實現(xiàn)物體的識別,這往往通過全連接層來完成。對于深度學(xué)習(xí)而言,這些特征和層次并不 需要通過人工設(shè)計:它們都可以通過通用的學(xué)習(xí)過程得到。

2、神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程

如圖1所示,深度學(xué)習(xí)模型的架構(gòu)一般是由一些相對簡單的模塊多層堆疊起來,并且每個模塊將會計算從輸入到輸出的非線性映射。每個模塊都擁有對于輸入的選擇 性和不變性。一個具有多個非線性層的神經(jīng)網(wǎng)絡(luò)通常具有5~20的深度,它將可以選擇性地針對某些微小的細節(jié)非常敏感,同時針對某些細節(jié)并不敏感,例如為背 景。

在模式識別的初期,研究者們就希望利用可訓(xùn)練的多層網(wǎng)絡(luò)來代替手工提取特征的功能,但是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程一直沒有被廣泛理解。直到20世紀(jì)80年代中 期,研究者才發(fā)現(xiàn)并證明了,多層架構(gòu)可以通過簡單的隨機梯度下降來進行訓(xùn)練。只要每個模塊都對應(yīng)一個比較平滑的函數(shù),就可以使用反向傳播過程計算誤差函數(shù) 對于參數(shù)梯度。

技術(shù)分享

圖1 神經(jīng)網(wǎng)絡(luò)的前饋過程

技術(shù)分享

圖2 神經(jīng)網(wǎng)絡(luò)的反向誤差傳播過程

技術(shù)分享

圖3 鏈?zhǔn)椒▌t

?如圖2所示,復(fù)雜神經(jīng)網(wǎng)絡(luò)基于反向傳播過程來計算目標(biāo)函數(shù)相對于每個模塊中的參數(shù)的梯度。反向傳播過程的數(shù)學(xué)原理即為鏈?zhǔn)椒▌t,如圖3所示。目標(biāo)函數(shù)相對 于每個模塊的梯度具有一定的獨立性,這是鏈?zhǔn)椒▌t的關(guān)鍵,目標(biāo)函數(shù)相對于一個模塊的輸入的梯度可以在計算出目標(biāo)函數(shù)相對于這個模塊輸出的梯度之后被計算, 反向傳播規(guī)則可以反復(fù)施加通過所有模塊傳播梯度,從而實現(xiàn)梯度(亦即誤差)的不斷反向傳播,從最后一層一直傳播到原始的輸入。

在90年代后期,神經(jīng)網(wǎng)絡(luò)和以及其它基于反向傳播的機器學(xué)習(xí)領(lǐng)域在很大程度上為人詬病,計算機視覺和語音識別社區(qū)也忽略了這樣的模型。人們普遍認為,學(xué)習(xí) 很少先驗知識是有用的,多階段的自動特征提取是不可行的。尤其是簡單的梯度下降將得到局部極小值,這個局部極小值和全局最小值可能相差甚遠。

但是在實踐中,局部最優(yōu)很少會成為大型網(wǎng)絡(luò)的一個問題。實踐證明,不管初始條件,系統(tǒng)幾乎總是達到非常接近的結(jié)果。一些最近的理論和實證研究結(jié)果也傾向于 表明局部最優(yōu)不是一個嚴(yán)重問題。相反,模型中會存在大量鞍點,在鞍點位置梯度為0,訓(xùn)練過程會滯留在這些點上。但是分析表明,大部分鞍點都具有想接近的目 標(biāo)函數(shù)值,因此,它訓(xùn)練過程被卡在哪一個鞍點上往往并不重要。

前饋神經(jīng)網(wǎng)絡(luò)有一種特殊的類型,即為卷積神經(jīng)網(wǎng)絡(luò)(CNN)。人們普遍認為這種前饋網(wǎng)絡(luò)是更容易被訓(xùn)練并且具有更好的泛化能力,尤其是圖像領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在計算機視覺領(lǐng)域被廣泛采用。

3、卷積神經(jīng)網(wǎng)絡(luò)與圖像理解

卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常被用來張量形式的輸入,例如一張彩色圖象對應(yīng)三個二維矩陣,分別表示在三個顏色通道的像素強度。許多其它輸入數(shù)據(jù)也是張量的形 式:如信號序列、語言、音頻譜圖、3D視頻等等。卷積神經(jīng)網(wǎng)絡(luò)具有如下特點:局部連接,共享權(quán)值,采樣和多層。

如圖4所示,一個典型CNN的結(jié)構(gòu)可以被解釋為一系列階段的組合。最開始的幾個階段主要由兩種層組成:卷積層(convolutional layer)和采樣層(pooling layer)。卷積層的輸入和輸出都是多重矩陣。卷積層包含多個卷積核,每個卷積核都是一個矩陣,每一個卷積核相當(dāng)于是一個濾波器,它可以輸出一張?zhí)囟ǖ?特征圖,每張?zhí)卣鲌D也就是卷積層的一個輸出單元。然后通過一個非線性激活函數(shù)(如ReLU)進一步把特征圖傳遞到下一層。不同特征圖使用不同卷積核,但是 同一個特征圖中的不同位置和輸入圖之間的連接均為共享權(quán)值。這樣做的原因是雙重的。首先,在張量形式的數(shù)據(jù)中(例如圖像),相鄰位置往往是高度相關(guān)的,并 且可以形成的可以被檢測到的局部特征。其次,相同的模式可能出現(xiàn)在不同位置,亦即如果局部特征出現(xiàn)在某個位置,它也可能出現(xiàn)在其它任何位置。在數(shù)學(xué)上,根 據(jù)卷積核得到特征圖的操作對應(yīng)于離散卷積,因此而得名。

技術(shù)分享

圖 4 卷積神經(jīng)網(wǎng)絡(luò)與圖像理解

事實上有研究表明無論識別什么樣的圖像,前幾個卷積層中的卷積核都相差不大,原因在于它們的作用都是匹配一些簡單的邊緣。卷積核的作用在于提取局部微小特 征,如果在某個位置匹配到了特定的邊緣,那么所得到的特征圖中的這個位置就會有較大的強度值。如果多個卷積核在臨近的位置匹配到了多個特征,那么這些特征 就組合成為了一個可識別的物體。對于現(xiàn)實世界中的圖像而言,圖形常常都是由很多簡單的邊緣組成,因此可以通過檢測一系列簡單邊緣的存在與否實現(xiàn)物體的識 別。

卷積層的作用是從前一層的輸出中檢測的局部特征,不同的是,采樣層的作用是把含義相似的特征合并成相同特征,以及把位置上相鄰的特征合并到更接近的位置。 由于形成特定主題的每個特征的相對位置可能發(fā)生微小變化,因此可以通過采樣的方法輸入特征圖中強度較大的位置,減小了中間表示的維度(即特征圖的尺寸), 從而,即使局部特征發(fā)生了一定程度的位移或者扭曲,模型仍然可以檢測到這個特征。CNN的梯度計算和參數(shù)訓(xùn)練過程和常規(guī)深度網(wǎng)絡(luò)相同,訓(xùn)練的是卷積核中的 所有參數(shù)。

自上世紀(jì)90年代初以來,CNN已經(jīng)被應(yīng)用到諸多領(lǐng)域。,在90年代初,CNN就已經(jīng)被應(yīng)用在自然圖像,臉和手的檢測,面部識別和物體檢測中。人們還使用 卷積網(wǎng)絡(luò)實現(xiàn)語音識別和文檔閱讀系統(tǒng),這被稱為時間延遲神經(jīng)網(wǎng)絡(luò)。這個文檔閱讀系統(tǒng)同時訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)和用于約束自然語言的概率模型。此外還有許多基 于CNN的光學(xué)字符識別和手寫識別系統(tǒng)。

4、遞歸神經(jīng)網(wǎng)絡(luò)與自然語言理解

?當(dāng)涉及到處理不定長序列數(shù)據(jù)(如語音,文本)時,使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)更加自然。不同于前饋神經(jīng)網(wǎng)絡(luò),RNN具有內(nèi)部狀態(tài),在其隱藏單元中保留了 “狀態(tài)矢量”,隱式地包含了關(guān)于該序列的過去的輸入信息。當(dāng)RNN接受一個新的輸入時,會把隱含的狀態(tài)矢量同新的輸入組合起來,生成依賴于整個序列的輸 出。RNN和CNN可以結(jié)合起來,形成對圖像的更全面準(zhǔn)確的理解。

技術(shù)分享

圖5 遞歸神經(jīng)網(wǎng)絡(luò)

如圖5所示,如果我們把遞歸神經(jīng)網(wǎng)絡(luò)按照不同的離散時間步展開,把不同時間步的輸出看作是網(wǎng)絡(luò)中不同神經(jīng)元的輸出,那么RNN就可以被看做是一個很深的前 饋神經(jīng)網(wǎng)絡(luò),也就可以應(yīng)用常規(guī)的反向傳播過程訓(xùn)練這一網(wǎng)絡(luò),這種按照時間步反向傳播的方法被稱為BPTT(Back Propagation Through Time)。但是盡管RNN是非常強大的動態(tài)系統(tǒng),它的訓(xùn)練過程仍會遇到一個很大的問題,因為梯度在每個時間步可能增長也可能下降,所以在經(jīng)過許多時間步 的反向傳播之后,梯度常常會爆炸或消失,網(wǎng)絡(luò)的內(nèi)部狀態(tài)對于長遠過去輸入的記憶作用十分微弱。

解決這個問題的一種方案是在網(wǎng)絡(luò)中增加一個顯式的記憶模塊,增強網(wǎng)絡(luò)對于長遠過去的記憶能力。長短時記憶模型(LSTM)就是這樣一類模型,LSTM引入 的一個核心元素就是Cell。LSTM網(wǎng)絡(luò)已被證明比常規(guī)RNN更有效,尤其是在網(wǎng)絡(luò)中每個時間步都具有若干層的時候。

技術(shù)分享

圖6 長短時記憶模型

如圖6所示,在LSTM的網(wǎng)絡(luò)結(jié)構(gòu)中,前一層的輸入會通過更多的路徑作用于輸出,門(Gate)的引入使得網(wǎng)絡(luò)具有了聚焦作用。LSTM可以更加自然地記 住很長一段時間之前的輸入。存儲單元Cell是一個特殊的單元,作用就像一個累加器或一個“gated leaky neuron”:這個單元具有從上一個狀態(tài)到下一個狀態(tài)之間的直接連接,所以它可以復(fù)制自身的當(dāng)前狀態(tài)并累積所有的外部信號,同時由于遺忘門 (Forget Gate)的存在,LSTM可以學(xué)習(xí)決定何時清除存儲單元的內(nèi)容。

5、圖片描述的自動生成

如圖7所示,深度學(xué)習(xí)領(lǐng)域的一個匪夷所思的Demo結(jié)合了卷積網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò)實現(xiàn)圖片標(biāo)題的自動生成。首先通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)理解原始圖像,并把它轉(zhuǎn)換為語義的分布式表示。然后,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)會把這種高級表示轉(zhuǎn)換成為自然語言。

技術(shù)分享

圖7 圖片描述的自動生成

除了利用RNN的記憶機制(memory),還可以增加聚焦機制(attention),通過把注意力放在圖片的不同部位,從而把圖片翻譯成不同的標(biāo)題。 聚焦機制甚至可以讓模型更加可視化,類似于RNN機器翻譯的聚焦機制,在通過語義表示生成詞語的同時我們能解釋模型正在關(guān)注哪個部分。

6、未來展望

無監(jiān)督學(xué)習(xí)曾經(jīng)促進了深度學(xué)習(xí)領(lǐng)域的復(fù)興,但純粹的監(jiān)督學(xué)習(xí)的所取得的巨大成功掩蓋了其作用。我們期待無監(jiān)督學(xué)習(xí)能成為在長期看來的更重要的方法。人類和 動物的學(xué)習(xí)主要是無監(jiān)督的方式:我們通過自主地觀察世界而不是被告知每個對象的名稱來發(fā)現(xiàn)世界的結(jié)構(gòu)。我們期待未來大部分關(guān)于圖像理解的進步來自于訓(xùn)練端 到端的模型,并且將常規(guī)的CNN和使用了強化學(xué)習(xí)的RNN結(jié)合起來,實現(xiàn)更好的聚焦機制。深度學(xué)習(xí)和強化學(xué)習(xí)系統(tǒng)的結(jié)合目前還處于起步階段,但他們已經(jīng)在 分類任務(wù)上超越了被動視覺系統(tǒng),并在學(xué)習(xí)視頻游戲領(lǐng)域中取得了不俗的成績。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4371.html

相關(guān)文章

  • 深度學(xué)習(xí)

    摘要:深度學(xué)習(xí)在過去的幾年里取得了許多驚人的成果,均與息息相關(guān)。機器學(xué)習(xí)進階筆記之一安裝與入門是基于進行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng),被廣泛用于語音識別或圖像識別等多項機器深度學(xué)習(xí)領(lǐng)域。零基礎(chǔ)入門深度學(xué)習(xí)長短時記憶網(wǎng)絡(luò)。 多圖|入門必看:萬字長文帶你輕松了解LSTM全貌 作者 | Edwin Chen編譯 | AI100第一次接觸長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)時,我驚呆了。原來,LSTM是神...

    Vultr 評論0 收藏0

發(fā)表評論

0條評論

UnixAgain

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<