国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

將CNN與RNN組合使用

FuisonDesign / 2973人閱讀

摘要:但是,有一些研究人員在同一個深度神經(jīng)網(wǎng)絡(luò)中巧妙地實現(xiàn)了二者能力的結(jié)合。一次讀取并解釋輸入文本中的一個字或字符圖像,因此深度神經(jīng)網(wǎng)絡(luò)必須等待直到當(dāng)前字的處理完成,才能去處理下一個字。

從有一些有趣的用例看,我們似乎完全可以將 CNN 和 RNN/LSTM 結(jié)合使用。許多研究者目前正致力于此項研究。但是,CNN 的研究進(jìn)展趨勢可能會令這一想法不合時宜。

一些事情正如水與油一樣,看上去無法結(jié)合在一起。雖然兩者各具價值,但它們無法結(jié)合起來。

這就是我首次想到組合使用 CNN(卷積神經(jīng)網(wǎng)絡(luò))和 RNN(遞歸神經(jīng)網(wǎng)絡(luò))時的反應(yīng)。畢竟,二者分別針對完全不同類型的問題做了優(yōu)化。 ?

CNN 適用于分層或空間數(shù)據(jù),從中提取未做標(biāo)記的特征。適用的數(shù)據(jù)可以是圖像,或是手寫體字符。CNN 接受固定規(guī)模的輸入,并生成固定規(guī)模的輸出。

RNN 適用于時態(tài)數(shù)據(jù)及其它類型的序列數(shù)據(jù)。數(shù)據(jù)可以是文本正文、股票市場數(shù)據(jù),或是語音識別中的字母和單詞。RNN 的輸入和輸出可以是任意長度的數(shù)據(jù)。LSTM 是 RNN 的一種變體,它記憶可控數(shù)量的前期訓(xùn)練數(shù)據(jù),或是以更適當(dāng)?shù)姆绞竭z忘。

對于一些特定的問題類型,我們知道如何選取適當(dāng)?shù)墓ぞ摺?/p>

是否存在同時需要 CNN 和 RNN 能力的問題?

事實證明,的確如此。其中大部分針對的是按時間序列出現(xiàn)的圖像數(shù)據(jù),換句話說,就是視頻數(shù)據(jù)。但還存在著其它一些有意思的應(yīng)用,它們與視頻并沒有任何直接關(guān)系,正是這些應(yīng)用激發(fā)了研究者的想象力。下面我們將介紹其中部分應(yīng)用。

還有一些近期提出的模型,它們探索了如何組合使用 CNN 和 RNN 工具。在很多情況下,CNN 和 RNN 可使用多帶帶的層進(jìn)行組合,并以 CNN 的輸出作為 RNN 的輸入。但是,有一些研究人員在同一個深度神經(jīng)網(wǎng)絡(luò)中巧妙地實現(xiàn)了二者能力的結(jié)合。

視頻場景標(biāo)記

經(jīng)典的場景標(biāo)記方法是訓(xùn)練 CNN 去識別視頻幀中的對象,并對這些對象分類。對象可能會進(jìn)一步分類為更高級別的邏輯組。例如,CNN 可以識別出爐子、冰箱和水槽等物品,進(jìn)而升級分類為廚房。

顯然,我們?nèi)鄙俚氖菍Χ鄠€幀(在時間上)間動作的理解。例如,幾幀臺球視頻就能正確表明擊球者已經(jīng)將八個球擊入了邊袋。另一個例子是如果有幾個幀分別是一些年輕人在練習(xí)騎行兩輪車,并且有一位騎手躺在地上,那么完全可以合理地得出結(jié)論:“那個男孩從兩輪車上摔了下來”。

有研究者實現(xiàn)了一種分層的 CNN-RNN 對,以 CNN 的輸出作為 RNN 的輸入。為創(chuàng)建對每個視頻片段的“瞬間”描述,研究者從邏輯上以 LSTM 取代了 RNN。組合而成的 RCNN 模型如上圖所示,其中遞歸連接直接實現(xiàn)在內(nèi)核上。研究者最后對該 RCNN 模型做了一些實驗驗證。

細(xì)節(jié)內(nèi)容可參閱論文原文:http://proceedings.mlr.press/v32/pinheiro14.pdf

情緒檢測

如何通過視頻判斷個體或群體的情緒,這依然是一個挑戰(zhàn)性問題。針對此問題,ACM 國際多模式互動會議(ICMI,International Conference on Multimodal Interaction)每年舉辦一屆競賽,稱為“情緒大挑戰(zhàn)”(EGC,EmotiW Grand Challenge)。

每年 EGC 競賽的目標(biāo)數(shù)據(jù)集會有一定變化。競賽通常會給出一組不同的測試,對視頻中出現(xiàn)的人群或個體做分類。

2016 年:基于群體的幸福感分析。

2017 年: 基于群體的三類情緒(即正向、中立和負(fù)向)檢測。

2018 年的競賽(計劃在 11 月開展)將更為復(fù)雜。挑戰(zhàn)涉及就餐環(huán)境分類,其中包括三個子項: ?

食物類型挑戰(zhàn):將每個表述(utterance)按七類食物做分類。

食物好感度挑戰(zhàn):識別對象對食物好感度的打分情況。

進(jìn)餐中交談挑戰(zhàn):識別進(jìn)餐中交談的難度等級。

挑戰(zhàn)的關(guān)鍵不僅在于如何組合使用 CNN 和 RNN,而且包括如何添加可多帶帶建模并集成的音軌數(shù)據(jù)。

2016 年競賽的獲勝者創(chuàng)建了一個由 RNN 和 3D 卷積網(wǎng)絡(luò)(C3D)組成的混合網(wǎng)絡(luò)。和傳統(tǒng)方式一樣,數(shù)據(jù)融合和分類是在后期進(jìn)行的。RNN 以使用 CNN 從各個幀中提取的外觀特征作為輸入,并對隨后的運動做編碼。同時,C3D 也對視頻中的外觀和運動進(jìn)行建模,隨后同樣與音頻模塊合并。

準(zhǔn)確性是 EGC 競賽挑戰(zhàn)的難點所在,該指標(biāo)目前依然不是很高。2016 年的獲勝者在個體面部識別上的得分為 59.02%。2017 年則升至 60.34%,群組得分升至 80.89%。但應(yīng)注意的是,挑戰(zhàn)的性質(zhì)每年都會發(fā)生一些變化,因此不能按年度進(jìn)行比較。

EGC 年度競賽挑戰(zhàn)的詳細(xì)信息可訪問 ICMI 官方主頁:https://icmi.acm.org/2018/index.php?id=challenges

基于視頻的人員重識別 / 步態(tài)識別

該應(yīng)用的目標(biāo)是識別視頻中的某個人(根據(jù)已有的個人標(biāo)記數(shù)據(jù)庫),或者僅僅識別視頻是否曾經(jīng)出現(xiàn)過某人(即重識別,其中人員是未標(biāo)記的)。步態(tài)識別是該應(yīng)用的關(guān)鍵研究領(lǐng)域,進(jìn)而發(fā)展為全身運動識別(例如手臂擺動方式、行走特征、體態(tài)等)。

該項應(yīng)用中存在一些明顯的非技術(shù)性挑戰(zhàn),其中最突出的問題包括著裝和鞋子的變化、外套或全身衣物存在部分模糊等。CNN 中一些眾所周知的技術(shù)問題包括多視角(實際上是一個人從左到右經(jīng)過所引發(fā)的多個視角,即第一視角是前面,然后是側(cè)面,最后是背面),以及照明情況、反照率和大小等經(jīng)典圖像問題。

前期已有研究將一個完整的走步(即步態(tài))使用由 CNN 獲取的多個幀表示,進(jìn)而組合成一類稱為“步態(tài)能量圖像”(GEI,Gait Energy Image)的熱力圖。

為一并分析多個“走步”的情況,有研究在模型中加入了 LSTM。LSTM 的時序能力實現(xiàn)了幀間視圖變換模型,可用于調(diào)整透視的情況。

該研究原文及所用圖像數(shù)據(jù)提供于此:https://vision.unipv.it/CV/materiale2016-17/3rd%20Choice/0213.pdf。

視頻監(jiān)視、步態(tài)識別的研究論文具有很高的被引數(shù),毫不驚奇幾乎所有的研究都是在中國開展的。

下一個研究前沿方向?qū)峭暾娜梭w姿勢識別,無論是用于識別還是標(biāo)記(人體處于站立、跳躍、坐姿等),它將對人體的每個部位提出獨立的卷積模型。作為 UI 的一部分,手勢識別正成為一個研究熱點,尤其是在增強現(xiàn)實領(lǐng)域。

天氣預(yù)報

該應(yīng)用的目標(biāo)是預(yù)測局部區(qū)域及相當(dāng)短的時間跨度內(nèi)的降雨強度。這一領(lǐng)域也被稱為“臨近預(yù)報”(nowcasting)。

?

DNA 序列功能量化

人類 DNA 中有 98% 尚未編碼,這些未編碼的片段稱為“內(nèi)含子”(Intron)。內(nèi)含子在最初被認(rèn)為是一些毫無價值的進(jìn)化殘余,但是遺傳學(xué)家現(xiàn)在認(rèn)識到其價值所在。例如,有 93%的疾病相關(guān)變種位于這些區(qū)域中。對這些區(qū)域的性質(zhì)和功能建模,這是一項正在開展中的研究。近期,一種稱為“DanQ”的 CNN/LSTM 組合模型為解決這一挑戰(zhàn)給出了一定的貢獻(xiàn)。

據(jù) DanQ 的研究者介紹,“卷積層可捕獲了調(diào)控模體(regulatory motif),而遞歸層則捕獲了模體間的長期依賴關(guān)系,用于學(xué)習(xí)調(diào)控“語法”以改進(jìn)預(yù)測。與其它模型做對比,DanQ 在多個指標(biāo)上得到了大大的改進(jìn)。與一些相關(guān)模型的 ROC 曲線下面積相比,DanQ 實現(xiàn)了某些調(diào)控標(biāo)記(regulatory marker)超過 50%的相對改善”。

研究論文原文提供于此:https://academic.oup.com/nar/article/44/11/e107/2468300

?為默音視頻創(chuàng)建逼真的音軌

一些 MIT 的研究者盡其所能創(chuàng)建了大量標(biāo)記的鼓槌聲音片段。他們使用了一種 CNN/LSTM 組合方法,其中 CNN 用于識別視覺場景(鼓槌在靜音視頻中的擊打情況)。但由于聲音片段是時序的,并且延伸了數(shù)個幀,因而他們使用 LSTM 層將聲音片段與適當(dāng)?shù)膸M(jìn)行匹配。

據(jù)研究者報告,人們在超過 50%的時間中會被預(yù)測的聲音匹配所欺騙。

可在此查看視頻:https://www.youtube.com/watch?t=0s&v=flOevlA9RyQ

?

未來的研究方向

我十分驚喜能看到大量的研究,其中研究者組合使用了 CNN 和 RNN,以獲得兩者的優(yōu)勢。一些研究甚至在混合網(wǎng)絡(luò)中使用了 GAN,這非常有意思。

盡管這種組合模型似乎提供了更好的能力,但目前還有另一個新研究方向更受關(guān)注。該研究方向認(rèn)為 CNN 自身就足以適用,RNN/LSTM 組合模型并非長久之計。

一組研究人員提出了一種新穎的深度森林架構(gòu)。該架構(gòu)嵌入在節(jié)點結(jié)構(gòu)中,性能超出 CNN 和 RNN,并降低了計算資源和復(fù)雜度。

我們也關(guān)注著 Facebook 和 Google 這樣的更主流方向。兩家企業(yè)在近期停止在自己的語音互譯產(chǎn)品中使用的基于 RNN/LSTM 的工具,轉(zhuǎn)向使用 TCN(Temporal Convolutional Net)。

通常對于時序問題,尤其是對于文本問題,RNN 在設(shè)計上存在著固有的問題。RNN 一次讀取并解釋輸入文本中的一個字(或字符、圖像),因此深度神經(jīng)網(wǎng)絡(luò)必須等待直到當(dāng)前字的處理完成,才能去處理下一個字。

這意味著 RNN 無法像 CNN 那樣利用大規(guī)模并行處理(MPP)。尤其是為了更好地理解上下文而需要同時運行 RNN/LSTM 時。

這是一個無法消除的障礙,會限制 RNN/LSTM 架構(gòu)的效用。TCN 通過使用 CNN 架構(gòu)解決這個問題。CNN 架構(gòu)可以輕松實現(xiàn)“關(guān)注”(attention)和“跳門”(gate hopping)等新概念的 MPP 加速。

詳細(xì)內(nèi)容可參閱我們的論文原文:https://www.datasciencecentral.com/profiles/blogs/temporal-convolutional-nets-tcns-take-over-from-rnns-for-nlp-pred

當(dāng)然,我無法做到概述整個研究領(lǐng)域。即便是針對最小延遲需求不像語音翻譯那么嚴(yán)格的情況,我也做不到一一列出所有研究。然而,對于我們上面介紹的所有這些應(yīng)用,似乎完全可以重新審視 TCN 這種新方法是否適用。

Bill Vorhies 的博客文章:

https://www.datasciencecentral.com/profiles/blog/list?user=0h5qapp2gbuf8

作者簡介

Bill Vorhies 是 Data Science Central 的總編輯,自 2001 年以來一直從事數(shù)據(jù)科學(xué)研究。可通過 Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com 與他聯(lián)系。

查看英文原文:

https://www.datasciencecentral.com/profiles/blogs/combining-cnns-and-rnns-crazy-or-genius

聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系小編及時處理,謝謝!

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4825.html

相關(guān)文章

  • 從圖像到知識:深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像理解的原理解析

    摘要:本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。卷積神經(jīng)網(wǎng)絡(luò)與圖像理解卷積神經(jīng)網(wǎng)絡(luò)通常被用來張量形式的輸入,例如一張彩色圖象對應(yīng)三個二維矩陣,分別表示在三個顏色通道的像素強度。 本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。針對卷積神經(jīng)網(wǎng)絡(luò),本文將詳細(xì)探討網(wǎng)絡(luò) 中每一層在圖像識別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),...

    UnixAgain 評論0 收藏0
  • 一文讀懂 CNN、DNN、RNN 內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別

    摘要:在普通的全連接網(wǎng)絡(luò)或中,每層神經(jīng)元的信號只能向上一層傳播,樣本的處理在各個時刻獨立,因此又被成為前向神經(jīng)網(wǎng)絡(luò)。不難想象隨著深度學(xué)習(xí)熱度的延續(xù),更靈活的組合方式更多的網(wǎng)絡(luò)結(jié)構(gòu)將被發(fā)展出來。 從廣義上來說,NN(或是更美的DNN)確實可以認(rèn)為包含了CNN、RNN這些具體的變種形式。在實際應(yīng)用中,所謂的深度神經(jīng)網(wǎng)絡(luò)DNN,往往融合了多種已知的結(jié)構(gòu),包括卷積層或是LSTM單元。這里的DNN特指全連接...

    cheng10 評論0 收藏0
  • 基準(zhǔn)評測TensorFlow、Caffe等在三類流行深度神經(jīng)網(wǎng)絡(luò)上的表現(xiàn)

    摘要:在兩個平臺三個平臺下,比較這五個深度學(xué)習(xí)庫在三類流行深度神經(jīng)網(wǎng)絡(luò)上的性能表現(xiàn)。深度學(xué)習(xí)的成功,歸因于許多層人工神經(jīng)元對輸入數(shù)據(jù)的高表征能力。在年月,官方報道了一個基準(zhǔn)性能測試結(jié)果,針對一個層全連接神經(jīng)網(wǎng)絡(luò),與和對比,速度要快上倍。 在2016年推出深度學(xué)習(xí)工具評測的褚曉文團隊,趕在猴年最后一天,在arXiv.org上發(fā)布了的評測版本。這份評測的初版,通過國內(nèi)AI自媒體的傳播,在國內(nèi)業(yè)界影響很...

    canopus4u 評論0 收藏0
  • RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?

    摘要:摘要在年率先發(fā)布上線了機器翻譯系統(tǒng)后,神經(jīng)網(wǎng)絡(luò)表現(xiàn)出的優(yōu)異性能讓人工智能專家趨之若鶩。目前在阿里翻譯平臺組擔(dān)任,主持上線了阿里神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),為阿里巴巴國際化戰(zhàn)略提供豐富的語言支持。 摘要: 在2016年Google率先發(fā)布上線了機器翻譯系統(tǒng)后,神經(jīng)網(wǎng)絡(luò)表現(xiàn)出的優(yōu)異性能讓人工智能專家趨之若鶩。本文將借助多個案例,來帶領(lǐng)大家一同探究RNN和以LSTM為首的各類變種算法背后的工作原理。 ...

    sihai 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<