摘要:圖基于的識(shí)別方法它的基本思想是用對(duì)幀的最后一層的激活在時(shí)間軸上進(jìn)行整合。這個(gè)是學(xué)習(xí)長(zhǎng)度為幀采樣后視頻片段的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。
深度學(xué)習(xí)在最近十來(lái)年特別火,幾乎是帶動(dòng)AI浪潮的最大貢獻(xiàn)者?;ヂ?lián)網(wǎng)視頻在最近幾年也特別火,短視頻、視頻直播等各種新型UGC模式牢牢抓住了用戶的消費(fèi)心里,成為互聯(lián)網(wǎng)吸金的又一利器。當(dāng)這兩個(gè)火碰在一起,會(huì)產(chǎn)生什么樣的化學(xué)反應(yīng)呢?
不說(shuō)具體的技術(shù),先上一張福利圖,該圖展示了機(jī)器對(duì)一個(gè)視頻的認(rèn)知效果。其總紅色的字表示objects, 藍(lán)色的字表示scenes,綠色的字表示activities。
圖1
人工智能在視頻上的應(yīng)用主要一個(gè)課題是視頻理解,努力解決“語(yǔ)義鴻溝”的問(wèn)題,其中包括了:
視頻結(jié)構(gòu)化分析:即是對(duì)視頻進(jìn)行幀、超幀、鏡頭、場(chǎng)景、故事等分割,從而在多個(gè)層次上進(jìn)行處理和表達(dá)。
目標(biāo)檢測(cè)和跟蹤:如車輛跟蹤,多是應(yīng)用在安防領(lǐng)域。 人物識(shí)別:識(shí)別出視頻中出現(xiàn)的人物。
動(dòng)作識(shí)別:Activity Recognition,識(shí)別出視頻中人物的動(dòng)作。
情感語(yǔ)義分析:即觀眾在觀賞某段視頻時(shí)會(huì)產(chǎn)生什么樣的心理體驗(yàn)。
短視頻、直播視頻中大部分承載的是人物+場(chǎng)景+動(dòng)作+語(yǔ)音的內(nèi)容信息,如圖1所示,如何用有效的特征對(duì)其內(nèi)容進(jìn)行表達(dá)是進(jìn)行該類視頻理解的關(guān)鍵。傳統(tǒng)的手工特征有一大堆,目前效果較好的是iDT(Improved Dense Trajectories) ,在這里就不加討論了。深度學(xué)習(xí)對(duì)圖像內(nèi)容的表達(dá)能力十分不錯(cuò),在視頻的內(nèi)容表達(dá)上也有相應(yīng)的方法。下面介紹最近幾年主流的幾種技術(shù)方法。
1、基于單幀的識(shí)別方法一種最直接的方法就是將視頻進(jìn)行截幀,然后基于圖像粒度(單幀)的進(jìn)行deep learninig 表達(dá), 如圖2所示,視頻的某一幀通過(guò)網(wǎng)絡(luò)獲得一個(gè)識(shí)別結(jié)果。圖2為一個(gè)典型的CNN網(wǎng)絡(luò),紅色矩形是卷積層,綠色是歸一化層,藍(lán)色是池化層 ,黃色是全連接層。然而一張圖相對(duì)整個(gè)視頻是很小的一部分,特別當(dāng)這幀圖沒(méi)有那么的具有區(qū)分度,或是一些和視頻主題無(wú)關(guān)的圖像,則會(huì)讓分類器摸不著頭腦。因此,學(xué)習(xí)視頻時(shí)間域上的表達(dá)是提高視頻識(shí)別的主要因素。當(dāng)然,這在運(yùn)動(dòng)性強(qiáng)的視頻上才有區(qū)分度,在較靜止的視頻上只能靠圖像的特征了。
圖2
它的總體思路是在CNN框架中尋找時(shí)間域上的某個(gè)模式來(lái)表達(dá)局部運(yùn)動(dòng)信息,從而獲得總體識(shí)別性能的提升。圖3是網(wǎng)絡(luò)結(jié)構(gòu),它總共有三層,在第一層對(duì)10幀 (大概三分之一秒)圖像序列進(jìn)行MxNx3xT的卷積(其中 MxN是圖像的分辨率,3是圖像的3個(gè)顏色通道,T取4,是參與計(jì)算的幀數(shù),從而形成在時(shí)間軸上4個(gè)響應(yīng)),在第2、3層上進(jìn)行T=2的時(shí)間卷積,那么在第3層包含了這10幀圖片的所有的時(shí)空信息。該網(wǎng)絡(luò)在不同時(shí)間上的同一層網(wǎng)絡(luò)參數(shù)是共享參數(shù)的。
它的總體精度在相對(duì)單幀提高了2%左右,特別在運(yùn)動(dòng)豐富的視頻,如摔角、爬桿等強(qiáng)運(yùn)動(dòng)視頻類型中有較大幅度的提升,這從而也證明了特征中運(yùn)動(dòng)信息對(duì)識(shí)別是有貢獻(xiàn)的。在實(shí)現(xiàn)時(shí),這個(gè)網(wǎng)絡(luò)架構(gòu)可以加入多分辨的處理方法,可以提高速度。
圖3
這個(gè)其實(shí)就是兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)了,最后再把兩個(gè)模型的結(jié)果平均一下。上面一個(gè)就是普通的單幀的CNN,而且文章當(dāng)中提到了,這個(gè)CNN是在ImageNet的數(shù)據(jù)上pre-train,然后在視頻數(shù)據(jù)上對(duì)最后一層進(jìn)行調(diào)參。下面的一個(gè)CNN網(wǎng)絡(luò),就是把連續(xù)幾幀的光流疊起來(lái)作為CNN的輸入。 另外,它利用multi-task learning來(lái)克服數(shù)據(jù)量不足的問(wèn)題。其實(shí)就是CNN的最后一層連到多個(gè)softmax的層上,對(duì)應(yīng)不同的數(shù)據(jù)集,這樣就可以在多個(gè)數(shù)據(jù)集上進(jìn)行multi-task learning。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4
它的基本思想是用LSTM對(duì)幀的CNN最后一層的激活在時(shí)間軸上進(jìn)行整合。 這里,它沒(méi)有用CNN全連接層后的最后特征進(jìn)行融合,是因?yàn)槿B接層后的高層特征進(jìn)行池化已經(jīng)丟失了空間特征在時(shí)間軸上的信息。相對(duì)于方法2,一方面,它可以對(duì)CNN特征進(jìn)行更長(zhǎng)時(shí)間的融合,不對(duì)處理的幀數(shù)加以上限,從而能對(duì)更長(zhǎng)時(shí)長(zhǎng)的視頻進(jìn)行表達(dá);另一方面,方法2沒(méi)有考慮同一次進(jìn)網(wǎng)絡(luò)的幀的前后順序,而本網(wǎng)絡(luò)通過(guò)LSTM引入的記憶單元,可以有效地表達(dá)幀的先后順序。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5
圖5中紅色是卷積網(wǎng)絡(luò),灰色是LSTM單元,黃色是softmax分類器。LSTM把每個(gè)連續(xù)幀的CNN最后一層卷積特征作為輸入,從左向右推進(jìn)時(shí)間,從下到上通過(guò)5層LSTM,最上的softmax層會(huì)每個(gè)時(shí)間點(diǎn)給出分類結(jié)果。同樣,該網(wǎng)絡(luò)在不同時(shí)間上的同一層網(wǎng)絡(luò)參數(shù)是共享參數(shù)的。在訓(xùn)練時(shí),視頻的分類結(jié)果在每幀都進(jìn)行BP(back Propagation),而不是每個(gè)clip進(jìn)行BP。在BP時(shí),后來(lái)的幀的梯度的權(quán)重會(huì)增大,因?yàn)樵谠酵螅琇STM的內(nèi)部狀態(tài)會(huì)含有更多的信息。
在實(shí)現(xiàn)時(shí),這個(gè)網(wǎng)絡(luò)架構(gòu)可以加入光流特征,可以讓處理過(guò)程容忍對(duì)幀進(jìn)行采樣,因?yàn)槿缑棵胍粠牟蓸右呀?jīng)丟失了幀間所隱含的運(yùn)動(dòng)信息,光流可以作為補(bǔ)償。
5、3維卷積核(3D CNN)法3D CNN 應(yīng)用于一個(gè)視頻幀序列圖像集合,并不是簡(jiǎn)單地把圖像集合作為多通道來(lái)看待輸出多個(gè)圖像(這種方式在卷積和池化后就丟失了時(shí)間域的信息,如圖6上), 而是讓卷積核擴(kuò)展到時(shí)域,卷積在空域和時(shí)域同時(shí)進(jìn)行,輸出仍然是有機(jī)的圖像集合(如圖6下)。
圖6
實(shí)現(xiàn)時(shí),將視頻分成多個(gè)包含16幀的片段作為網(wǎng)絡(luò)的輸入(維數(shù)為3 × 16 × 128 × 171)。池化層的卷積核的尺寸是d x k x k, 第一個(gè)池化層d=1,是為了保證時(shí)間域的信息不要過(guò)早地被融合,接下來(lái)的池化層的d=2。有所卷積層的卷積核大小為3x3x3,相對(duì)其他尺寸的卷積核,達(dá)到了精度最優(yōu),計(jì)算性能最佳。 網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。這個(gè)是學(xué)習(xí)長(zhǎng)度為16幀(采樣后)視頻片段的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。對(duì)于一個(gè)完整的視頻,會(huì)被分割成互相覆蓋8幀的多個(gè)16幀的片段,分別提取他們的fc6特征,然后進(jìn)行一個(gè)簡(jiǎn)單平均獲得一個(gè)4096維的向量作為整個(gè)視頻的特征。
圖7
通過(guò)可視化最后一個(gè)卷積層對(duì)一個(gè)連續(xù)幀序列的特征表達(dá),可以發(fā)現(xiàn),在特征開(kāi)始著重表達(dá)了畫面的信息,在特征的后面著重表達(dá)的是運(yùn)動(dòng)信息,即在運(yùn)動(dòng)處有相對(duì)顯著的特征。如圖8。
圖8
和單幀圖特征在視頻測(cè)試集上進(jìn)行對(duì)比,3D CNN有更強(qiáng)的區(qū)分度,如圖9。
圖9
阿里聚安全內(nèi)容安全(阿里綠網(wǎng))基于深度學(xué)習(xí)技術(shù)及阿里巴巴多年的海量數(shù)據(jù)支撐, 提供多樣化的內(nèi)容識(shí)別服務(wù),能有效幫助用戶降低違規(guī)風(fēng)險(xiǎn)。其產(chǎn)品包括:ECS站點(diǎn)檢測(cè)服務(wù)、OSS圖片鑒黃服務(wù)、內(nèi)容檢測(cè)API服務(wù)。針對(duì)多媒體內(nèi)容中的違規(guī)視頻內(nèi)容,綠網(wǎng)致力于提供一整套內(nèi)容安全的垂直視頻解決方案。以下是一些諸如圖像識(shí)別,視頻識(shí)別(人物動(dòng)作識(shí)別)公開(kāi)的訓(xùn)練、評(píng)測(cè)數(shù)據(jù)集。
UCF-101
一共13320個(gè)視頻, 共101個(gè)類別。
HMDB51
一共7000個(gè)視頻片段,共51個(gè)類別。
activity-net
200類,10,024個(gè)訓(xùn)練視頻,4,926個(gè)交叉驗(yàn)證視頻,5,044 個(gè)測(cè)試視頻。
1M sport
1.2 million個(gè)體育視頻,有487個(gè)已標(biāo)記的類,每類有1000到3000個(gè)視頻。
[1] Large-scale Video Classification with Convolutional Neural Networks
[2] Two-stream convolutional networks for action recognition in videos
[3] Beyond Short Snippets: Deep Networks for Video Classification
[4] Learning Spatiotemporal Features with 3D Convolutional Networks
[5] https://clarifai.com/
作者:析策@阿里安全,更多技術(shù)文章,請(qǐng)?jiān)L問(wèn)阿里聚安全博客
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/19601.html
摘要:在每一層學(xué)習(xí)到的結(jié)果表示作為下一層的輸入用監(jiān)督訓(xùn)練來(lái)調(diào)整所有層加上一個(gè)或者更多的用于產(chǎn)生預(yù)測(cè)的附加層當(dāng)前,國(guó)外在這方面的研究就是三分天下的局面,的與微軟合作,的和合作,以及的計(jì)算機(jī)科學(xué)家和。深度學(xué)習(xí)的入門材料。 轉(zhuǎn)載自:http://doctorimage.cn/2013/01/04/%e5%85%b3%e4%ba%8e%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0...
摘要:行為識(shí)別包含兩個(gè)研究方向個(gè)體行為識(shí)別與群體行為事件識(shí)別。同時(shí),隨著行人智能分析與群體事件感知的需求與日俱增,一系列行為分析與事件識(shí)別算法在深度學(xué)習(xí)技術(shù)的推動(dòng)下應(yīng)運(yùn)而生。 行為識(shí)別是指通過(guò)分析視頻、深度傳感器等數(shù)據(jù),利用特定的算法,對(duì)行人的行為進(jìn)行識(shí)別、分析的技術(shù)。這項(xiàng)技術(shù)被廣泛應(yīng)用在視頻分類、人機(jī)交互、安防監(jiān)控等領(lǐng)域。行為識(shí)別包含兩個(gè)研究方向:個(gè)體行為識(shí)別與群體行為(事件)識(shí)別。近年來(lái),深度...
摘要:就在最近,這項(xiàng)技術(shù)在流行地?zé)o監(jiān)督學(xué)習(xí)數(shù)據(jù)集上實(shí)現(xiàn)了非常好的結(jié)果。雖然這項(xiàng)工作并不針對(duì)無(wú)監(jiān)督學(xué)習(xí),但是它可以用作無(wú)監(jiān)督學(xué)習(xí)。利用替代類別的無(wú)監(jiān)督學(xué)習(xí)視覺(jué)表征使用圖像不行來(lái)創(chuàng)建非常大的替代類。 如今深度學(xué)習(xí)模型都需要在大規(guī)模的監(jiān)督數(shù)據(jù)集上訓(xùn)練。這意味著對(duì)于每一個(gè)數(shù)據(jù),都會(huì)有一個(gè)與之對(duì)應(yīng)的標(biāo)簽。在很流行的 ImageNet 數(shù)據(jù)集中,其共有一百萬(wàn)張帶人工標(biāo)注的圖片,即 1000 類中的每一類都有 ...
閱讀 2473·2021-11-22 15:35
閱讀 3763·2021-11-04 16:14
閱讀 2694·2021-10-20 13:47
閱讀 2504·2021-10-13 09:49
閱讀 2074·2019-08-30 14:09
閱讀 2375·2019-08-26 13:49
閱讀 885·2019-08-26 10:45
閱讀 2774·2019-08-23 17:54