摘要:是針對語義分割任務提出的模型,主要使用深度卷積網絡條件隨機場,空洞卷積做像素級預測。在語義分割中存在兩個主要問題下采樣帶來的分辨率下降,細節信息丟失平移不變性,限制了定位精度針對以上問題,采用空洞卷積擴大感受野,獲取更多的上下文信息。
背景
對圖像而言,常見的任務是:
圖像分類:提取類別特征,如:VGG19網絡
目標檢測:提取類別,位置特征,如:YOLO網絡
語義分割(實例分割):提取類別,位置特征,針對每個像素,如:Deeplab網絡
我們知道,在做圖像分類的時候,一般會在模型的最后添加全連接層+softmax用于預測。但是,全連接層會把卷積學習到的類別,位置特征抽象成一維的概率信息,可以識別整個圖片的類別,不能標識每個像素的類別。因此,為了保留圖像特征我們將全連接層替換為卷積層。
這樣,模型的輸出不再是一維,而是二維的圖。
由于特征圖經過一系列的卷積和池化后(保持特征不變性,增大感受野,節省計算資源等)造成分辨率降低,丟失大量細節和邊緣信息,因此我們需要通過一定的手段還原原圖分辨率。
不同的模型會采取不同的還原方式,圖上以FCN為例,采用反卷積還原分辨率并使用加和的方式找回下采樣階段丟失的信息,直接把編碼階段的特征圖加到解碼階段中來。
基石FCN模型FCN闡釋了如何將CNN應用到語義分割問題上,是深度學習應用此問題的基石。
文章開始,我們談到模型最后的全連接層不適用與分割任務,需要替換成卷積層,以此獲取二維的特征圖然后接softmax,對每個像素點進行分類。
先通過卷積,池化下采樣,然后上采樣還原分辨率。上采樣一般有兩種方式:雙線性插值(Deeplab),反卷積(FCN)。
DeepLab是針對語義分割任務提出的模型,主要使用DCNN(深度卷積網絡),CRF(條件隨機場),空洞卷積做像素級預測。DCNN在語義分割中存在兩個主要問題:
下采樣帶來的分辨率下降,細節信息丟失
平移不變性,限制了定位精度
針對以上問題,Deeplab采用空洞卷積擴大感受野,獲取更多的上下文信息。使用全連接條件隨機場(DenseCRF)提高模型捕獲細節的能力。
DCNN以VGG16模型為后端網絡,將FC層全部轉為卷積層,改成全卷積網絡形式。最后的兩個池化層不下采樣,通過2或4的采樣率空洞卷積對特征圖擴大感受野,縮小步幅。
模型訓練的時候講VGG16的權重做微調,損失函數取輸出特征圖ground truth下采樣8倍做交叉熵和;測試時取輸出圖雙線性上采樣得到的結果(DCNN預測物體的位置是粗略的,沒有確切的輪廓,針對此問題采用全連接的CRF提升分割精度)。
DeepLab v2相比DeepLab v1基礎層由VGG16改為ResNet,添加多尺度和ASPP模塊得到更好的分割結果。
空洞卷積作為密集預測的強大工具,可以擴大感受野,在不增加參數量和計算量的同時獲取更多的上下文。
提出ASPP(空洞空間卷積池化金字塔),并行的采用多采樣率的空洞卷積進行探測,以多個比例捕獲對象及圖像上下文。
組合DCNN和概率模型,改善分割邊界結果。
模型運行步驟:
輸入經過改進的DCNN(帶空洞卷積和ASPP模塊)
通過雙線性插值恢復原圖大小(FCN采用反卷積)
通過全連接的CRF細化預測結果,得到最終輸出
Google DeepLab v3DeepLab v3相比DeepLab v2:
重新討論了空洞卷積的使用,讓我們在級聯模塊和空間金字塔池化的框架下,能夠獲取更大的感受野從而獲取多尺度信息。
改進ASPP模塊,由不同采樣率的空洞卷積和BN層組成。
使用大采樣率的3x3空洞卷積,因為圖像邊界響應無法捕獲遠距離信息,會退化為1x1卷積,因此將圖像級特征融合到ASPP模塊。
沒有使用CRF做后期優化處理
Google DeepLab v3+
DeepLab v3+采用編碼器,解碼器結構,通過使用解碼器模塊改善物體邊緣的分割結果,還嘗試使用Xception作為編碼器。
如圖所示,空間金字塔池化可以池化不同分辨率的特征圖來捕獲上下文信息。編碼器解碼器結構可以捕獲鋒利的邊界。先4倍上采樣,然后與編碼器中的特征圖合并,最后4倍上采樣恢復到原始圖像大小。
encoder就是DeepLab V3,通過修改ResNet101最后兩(一)個block的stride,使得output stride為8(16)。之后在block4后應用改進后的Atrous Spatial Pyramid Pooling,將所得的特征圖concatenate用1×1的卷積得到256個通道的特征圖。
在decoder中,特征圖首先上采樣4倍,然后與encoder中對應分辨率低級特征concatenate。在concatenate之前,由于低級特征圖的通道數通常太多(256或512),而從encoder中得到的富含語義信息的特征圖通道數只有256,這樣會淡化語義信息,因此在concatenate之前,需要將低級特征圖通過1×1的卷積減少通道數。在concatenate之后用3×3的卷積改善特征,最后上采樣4倍恢復到原始圖像大小。
U-Net網絡可以利用較少的數據集進行端到端訓練,醫學領域應用較多(醫學領域的標注數據獲取成本很高)。
為了更有效的利用標注數據,采用數據增強的方法(訓練樣本進行隨機彈性形變)
網絡由收縮路徑獲取上下文信息以及一個對稱的擴張路徑用以精確定位。
如圖所示,網絡結構由contracting path和expansive path組成。
contracting:
含有重復結構,每個都有2個3x3卷積層,relu層和2x2最大池化層
每一次下采樣都將特征通道數加倍
expansive path:
每一步都使用反卷積,每次反卷積后將通道數量減半,特征圖大小加倍。
反卷積后,將反卷積的結果與contracting path中對應的步驟的特征圖拼接起來
對拼接后的map再進行2次3*3卷積
最后一層卷積核大小為1x1,將64通道的特征圖轉為特定類別數量
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19989.html
摘要:一時之間,深度學習備受追捧。百度等等公司紛紛開始大量的投入深度學習的應用研究。極驗驗證就是將深度學習應用于網絡安全防御,通過深度學習建模學習人類與機器的行為特征,來區別人與機器,防止惡意程序對網站進行垃圾注冊,撞庫登錄等。 2006年Geoffery ?Hinton提出了深度學習(多層神經網絡),并在2012年的ImageNet競賽中有非凡的表現,以15.3%的Top-5錯誤率奪魁,比利用傳...
摘要:對批處理表的查詢不支持,和很多中常見的標量函數。此外,可以同時在靜態表和流表上進行查詢,這和的愿景是一樣的,將批處理看做特殊的流處理批看作是有限的流。最后,使用標準進行流處理意味著有很多成熟的工具支持。查詢結果直接顯示在中。 從何而來 關系型API有很多好處:是聲明式的,用戶只需要告訴需要什么,系統決定如何計算;用戶不必特地實現;更方便優化,可以執行得更高效。本身Flink就是一個統一...
閱讀 1829·2023-04-26 02:51
閱讀 2861·2021-09-10 10:50
閱讀 3058·2021-09-01 10:48
閱讀 3618·2019-08-30 15:53
閱讀 1823·2019-08-29 18:40
閱讀 411·2019-08-29 16:16
閱讀 2035·2019-08-29 13:21
閱讀 1822·2019-08-29 11:07