国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[ResNet系] 005 DenseNet

CODING / 3210人閱讀

摘要:將這些需要保留的信息直接通過恒等映射進行傳輸,展示了中的很多層對最終的結果影響極小,可以在訓練時隨機丟棄部分層。得益于密集連接的方式,可以同時具有恒等映射深度監督和深度多樣性的特性。

DenseNet

Densely Connected Convolutional Networks
Gao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens van der Maaten

Caffe實現:https://github.com/binLearnin...

摘要

近期的一些工作表明,如果在網絡層之間加上快捷連接(shorter connections),那么卷積網絡可以設計得更深層、取得更高的準確率、訓練也更高效。本文提出一種密集卷積網絡(Dense Convolutional Network,DenseNet),網絡中的層會與它之前的所有層直接連接。具有L層的傳統卷積網絡中有L條連接,而DenseNet中有L(L+1)/2條直接連接線路。對于網絡中的每一層,在它之前的所有層所生成的特征圖(feature-maps)都會作為該層的輸入。DenseNet的優點有:緩解梯度消失問題,增強特征在網絡中的傳輸,特征可重復利用,大幅降低網絡參數數量。我們在四個benchmark數據集(CIFAR-10,CIFAR-100,SVHN and ImageNet)上評估網絡性能,DenseNet相比于之前的大多數先進網絡都有較大提升。官方實現(Caffe)的源碼地址:https://github.com/liuzhuang1... 。

1. Introduction

CNN在最近才真正是“深度”網絡,Hightway Networks和ResNet是最早突破100層的網絡架構。隨著網絡深度的增加,一個新問題出現了:輸入的信息或者反傳的梯度在經過多個網絡層之后可能會消失。最近的多項工作都可以用來解決這個問題,比如ResNet、Hightway Networks、隨機深度的ResNet、FractalNet等,這些網絡架構都有一個共同點:層之間都有直連的線路。
本文提出一種新的連接方式:為了最大化網絡層間的信息傳輸,所有層(具有相同特征圖空間尺寸)均加上快捷連接,如圖1所示。

ResNet使用加法操作來連接不同分支的輸出,而DenseNet使用沿通道維度串聯的方式來整合輸出。由于這種密集的連接方式,我們稱本文的網絡為Dense Convolutional Network(DenseNet)。
DenseNet需要的參數規模比傳統的卷積網絡更小,這是因為它不需要重新學習那些冗余的特征圖。傳統的前饋架構可以視作帶狀態的算法,狀態在層間進行傳遞。每一層都會對狀態做一些變化,但也會保留一些必要的信息。ResNet將這些需要保留的信息直接通過恒等映射進行傳輸,deep networks with stochastic depth展示了ResNet中的很多層對最終的結果影響極小,可以在訓練時隨機丟棄部分層。如此一來ResNet中的狀態和(展開的)RNN就很相似,但是ResNet中每一層的參數不是共享的,所以中的參數量要大得多。DenseNet將每一層新添加的信息和需要保留的信息區分開來。DenseNet中的層可以很精簡(比如每一層只產生12個特征圖),每層只添加少量的特征圖到網絡的“集體知識(collective knowledge)”中,其余的特征圖保存不變,分類器最終的決策依賴于網絡中的所有特征圖。
除了對參數的有效利用之外,DenseNet還有一個很大的優點,它可以改進信息和梯度在網絡中的傳輸,使得網絡更易于優化。每一層都可以直接得到損失函數的梯度以及原始的輸入信號,就像隱式的深度監督(deep supervision)。這有助于訓練更深層的網絡。另外我們還發現密集連接有一定的正則化效果,在訓練集規模比較小時可以避免過擬合。

2. Related Work

FCN等網絡通過快捷連接(skip-connnection)將網絡中的多級特征進行組合,可有效提升網絡性能。AdaNet也提出一種跨層連接的網絡架構。Highway Network是第一個可以有效訓練超過100層的網絡結構。ResNet將Highway Network中的門限分路直接改為恒等映射,在多個計算機視覺領域取得極大的性能提升。隨機深度ResNet通過隨機丟棄部分層來改進訓練過程,成功訓練了超過1000層的網絡,這個工作說明并不是所有層都是必須的,也就是說深度殘差網絡中存在著大量冗余,DenseNet的部分靈感來自于這個觀察。預激活(pre-activation)的ResNet-v2也可以訓練出超過1000層的網絡。
除了增加網絡深度外,還有一些網絡是從增加網絡寬度入手。GoogLeNet中的Inception模塊將不同尺寸卷積核產生的特征圖相連接作為輸出。Resnet in Resnet (RiR)提出了一種更寬的殘差block。Wide Residual Networks(WRN)展示了只要殘差網絡深度足夠,通過簡單的每層的增加濾波器數量就可以提高網絡性能。FractalNet使用更寬的網絡結構也取得了很好的效果。
不同于從極深/寬的網絡中獲取更強的表示能力,DenseNet致力于探索特征重復使用(feature reuse)的潛力,同時使用精簡的網絡,使得模型更易于優化并且具有很高的參數利用率。連接不同層所產生的特征圖可以增加后續層輸入的多樣性并提高效率,這是與ResNet最大的不同之處。Inception網絡也是連接不同層所產生的特征圖,但是DenseNet更加簡單高效。
還有一些網絡架構也有很好的性能,比如Network in Network (NIN)、Deeply Supervised Network (DSN)、Ladder Networks、Deeply-Fused Nets (DFNs)等。

3. DenseNets

ResNets
ResNet在層間中加入一個恒等映射的快捷連接:

ResNet的優點是后面層中的梯度可以通過恒等函數直接傳輸到前面的層。但是 ResNet中恒等連接的輸出與殘差函數的輸出通過加法操作進行連接,可能會影響網絡中的信息流動
DenseNet
DenseNet中的每一層與它所有的后續層都有直接連接,如圖1所示,也就是說每一層的輸入包含它之前所有層所產生的特征圖:

為了便于實現,將公式(2)中的輸入連接為一個多帶帶的張量。
Composite function
與ResNet-v2中一樣,殘差函數由單個連續操作組成:batch normalization (BN),rectified linear unit (ReLU),3×3 convolution (Conv)。
Pooling layers
DenseNet將網絡分為多個密集連接的dense block,如圖2所示,每個block之間加入一個transition layer用于改變特征圖尺寸,transition layer由batch normalization (BN),1x1 convolution (Conv),2×2 average pooling組成。

Growth rate
引入一個新的超參數growth rate,表示每個殘差函數H產生的特征圖數量,本文中以k表示。為了防止網絡太寬并提高參數利用率,k的取值不應太大,一般12,16即可。可以將特征圖視為網絡的全局狀態,每層都會新添加k個特征圖,那么growth rate就可以控制每一層可以向全局狀態中添加多少新的信息。
Bottleneck layers
雖然每一層只產生k個特征圖,但加起來的總量是很可觀的,導致后續層的輸入量太大。本文使用bottleneck layer(1x1-3x3-1x1)來解決這一問題。第一個1x1卷積層可以減少輸入特征圖的數量,以此來提高計算效率。本文將使用了bottleneck layer的模型表示為DenseNet-B。除非另有說明,本文所有bottleneck layer中的第一個1x1卷積層將輸入特征圖減少到4k個。
Compression
為了進一步精簡網絡,在transition layer中也減少一定比例的特征圖,本文中設置該比例為0.5也就是減少一半的特征圖。本文將同時使用Bottleneck layers和Compression的模型表示為DenseNet-BC。
Implementation Details
具體見表1。

4. Experiments 4.3 Classification Results on CIFAR and SVHN

結果見表2。

Accuracy
250層DenseNet-BC在SVHN上的表現不佳,可能是因為SVHN相對比較簡單,極深層的網絡出現了過擬合的現象。
Capacity
DenseNet隨著L和k的增大性能也持續提升,說明DenseNet可以加深/寬來提高表示能力,也可以看出DenseNet沒有出現過擬合或者優化困難的現象。
Parameter Efficiency
DenseNet的參數利用率比其他模型更高,尤其是DenseNet-BC。
Overfitting
參數利用率高的一個正面影響就是DenseNet不易發生過擬合現象,DenseNet-BC也可以避免過擬合。

4.4 Classification Results on ImageNet

與ResNet的比較見圖3。

5. Discussion

Model compactness
DenseNet可以重復利用前面層的特征圖,并且使用更加精簡的模型。圖4展示了不同網絡的參數使用率。從圖中可以看出,DenseNet-BC是參數利用率最高的模型。這個結果也符合圖3中的趨勢。圖4-right顯示了只有0.8M可訓練參數的DenseNet-BC性能可以匹敵包含10.2M參數的1001層ResNet。

Implicit Deep Supervision
DenseNet性能的提升也可能得益于隱式的深度監督機制,每一層都可以通過快捷連接直接從損失函數層得到梯度(額外的監督信號)。deeply-supervised nets (DSN)中解釋了深度監督的優勢,相比較而言DenseNet中的監督信號更加簡單,所有層都是從同一個損失函數層接收梯度。
Stochastic vs. deterministic connection
DenseNet在一定程度上受到了隨機深度ResNet的啟發。
Feature Reuse
DenseNet中的每一層可以接收到它之前的所有層所產生的特征圖(有時要經過transition layers)。為了驗證網絡是否受益于該機制,針對同一block中的每一層,計算該層與它前面s層輸出上的權值的絕對值均值,圖5展示了三個dense block中每一層的情況,權值的絕對值均值可以考察該層對之前層的依賴程度。

從圖5中可以看出:
1.同一block中的每一層在多個輸入上都有權值。這說明在同一個block中,最早期提取的特征也會被最后的層直接利用到。
2.transition layers在幾乎所有輸入上都有權值。這說明DenseNet網絡中第一層的信息也可以間接傳輸到最后一層。
3.第二和第三個block中的層都在前面transition layers產生的特征上分配了最少的權重。這說明transition layers的輸出中有很多冗余特征,DenseNet-BC通過壓縮這些輸出獲得了更好的性能也說明了這一點。
4.最終的分類層更多的利用了最后的一些特征圖,這可能是因為最后部分的層會生成更高層的特征(更具有區分能力)。

6. Conclusion

本文提出了一種新的卷積網絡架構——Dense Convolutional Network (DenseNet),同一個block中的所有層互聯。DenseNet參數規模更小,計算復雜度更低,但在多個任務上取得了最佳的結果。
得益于密集連接的方式,DenseNet可以同時具有恒等映射(identity mapping)、深度監督(deep supervision)和深度多樣性(diversified depth)的特性。DenseNet可以重復利用網絡中的特征,學習到更簡潔、準確率更高的模型。由于它內部表示的簡潔以及對冗余特征的縮減,DenseNet可以在多種計算機視覺任務中作為特征提取器。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19657.html

相關文章

  • [ResNet] 006 DPN

    摘要:和是兩個非常重要的網絡,它們顯示了深層卷積神經網絡的能力,并且指出使用極小的卷積核可以提高神經網絡的學習能力。也有工作考察與的關系,與其相似,本文考察了與的關系。與的網絡架構配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

    plus2047 評論0 收藏0
  • [ResNet] 007 SENet

    摘要:前面層中的以類別無關的方式增強可共享的低層表示的質量。通過調整網絡各層間的連接機制來提升深層網絡的學習和表示性能。基本都是常規處理和訓練設置。根據輸入動態調整各通道的特征,增強網絡的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經網絡顧名思義就是依賴卷積操作,使用局部感受區域(loc...

    huashiou 評論0 收藏0
  • 從DensNet到CliqueNet,解讀北大在卷積架構上的探索

    摘要:首先第一種當然是在年提出的,它奠定了整個卷積神經網絡的基礎。其中局部感受野表示卷積核只關注圖像的局部特征,而權重共享表示一個卷積核在整張圖像上都使用相同的權值,最后的子采樣即我們常用的池化操作,它可以精煉抽取的特征。 近日,微軟亞洲研究院主辦了一場關于 CVPR 2018 中國論文分享會,機器之心在分享會中發現了一篇非常有意思的論文,它介紹了一種新型卷積網絡架構,并且相比于 DenseNet...

    Jackwoo 評論0 收藏0

發表評論

0條評論

CODING

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<