目標(biāo)檢測算法綜述（2）︱單次目標(biāo)檢測器︱CV︱機(jī)器視覺

Doyle 發(fā)布于2019-04-25 18:26 / 1868人閱讀

摘要：我們可以通過在特征圖上滑動窗口來檢測目標(biāo)。以前的滑動窗口方法的致命錯誤在于使用窗口作為最終的邊界框，這就需要非常多的形狀來覆蓋大部分目標(biāo)。更有效的方法是將窗口當(dāng)做初始猜想，這樣我們就得到了從當(dāng)前滑動窗口同時預(yù)測類別和邊界框的檢測器。

單次檢測器

Faster R-CNN 中，在分類器之后有一個專用的候選區(qū)域網(wǎng)絡(luò)。

Faster R-CNN 工作流

基于區(qū)域的檢測器是很準(zhǔn)確的，但需要付出代價。Faster R-CNN 在 PASCAL VOC 2007 測試集上每秒處理 7 幀的圖像（7 FPS）。和 R-FCN 類似，研究者通過減少每個 ROI 的工作量來精簡流程。

作為替代，我們是否需要一個分離的候選區(qū)域步驟？我們可以直接在一個步驟內(nèi)得到邊界框和類別嗎？

讓我們再看一下滑動窗口檢測器。我們可以通過在特征圖上滑動窗口來檢測目標(biāo)。對于不同的目標(biāo)類型，我們使用不同的窗口類型。以前的滑動窗口方法的致命錯誤在于使用窗口作為最終的邊界框，這就需要非常多的形狀來覆蓋大部分目標(biāo)。更有效的方法是將窗口當(dāng)做初始猜想，這樣我們就得到了從當(dāng)前滑動窗口同時預(yù)測類別和邊界框的檢測器。

基于滑動窗口進(jìn)行預(yù)測

這個概念和 Faster R-CNN 中的錨點(diǎn)很相似。然而，單次檢測器會同時預(yù)測邊界框和類別。例如，我們有一個 8 × 8 特征圖，并在每個位置做出 k 個預(yù)測，即總共有 8 × 8 × k 個預(yù)測結(jié)果。

64 個位置

在每個位置，我們有 k 個錨點(diǎn)（錨點(diǎn)是固定的初始邊界框猜想），一個錨點(diǎn)對應(yīng)一個特定位置。我們使用相同的錨點(diǎn)形狀仔細(xì)地選擇錨點(diǎn)和每個位置。

使用 4 個錨點(diǎn)在每個位置做出 4 個預(yù)測。

以下是 4 個錨點(diǎn)（綠色）和 4 個對應(yīng)預(yù)測（藍(lán)色），每個預(yù)測對應(yīng)一個特定錨點(diǎn)。

4 個預(yù)測，每個預(yù)測對應(yīng)一個錨點(diǎn)。

在 Faster R-CNN 中，我們使用卷積核來做 5 個參數(shù)的預(yù)測：4 個參數(shù)對應(yīng)某個錨點(diǎn)的預(yù)測邊框，1 個參數(shù)對應(yīng) objectness 置信度得分。因此 3× 3× D × 5 卷積核將特征圖從 8 × 8 × D 轉(zhuǎn)換為 8 × 8 × 5。

使用 3x3 卷積核計算預(yù)測。

在單次檢測器中，卷積核還預(yù)測 C 個類別概率以執(zhí)行分類（每個概率對應(yīng)一個類別）。因此我們應(yīng)用一個 3× 3× D × 25 卷積核將特征圖從 8 × 8 × D 轉(zhuǎn)換為 8 × 8 × 25（C=20）。

每個位置做出 k 個預(yù)測，每個預(yù)測有 25 個參數(shù)。

單次檢測器通常需要在準(zhǔn)確率和實(shí)時處理速度之間進(jìn)行權(quán)衡。它們在檢測太近距離或太小的目標(biāo)時容易出現(xiàn)問題。在下圖中，左下角有 9 個圣誕老人，但某個單次檢測器只檢測出了 5 個。

SSD

SSD 是使用 VGG19 網(wǎng)絡(luò)作為特征提取器（和 Faster R-CNN 中使用的 CNN 一樣）的單次檢測器。我們在該網(wǎng)絡(luò)之后添加自定義卷積層（藍(lán)色），并使用卷積核（綠色）執(zhí)行預(yù)測。

同時對類別和位置執(zhí)行單次預(yù)測。

然而，卷積層降低了空間維度和分辨率。因此上述模型僅可以檢測較大的目標(biāo)。為了解決該問題，我們從多個特征圖上執(zhí)行獨(dú)立的目標(biāo)檢測。

使用多尺度特征圖用于檢測。

以下是特征圖圖示。

圖源：https://arxiv.org/pdf/1512.02325.pdf

SSD 使用卷積網(wǎng)絡(luò)中較深的層來檢測目標(biāo)。如果我們按接近真實(shí)的比例重繪上圖，我們會發(fā)現(xiàn)圖像的空間分辨率已經(jīng)被顯著降低，且可能已無法定位在低分辨率中難以檢測的小目標(biāo)。如果出現(xiàn)了這樣的問題，我們需要增加輸入圖像的分辨率。

YOLO

YOLO 是另一種單次目標(biāo)檢測器。YOLO 在卷積層之后使用了 DarkNet 來做特征檢測。

然而，它并沒有使用多尺度特征圖來做獨(dú)立的檢測。相反，它將特征圖部分平滑化，并將其和另一個較低分辨率的特征圖拼接。例如，YOLO 將一個 28 × 28 × 512 的層重塑為 14 × 14 × 2048，然后將它和 14 × 14 ×1024 的特征圖拼接。之后，YOLO 在新的 14 × 14 × 3072 層上應(yīng)用卷積核進(jìn)行預(yù)測。

YOLO（v2）做出了很多實(shí)現(xiàn)上的改進(jìn)，將 mAP 值從第一次發(fā)布時的 63.4 提高到了 78.6。YOLO9000 可以檢測 9000 種不同類別的目標(biāo)。

圖源：https://arxiv.org/pdf/1612.08242.pdf

以下是 YOLO 論文中不同檢測器的 mAP 和 FPS 對比。YOLOv2 可以處理不同分辨率的輸入圖像。低分辨率的圖像可以得到更高的 FPS，但 mAP 值更低。

圖源：https://arxiv.org/pdf/1612.08242.pdf

YOLOv3

YOLOv3 使用了更加復(fù)雜的骨干網(wǎng)絡(luò)來提取特征。DarkNet-53 主要由 3 × 3 和 1× 1 的卷積核以及類似 ResNet 中的跳過連接構(gòu)成。相比 ResNet-152，DarkNet 有更低的 BFLOP（十億次浮點(diǎn)數(shù)運(yùn)算），但能以 2 倍的速度得到相同的分類準(zhǔn)確率。

圖源：https://pjreddie.com/media/files/papers/YOLOv3.pdf

YOLOv3 還添加了特征金字塔，以更好地檢測小目標(biāo)。以下是不同檢測器的準(zhǔn)確率和速度的權(quán)衡。

圖源：https://pjreddie.com/media/files/papers/YOLOv3.pdf

特征金字塔網(wǎng)絡(luò)（FPN）

檢測不同尺度的目標(biāo)很有挑戰(zhàn)性，尤其是小目標(biāo)的檢測。特征金字塔網(wǎng)絡(luò)（FPN）是一種旨在提高準(zhǔn)確率和速度的特征提取器。它取代了檢測器（如 Faster R-CNN）中的特征提取器，并生成更高質(zhì)量的特征圖金字塔。

數(shù)據(jù)流

FPN（圖源：https://arxiv.org/pdf/1612.03144.pdf）

FPN 由自下而上和自上而下路徑組成。其中自下而上的路徑是用于特征提取的常用卷積網(wǎng)絡(luò)?？臻g分辨率自下而上地下降。當(dāng)檢測到更高層的結(jié)構(gòu)，每層的語義值增加。

FPN 中的特征提?。ň庉嬜栽撐模?/p>

SSD 通過多個特征圖完成檢測。但是，最底層不會被選擇執(zhí)行目標(biāo)檢測。它們的分辨率高但是語義值不夠，導(dǎo)致速度顯著下降而不能被使用。SSD 只使用較上層執(zhí)行目標(biāo)檢測，因此對于小的物體的檢測性能較差。

圖像修改自論文 https://arxiv.org/pdf/1612.03144.pdf

FPN 提供了一條自上而下的路徑，從語義豐富的層構(gòu)建高分辨率的層。

自上而下重建空間分辨率（編輯自原論文）

雖然該重建層的語義較強(qiáng)，但在經(jīng)過所有的上采樣和下采樣之后，目標(biāo)的位置不較精確。在重建層和相應(yīng)的特征圖之間添加橫向連接可以使位置偵測更加準(zhǔn)確。

增加跳過連接（引自原論文）

下圖詳細(xì)說明了自下而上和自上而下的路徑。其中 P2、P3、P4 和 P5 是用于目標(biāo)檢測的特征圖金字塔。

FPN 結(jié)合 RPN

FPN 不單純是目標(biāo)檢測器，還是一個目標(biāo)檢測器和協(xié)同工作的特征檢測器。分別傳遞到各個特征圖（P2 到 P5）來完成目標(biāo)檢測。

FPN 結(jié)合 Fast R-CNN 或 Faster R-CNN

在 FPN 中，我們生成了一個特征圖的金字塔。用 RPN（詳見上文）來生成 ROI。基于 ROI 的大小，我們選擇最合適尺寸的特征圖層來提取特征塊。

困難案例

對于如 SSD 和 YOLO 的大多數(shù)檢測算法來說，我們做了比實(shí)際的目標(biāo)數(shù)量要多得多的預(yù)測。所以錯誤的預(yù)測比正確的預(yù)測要更多。這產(chǎn)生了一個對訓(xùn)練不利的類別不平衡。訓(xùn)練更多的是在學(xué)習(xí)背景，而不是檢測目標(biāo)。但是，我們需要負(fù)采樣來學(xué)習(xí)什么是較差的預(yù)測。所以，我們計算置信度損失來把訓(xùn)練樣本分類。選取較好的那些來確保負(fù)樣本和正樣本的比例最多不超過 3:1。這使訓(xùn)練更加快速和穩(wěn)定。

推斷過程中的非極大值抑制

檢測器對于同一個目標(biāo)會做出重復(fù)的檢測。我們利用非極大值抑制來移除置信度低的重復(fù)檢測。將預(yù)測按照置信度從高到低排列。如果任何預(yù)測和當(dāng)前預(yù)測的類別相同并且兩者 IoU 大于 0.5，我們就把它從這個序列中剔除。

Focal Loss（RetinaNet）

類別不平衡會損害性能。SSD 在訓(xùn)練期間重新采樣目標(biāo)類和背景類的比率，這樣它就不會被圖像背景淹沒。Focal loss（FL）采用另一種方法來減少訓(xùn)練良好的類的損失。因此，只要該模型能夠很好地檢測背景，就可以減少其損失并重新增強(qiáng)對目標(biāo)類的訓(xùn)練。我們從交叉熵?fù)p失 CE 開始，并添加一個權(quán)重來降低高可信度類的 CE。

例如，令 γ = 0.5, 經(jīng)良好分類的樣本的 Focal loss 趨近于 0。

編輯自原論文

這是基于 FPN、ResNet 以及利用 Focal loss 構(gòu)建的 RetianNet。

原文鏈接

https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

https://medium.com/@jonathan_hui/what-do-we-learn-from-single-shot-object-detectors-ssd-yolo-fpn-focal-loss-3888677c5f4d

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器目標(biāo)檢測目標(biāo)檢測圖像識別目標(biāo)檢測數(shù)據(jù)集圖像識別中的目標(biāo)檢測

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4762.html

發(fā)表評論

登陸后可評論

0條評論

Doyle

男|高級講師

我要關(guān)注我要私信

TA的文章

Java設(shè)計模式之（二）——工廠模式

閱讀 3032·2021-11-18 10:07
數(shù)據(jù)庫平滑遷移方案與實(shí)踐分享

閱讀 3782·2021-11-17 17:00
iONcloud十一月：圣何塞優(yōu)化/洛杉磯月付11.11美元年付111.1美元

閱讀 2113·2021-11-15 18:01
身價過億的女總裁對小碼農(nóng)說你按鍵會了嗎

閱讀 938·2021-10-11 10:58
??Python實(shí)用工具之制作證件照（有界面、附源碼、贊關(guān)藏）??

閱讀 3394·2021-09-10 10:50
hncloud，中國香港云服務(wù)器測評分享，BGP國際多線+雙向CN2極速直連

閱讀 3468·2021-08-13 15:05
css盒子模型

閱讀 1237·2019-08-30 15:53
移動端軟鍵盤彈出時文本輸入框下沉、獲取焦點(diǎn)并彈出軟鍵盤

閱讀 2659·2019-08-29 13:01

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

目標(biāo)檢測算法綜述（2）︱單次目標(biāo)檢測器︱CV︱機(jī)器視覺

相關(guān)文章

**10分鐘學(xué)會使用YOLO及Opencv實(shí)現(xiàn)目標(biāo)檢測（下）|附源碼**

**增加檢測類別？這是一份目標(biāo)檢測的基礎(chǔ)指南**

深度學(xué)習(xí)-LeCun、Bengio和Hinton的聯(lián)合綜述（上）

深度學(xué)習(xí)綜述

發(fā)表評論

0條評論

Doyle

男|高級講師

TA的文章

Java設(shè)計模式之（二）——工廠模式

數(shù)據(jù)庫平滑遷移方案與實(shí)踐分享

iONcloud十一月：圣何塞優(yōu)化/洛杉磯月付11.11美元年付111.1美元

身價過億的女總裁對小碼農(nóng)說你按鍵會了嗎

??Python實(shí)用工具之制作證件照（有界面、附源碼、贊關(guān)藏）??

hncloud，中國香港云服務(wù)器測評分享，BGP國際多線+雙向CN2極速直連

css盒子模型

移動端軟鍵盤彈出時文本輸入框下沉、獲取焦點(diǎn)并彈出軟鍵盤

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

目標(biāo)檢測算法綜述（2）︱單次目標(biāo)檢測器︱CV︱ 機(jī)器視覺

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

目標(biāo)檢測算法綜述（2）︱單次目標(biāo)檢測器︱CV︱機(jī)器視覺