解決物體檢測中的小目標問題

mudiyouyou 發布于2021-09-22 10:02 / 2290人閱讀

摘要：結論正確檢測小物體確實是一個挑戰。下載視覺實戰項目講在小白學視覺公眾號后臺回復視覺實戰項目，即可下載包括圖像分割口罩檢測車道線檢測車輛計數添加眼線車牌識別字符識別情緒檢測文本內容提取面部識別等個視覺實戰項目，助力快速學校計算機視覺。

點擊上方“小白學視覺”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

為了提高模型在小物體上的性能，我們建議使用以下技術：

提高圖像捕獲分辨率
提高模型的輸入分辨率
平鋪圖像
通過擴充生成更多數據
自動學習模型錨
過濾掉多余的類

為什么小目標問題很難？

小物體問題困擾著全世界的物體檢測模型，查看最新模型YOLOv3、EfficientDet和YOLOv4的COCO評估結果：

查看 AP_S、AP_M、AP_L 以獲取最先進的模型。

例如，在 EfficientDet 中，小物體的 AP 僅為 12%，而大物體的 AP 為 51%，這幾乎是五倍的差距！

那么為什么檢測小物體這么難呢？

這一切都取決于模型，目標檢測模型通過聚合卷積層中的像素來形成特征。

PP-YOLO中目標檢測的特征聚合

并且在網絡的末端，基于損失函數進行預測，該損失函數基于預測和地面真實情況之間的差異對像素進行匯總。

YOLO中的損失函數

如果地面真值框不大，則在進行訓練時信號會很小。此外，小物體最有可能存在數據標記錯誤，因此它們的標識可能會被省略，從經驗和理論上來說，小物體是難的。

提高圖像捕獲分辨率

非常小的物體在邊界框中可能只包含幾個像素——這意味著提高圖像的分辨率以增加檢測器可以從該小框中形成的特征的豐富度非常重要。因此，如果可能，我們建議盡可能捕獲高分辨率的圖像。

提高模型的輸入分辨率

一旦我們擁有更高分辨率的圖像，我們就可以擴大模型的輸入分辨率。警告：這將導致大型模型需要更長的訓練時間，并且在開始部署時推斷速度會更慢。我們可能需要運行實驗，來找出速度與性能之間的正確權衡。

在我們關于培訓YOLOv4的教程中，我們可以通過更改配置文件中的圖像大小來輕松調整輸入分辨率。

[net] batch=64 subdivisions=36 width={YOUR RESOLUTION WIDTH HERE} height={YOUR RESOLUTION HEIGHT HERE} channels=3 momentum=0.949 decay=0.0005 angle=0 saturation = 1.5 exposure = 1.5 hue = .1  learning_rate=0.001 burn_in=1000 max_batches=6000 policy=steps steps=4800.0,5400.0 scales=.1,.1

在我們的教程中，小伙伴們還可以通過更改“訓練”命令中的“圖像大小”參數，輕松調整輸入分辨率，該教程介紹了如何訓練YOLOv5：

!python train.py --img {YOUR RESOLUTON SIZE HERE} --batch 16 --epochs 10 --data "../data.yaml" --cfg ./models/custom_yolov5s.yaml --weights "" --name yolov5s_results  --cache

注意：只有在達到訓練數據的最大分辨率時，才能看到改進的結果。

平鋪圖像

檢測小圖像的另一種很好的策略是將圖像平鋪作為預處理步驟。平鋪可以有效地將檢測器放大到小物體上，但允許我們保持所需的小輸入分辨率，以便能夠進行快速推理。

平鋪圖像作為 Roboflow 中的預處理步驟

如果在訓練期間使用平鋪，請務必記住，我們還需要在推理時平鋪圖像。

通過擴充生成更多數據

數據擴充會從我們的基本數據集生成新圖像，這對于防止模型過度擬合訓練集非常有用。

一些特別有用的小物體檢測增強包括隨機裁剪、隨機旋轉和鑲嵌增強。

自動學習模型錨

錨定框是模型學習預測的原型邊界框，也就是說，錨框可以預先設置，有時對于我們的訓練數據來說不是最理想的。自定義調整這些參數以適合我們即將完成的任務是很好的，YOLOv5 模型架構會根據我們的自定義數據自動為我們執行此操作，我們所要做的就是開始訓練。

Analyzing anchors... anchors/target = 4.66, Best Possible Recall (BPR) = 0.9675. Attempting to generate improved anchors, please wait... WARNING: Extremely small objects found. 35 of 1664 labels are < 3 pixels in width or height. Running kmeans for 9 anchors on 1664 points... thr=0.25: 0.9477 best possible recall, 4.95 anchors past thr n=9, img_size=416, metric_all=0.317/0.665-mean/best, past_thr=0.465-mean: 18,24,  65,37,  35,68,  46,135,  152,54,  99,109,  66,218,  220,128,  169,228 Evolving anchors with Genetic Algorithm: fitness = 0.6825: 100%|██████████| 1000/1000 [00:00<00:00, 1081.71it/s] thr=0.25: 0.9627 best possible recall, 5.32 anchors past thr n=9, img_size=416, metric_all=0.338/0.688-mean/best, past_thr=0.476-mean: 13,20,  41,32,  26,55,  46,72,  122,57,  86,102,  58,152,  161,120,  165,20

過濾掉多余的類

類管理是提高數據集質量的一項重要技術，如果我們的一個類與另一個類明顯重疊，則應從數據集中過濾該類。也許，我們認為數據集中的小對象不值得檢測，因此我們可能想要將其取出。通過Roboflow Pro中的高級數據集進行狀況檢查，我們可以快速識別所有這些問題。

可以通過Roboflow 的本體管理工具來實現類遺漏和類重命名。

結論

正確檢測小物體確實是一個挑戰。在這篇文章中，我們討論了一些改進小物體檢測器的策略，即：

提高圖像捕獲分辨率
提高模型的輸入分辨率
平鋪圖像
通過擴充生成更多數據
自動學習模型錨
過濾掉多余的類

好消息，小白學視覺團隊的知識星球開通啦，為了感謝大家的支持與厚愛，團隊決定將價值149元的知識星球現時免費加入。各位小伙伴們要抓住機會哦！

下載1：OpenCV-Contrib擴展模塊中文版教程

在「小白學視覺」公眾號后臺回復：擴展模塊中文教程，即可下載全網第一份OpenCV擴展模塊教程中文版，涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

下載2：Python視覺實戰項目52講

在「小白學視覺」公眾號后臺回復：Python視覺實戰項目，即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰項目，助力快速學校計算機視覺。

下載3：OpenCV實戰項目20講

在「小白學視覺」公眾號后臺回復：OpenCV實戰項目20講，即可下載含有20個基于OpenCV實現20個實戰項目，實現OpenCV學習進階。

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信群（以后會逐漸細分），請掃描下面微信號加群，備注：”昵稱+學校/公司+研究方向“，例如：”張三?+?上海交大?+?視覺SLAM“。請按照格式備注，否則不予通過。添加成功后會根據研究方向邀請進入相關微信群。請勿在群內發送廣告，否則會請出群，謝謝理解~

GPU云服務器云服務器圖像識別中的目標檢測移動物體檢測目標檢測目標檢測圖像識別

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/119988.html

深度學習時代的目標檢測算法

摘要：目前目標檢測領域的深度學習方法主要分為兩類的目標檢測算法的目標檢測算法。原來多數的目標檢測算法都是只采用深層特征做預測，低層的特征語義信息比較少，但是目標位置準確高層的特征語義信息比較豐富，但是目標位置比較粗略。目前目標檢測領域的深度學習方法主要分為兩類：two stage的目標檢測算法；one stage的目標檢測算法。前者是先由算法生成一系列作為樣本的候選框，再通過卷積神經網絡進行樣本...

wfc_666 2019-04-25 18:24 評論0 收藏0
何愷明團隊推出Mask^X R-CNN，將實例分割擴展到3000類

摘要：從標題上可以看出，這是一篇在實例分割問題中研究擴展分割物體類別數量的論文。試驗結果表明，這個擴展可以改進基準和權重傳遞方法。今年10月，何愷明的論文Mask R-CNN摘下ICCV 2017的較佳論文獎（Best Paper Award），如今，何愷明團隊在Mask R-CNN的基礎上更近一步，推出了（以下稱Mask^X R-CNN）。這篇論文的第一作者是伯克利大學的在讀博士生胡戎航（清華...

MockingBird 2019-04-25 18:22 評論0 收藏0
【DL-CV】計算機視覺前置了解

摘要：雖說都是些量少易懂的知識點，卻主角般地貫穿著整個學習過程，而且作為從小白到學習者思維轉換的橋梁，其必要性是肯定的。所以對于從未接觸過深度學習的小白，強烈推薦了解，非小白可跳過圖像分類首先來了解在計算機視覺領域上的圖像指的是什么。【DL-CV】【深度學習-計算機視覺】系列簡介及入門推薦【DL-CV】線性分類器在初次進入坑，接觸高深的算法環節之前，有必要對計算機視覺的目標和實現有一個大...

forrest23 2019-06-26 18:32 評論0 收藏0