摘要:但深度學(xué)習(xí)仍然只是解決計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)問(wèn)題的工具之一。深度學(xué)習(xí)有時(shí)是過(guò)擬合的。深度學(xué)習(xí)有時(shí)會(huì)發(fā)生過(guò)度擬合這可能是我支持傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)研究的最佳理由。
摘要: 深度學(xué)習(xí)大潮為什么淹沒(méi)傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)?聽聽大牛怎么說(shuō)~
這篇文章是受到論壇中經(jīng)常出現(xiàn)的問(wèn)題所創(chuàng)作的:
這明顯是一個(gè)很好的問(wèn)題,深度學(xué)習(xí)(DL)已經(jīng)徹底改變了計(jì)算機(jī)視覺(jué)(CV)和人工智能。許多曾經(jīng)看起來(lái)不可能解決的問(wèn)題都解決了,機(jī)器獲得比人類更好的結(jié)果。圖像分類可能就是最好的例子。
但深度學(xué)習(xí)仍然只是解決計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)問(wèn)題的工具之一。它并不是解決該所有問(wèn)題的萬(wàn)能藥。在這篇文章中,我想詳細(xì)說(shuō)明這一點(diǎn)。也就是說(shuō),我想闡述一下為什么傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)仍然非常有用。
我將把這篇文章分成以下部分:
深度學(xué)習(xí)需要大數(shù)據(jù)。
深度學(xué)習(xí)有時(shí)是過(guò)擬合的。
傳統(tǒng)的計(jì)算機(jī)視覺(jué)知識(shí)可以將幫助你進(jìn)行深度學(xué)習(xí)。
但在我討論這些論點(diǎn)之前,我認(rèn)為有必要首先詳細(xì)解釋什么是“傳統(tǒng)的計(jì)算機(jī)視覺(jué)”、深度學(xué)習(xí)是什么以及它為什么如此有破壞力。
背景知識(shí)在進(jìn)行深度學(xué)習(xí)之前,如果你有諸如圖像分類之類的任務(wù),這時(shí)你需要執(zhí)行一個(gè)稱為特征提取的步驟,特征提取是非常“有趣的”。我這篇文章中將要提到一些傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)(包括諸如邊緣檢測(cè),角點(diǎn)檢測(cè),物體檢測(cè)等等)。
在使用這些技術(shù)時(shí),例如在特征提取和圖像分類方面,我們想的是從一類對(duì)象(例如椅子,馬等)的圖像中提取盡可能多的特征,并將這些特征視為一種“定義”(被稱為“袋”)的對(duì)象。然后,你會(huì)在其他圖像中搜索這些“定義”。如果一個(gè)袋子中的大量特征位于另一個(gè)圖像中,則該圖像被分類為包含該特定對(duì)象(即椅子,馬等)。
這種圖像分類特征提取方法的難點(diǎn)在于,你必須選擇在每個(gè)給定圖像中查找哪些特征。當(dāng)你嘗試分類的類別數(shù)量開始增加,例如10或20時(shí),這會(huì)變得很麻煩并且變得幾乎不可能。你是否尋找邊緣?紋理信息?使用不同類型的功能可以更好地描述不同類別的對(duì)象。如果你選擇使用許多特征,則必須處理大量參數(shù),所有這些參數(shù)都必須由你進(jìn)行微調(diào)。
那么,深度學(xué)習(xí)介紹了端到端的學(xué)習(xí)概念,其中(簡(jiǎn)而言之)機(jī)器被告知要針對(duì)每個(gè)特定類別的對(duì)象學(xué)習(xí)要尋找什么。它為每個(gè)對(duì)象提供了最具描述性和顯著的特征。換句話說(shuō),神經(jīng)網(wǎng)絡(luò)已經(jīng)被告知發(fā)現(xiàn)圖像類別中的底層模式。
因此,通過(guò)端到端的學(xué)習(xí),你不再需要手動(dòng)決定使用傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)來(lái)描述你的特征。有線雜志這樣說(shuō)道:
例如,如果你想教一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別一只貓,那么你不要告訴它尋找胡須,耳朵,毛皮和眼睛。你只需要展示成千上萬(wàn)張貓的照片,最終就能解決問(wèn)題。如果它將狐貍誤分類為貓,你不需要重寫代碼,你只需要做的是繼續(xù)訓(xùn)練。
下面的圖片描繪了特征提取(使用傳統(tǒng)的方法)和端到端學(xué)習(xí)之間的差異:
所以,這是整篇文章的背景。接下來(lái),讓我們來(lái)看看為什么傳統(tǒng)的計(jì)算機(jī)視覺(jué)仍然是必要的,有益的。
首先,深度學(xué)習(xí)需要數(shù)據(jù),很多很多的數(shù)據(jù)。上面提到的那些著名的圖像分類模型都是在大數(shù)據(jù)集上進(jìn)行訓(xùn)練的,這些用于訓(xùn)練的數(shù)據(jù)集的前三名是:
ImageNet——包含 1000個(gè)對(duì)象類別/類的 150萬(wàn)個(gè)圖像。
上下文中的Microsoft通用對(duì)象(COCO)——250萬(wàn)個(gè)圖像,91個(gè)對(duì)象類別。
PASCAL VOC數(shù)據(jù)集 ——500K圖像,20個(gè)對(duì)象類別。
比一般圖像分類更容易的任務(wù)不需要這么多的數(shù)據(jù),但你仍然需要很多數(shù)據(jù)。如果你無(wú)法獲得那么多的數(shù)據(jù),你根本不知道會(huì)發(fā)生什么?(確實(shí)也有一些技巧可以提高你的訓(xùn)練數(shù)據(jù)量,但這些是人為的方法)。
沒(méi)有充足的數(shù)據(jù),訓(xùn)練出來(lái)的模型一般表現(xiàn)都不好,因?yàn)橐慌_(tái)機(jī)器沒(méi)有洞察能力,它不能在沒(méi)有看到數(shù)據(jù)的情況下概括它看到的東西。
對(duì)于你來(lái)說(shuō),看到訓(xùn)練好的模型并且手動(dòng)調(diào)整一些東西太困難了,因?yàn)樯疃葘W(xué)習(xí)模型里面有數(shù)百萬(wàn)個(gè)參數(shù),其中每個(gè)參數(shù)在訓(xùn)練過(guò)程中都會(huì)被調(diào)整。從某種意義上說(shuō),深度學(xué)習(xí)模式是一個(gè)黑匣子。
傳統(tǒng)的計(jì)算機(jī)視覺(jué)為你提供了充分的透明度,使你能夠更好地評(píng)估和判斷你的解決方案是否可以在訓(xùn)練環(huán)境之外進(jìn)行工作。你可以深入了解算法中存在的問(wèn)題,如果有任何不妥,你可以很容易地弄清楚在哪里以及需要調(diào)整什么。
深度學(xué)習(xí)有時(shí)會(huì)發(fā)生過(guò)度擬合:這可能是我支持傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)研究的最佳理由。訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要很長(zhǎng)時(shí)間,你需要專用硬件(例如,高性能GPU),在很長(zhǎng)的時(shí)間內(nèi)訓(xùn)練最新的最先進(jìn)的圖像分類模型。
此外,如果你的訓(xùn)練模型表現(xiàn)不佳,會(huì)發(fā)生什么?你必須返回并用不同的訓(xùn)練參數(shù)重做整個(gè)過(guò)程,而且這個(gè)過(guò)程有時(shí)可能重復(fù)數(shù)百次。
但有時(shí)候這些都是不必要的,因?yàn)橛袝r(shí)傳統(tǒng)的CV技術(shù)可以比DL更有效地解決問(wèn)題,并且代碼行數(shù)更少。例如,我曾經(jīng)參與過(guò)一個(gè)項(xiàng)目,以檢測(cè)通過(guò)傳送帶的每個(gè)錫罐是否有紅色的勺子。現(xiàn)在,你可以訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)勺子,或者你可以對(duì)紅色上編寫簡(jiǎn)單的顏色閾值算法(紅色的某個(gè)范圍內(nèi)的任何像素都是白色的,每個(gè)其他像素是黑色的),然后計(jì)算你有多少白色像素。
了解傳統(tǒng)的計(jì)算機(jī)視覺(jué)可能會(huì)為你節(jié)省大量時(shí)間和減少一些不必要的麻煩。
傳統(tǒng)的計(jì)算機(jī)視覺(jué)將提高你的深度學(xué)習(xí)技能:理解傳統(tǒng)的計(jì)算機(jī)視覺(jué)實(shí)際上可以幫助你更好地進(jìn)行深度學(xué)習(xí)。
例如,計(jì)算機(jī)視覺(jué)中使用的最常見的神經(jīng)網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)。但什么是卷積?它實(shí)際上是一種廣泛使用的圖像處理技術(shù)(例如參見Sobel邊緣檢測(cè))。了解這可以幫助你了解你的神經(jīng)網(wǎng)絡(luò)做了什么,因此可以更好地設(shè)計(jì)和調(diào)整你嘗試解決的任務(wù)。
然后還有一件事叫做預(yù)處理。這是經(jīng)常對(duì)你提供的模型的數(shù)據(jù)進(jìn)行準(zhǔn)備以進(jìn)行訓(xùn)練。這些預(yù)處理步驟主要通過(guò)傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)來(lái)完成。例如,如果你沒(méi)有足夠的訓(xùn)練數(shù)據(jù),則可以執(zhí)行稱為數(shù)據(jù)增加的任務(wù)。數(shù)據(jù)增加可以包括對(duì)訓(xùn)練集中的圖像執(zhí)行隨機(jī)旋轉(zhuǎn),移位,剪切等,以創(chuàng)建“新”圖像。通過(guò)執(zhí)行這些計(jì)算機(jī)視覺(jué)操作,你可以大大增加你擁有的訓(xùn)練數(shù)據(jù)量。
結(jié)論:在這篇文章中,我解釋了為什么深度學(xué)習(xí)沒(méi)有取代傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù),為什么后者仍應(yīng)該學(xué)習(xí)。首先,我發(fā)現(xiàn)了DL經(jīng)常需要大量數(shù)據(jù)才能執(zhí)行的問(wèn)題。其次,深度學(xué)習(xí)對(duì)于特定任務(wù)來(lái)說(shuō)可能會(huì)出現(xiàn)過(guò)度擬合現(xiàn)象。在這樣的任務(wù)中,標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)可以比DL更有效地解決問(wèn)題,并且代碼行數(shù)更少。第三,認(rèn)識(shí)傳統(tǒng)的計(jì)算機(jī)視覺(jué)實(shí)際上可以讓你更好地進(jìn)行深度學(xué)習(xí)。這是因?yàn)槟憧梢愿玫亓私釪L到底正在做什么,并且你可以執(zhí)行某些預(yù)處理步驟來(lái)改善DL結(jié)果。
簡(jiǎn)而言之,深度學(xué)習(xí)只是計(jì)算機(jī)視覺(jué)的工具,當(dāng)然不是萬(wàn)能藥。不要只用它,因?yàn)樗F(xiàn)在是新潮。傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)仍然非常有用,知道它們可以為你節(jié)省時(shí)間和解決許多麻煩。
本文由阿里云云棲社區(qū)組織翻譯。
文章原標(biāo)題《Why Deep Learning Has Not Superseded Traditional Computer Vision》
作者:Zbigniew
更為詳細(xì)的內(nèi)容,請(qǐng)查看原文
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/19709.html
摘要:同時(shí),也會(huì)催生出超人類。年,深藍(lán)戰(zhàn)勝人類國(guó)際象棋冠軍,標(biāo)記著人工智能往前邁開了重要一大步。年大勝柯潔,人工智能即將碾軋人類的話題遍進(jìn)入大眾視野,迅即引起普遍的狂熱和焦慮。 showImg(http://upload-images.jianshu.io/upload_images/13825820-1b6450ee3f490762.jpg?imageMogr2/auto-orient/s...
摘要:然而,盡管訓(xùn)練技術(shù)有了進(jìn)步,深度學(xué)習(xí)的規(guī)模還是存在問(wèn)題。這種更具擴(kuò)展性的深度網(wǎng)絡(luò)使百度得以實(shí)施一種端對(duì)端的語(yǔ)音識(shí)別系統(tǒng),它被稱之為。研究人員試圖用分布式處理來(lái)構(gòu)建更廣泛的深度學(xué)習(xí)網(wǎng)絡(luò),以便能處理更大的數(shù)據(jù)集。 隨著理論和硬件的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了在線服務(wù)(比如微軟的必應(yīng))的核心部件,推動(dòng)著它們圖像搜索和語(yǔ)音識(shí)別系統(tǒng)的發(fā)展。這些公司仰賴于這項(xiàng)技術(shù)來(lái)驅(qū)動(dòng)未來(lái)更先進(jìn)的服務(wù),所以他們擴(kuò)大了神...
閱讀 2808·2021-11-17 09:33
閱讀 2189·2021-09-03 10:40
閱讀 550·2019-08-29 18:45
閱讀 2970·2019-08-29 16:21
閱讀 623·2019-08-29 11:11
閱讀 3406·2019-08-26 12:00
閱讀 2961·2019-08-23 18:19
閱讀 1102·2019-08-23 12:18