摘要:深度學習自動找到對分類重要的特征,而在機器學習,我們必須手工地給出這些特征。數據依賴深度學習和傳統機器學習最重要的區別在于數據量增長下的表現差異。這是深度學習一個特別的部分,也是傳統機器學習主要的步驟。
前言機器學習和深度學習現在很火!突然間每個人都在討論它們-不管大家明不明白它們的不同!
不管你是否積極緊貼數據分析,你都應該聽說過它們。
正好展示給你要關注它們的點,這里是它們關鍵詞的google指數:
如果你一直想知道機器學習和深度學習的不同,那么繼續讀下去,下文會告訴你一個關于兩者的通俗的詳細對比。
我會詳細介紹它們,然后會對它們進行比較并解釋它們的用途。
1 機器學習和深度學習是什么?
1.1 什么是機器學習?
1.2 什么是深度學習?
2 機器學習和深度學習的比較
2.1 數據依賴
2.2 硬件依賴
2.3 問題解決辦法
2.4 特征工程
2.5 執行時間
2.6 可解釋性
3 機器學習和深度學習目前的應用場景?
4 測試
5 未來發展趨勢
讓我們從基礎開始——什么是機器學習,什么是深度學習。如果你已經知道答案了,那么你可以直接跳到第二章。
“機器學習”更受廣泛引用的定義是來自于Tom Mitchell對它的解釋概括:
? ? “如果一個計算機程序在任務T中,利用評估方法P并通過相應的經驗E而使性能得到提高,則說這個程序從經驗E中得到了學習”
這句話是不是聽起來特別難以理解?讓我們用一些簡單的例子來說明它。
例子1-機器學習-基于身高預測體重
假如你現在需要創建一個系統,它能夠基于身高來告訴人們預期的體重。有幾個原因可能可以解釋為什么這樣的事會引起人們興趣的原因。你可以使用這個系統來過濾任何可能的欺詐數據或捕獲誤差。而你需要做的第一件事情是收集數據,假如你的數據像這個樣子:
圖中的每個點都代表一個數據點。首先,我們可以畫一條簡單的直線來根據身高預測體重。例如是這么一條直線:
Weight (in kg) = Height (in cm) - 100
它可以幫助我們做出預測。如果這條直線看起來畫得不錯,我們就需要理解它的表現。在這個例子中,我們需要減少預測值與真實值之間的差距,這是我們評估性能的辦法。
進一步說,如果我們收集到更多的數據(經驗上是這樣),我們的模型表現將會變得更好。我們也可以通過添加更多的變量來提高模型(例如`性別`),那樣也會有一條不一樣的預測線。
例子2-風暴預測系統
讓我們舉個復雜一點點的例子。假設你在開發一個風暴預測系統,你手里有過往所有發生過的風暴數據,以及這些風暴發生前三個月的天氣狀況數據。
想一下,如果我們要去做一個風暴預測系統,該怎么做呢?
首先,我們需要探索所有數據并找到數據的模式(規則)。我們的任務是尋找什么情況下會引起風暴發生。
我們可以模擬一些條件,例如溫度大于40攝氏度,溫度介于80到100之間等等,然后把這些“特征”手動輸入到我們的系統里。
或者,我們也可以讓系統從數據中理解這些特征的合適值。
現在,找到了這些值,你就可以從之前的所有數據中預測一個風暴是否會生成。基于這些由我們的系統設定的特征值,我們可以評估一下系統的性能表現,也就是系統預測風暴發生的正確次數。我們可以迭代上面的步驟多次,給系統提供反饋信息。
讓我們用正式的語言來定義我們的風暴系統:我們的任務`T`是尋找什么樣的大氣條件會引起一個風暴。性能`P`描述的是系統所提供的全部情況中,正確預測到風暴發生的次數。而經驗`E`就是我們系統的不斷重復運行所產生的。
1.2 什么是深度學習?深度學習并不是新的概念,它已經出現好一些年了。但在今時今日的大肆宣傳下,深度學習變得越來越受關注。正如在機器學習所做的事情一樣,我們也將正式的定義“深度學習”并用簡單的例子來說明它。
“深度學習是一種特別的機器學習,它把世界當做嵌套的層次概念來學習從而獲得強大的能力和靈活性,每一個概念都由相關更簡單的概念來定義,而更抽象的表征則通過較形象的表征計算得到。”
現在-這看起來很令人困惑,讓我們用簡單的例子來說明。
例子1-形狀檢測
讓我們從一個簡單的例子開始,這個例子解釋了概念層次上發生了什么。我們來嘗試理解怎樣從其他形狀中識別出正方形。
我們的眼睛首先會做的是檢查這個圖形是否由4條邊組成(簡單的概念)。如果我們找到4條邊,我們接著會檢查這4條邊是否相連、閉合、垂直并且它們是否等長的(嵌套層次的概念)
如此,我們接受一個復雜的任務(識別一個正方形)并把它轉化為簡單的較抽象任務。深度學習本質上就是大規模的執行這種任務。
例子2-貓狗大戰
讓我們舉一個動物識別的例子,這個例子中我們的系統需要識別給定的圖片是一只貓還是一只狗。
如果我們把這個當做典型的機器學習問題來解決,我們會定義一些特征,例如:這個動物有沒有胡須,是否有耳朵,如果有,那是不是尖耳朵。簡單來說,我們會定義面部特征并讓系統識別哪些特征對于識別一個具體的動物來說是重要的。
深度學習走得更深一步。深度學習自動找到對分類重要的特征,而在機器學習,我們必須手工地給出這些特征。深度學習的工作模式:
首先識別一只貓或一只狗相應的邊緣 然后在這個基礎上逐層構建,找到邊緣和形狀的組合。例如是否有胡須,或者是否有耳朵等 在對復雜的概念持續層級地識別后,最終會決定哪些特征對找到答案是有用的 2.機器學習和深度學習的比較現在你已經了解機器學習和深度學習的概念了,我們接著將會花點時間來比較這兩種技術。
2.1 數據依賴
深度學習和傳統機器學習最重要的區別在于數據量增長下的表現差異。當數據量很少的時候,深度學習算法不會有好的表現,這是因為深度學習算法需要大量數據來完美地實現。相反,傳統機器學習在這個情況下是占優勢的。下圖概括了這個事實。
2.2 硬件依賴
深度學習算法高度依賴高端機器,相較之下傳統的機器學習算法可以在低端機器中運行。這是因為深度學習算法對GPU的依賴是它在工作中的重要部分。深度學習算法內在需要做大量的矩陣乘法運算,這些運算可以通過GPU實現高效優化,因為GPU就是因此而生的。
2.3 特征工程特征工程是將領域知識引入到創建特征提取器的過程,這樣做的目的在于減少數據的復雜性并且使模式更清晰,更容易被學習算法所使用。無論從對時間還是對專業知識的要求,這個過程都是艱難的而且是高成本的。
在機器學習中,絕大多數應用特征需要專業知識來處理,然后根據領域和數據類型進行硬編碼。
舉個例子,特征數據可以是像素值、文本數據、位置數據、方位數據。絕大多數的機器學習算法的性能表現依賴于特征識別和抽取的準確度。
深度學習算法嘗試從數據中學習高級特征。這是深度學習一個特別的部分,也是傳統機器學習主要的步驟。因此,深度學習在所有問題上都免除了特征提取器的開發步驟。就像卷積神經網絡會嘗試學習低級特征,例如在低層中學習邊緣和線條,然后是部分的人臉,再接著是人臉的高層表征。
2.4 問題解決辦法
當使用傳統機器學習算法求解一個問題時,它通常會建議把問題細分成不同的部分,然后獨立地解決他們然后合并到一起從而獲得最終結果。然而深度學習卻主張端對端地解決問題。
讓我們用一個例子來理解。
假設你現在有一個多目標檢測任務。這個任務要求識別目標是什么和它出現在圖像中的位置。
在一個傳統機器學習方法中,你會把問題分成兩個步驟:目標檢測和目標識別。首先你會用一個像grabcut一樣的邊框檢測算法來掃描圖像并找到所有可能的目標。然后,對所有被識別的對象,你會使用對象識別算法,如帶HOG特征的SVM,來識別相關對象。
相反地,在深度學習方法中,你會端對端地執行這個過程。例如,在一個YOLO網絡中(一款深度學習算法),你傳入一個圖像,接著它會給出對象的位置和名稱。
2.5 執行時間通常神經網絡算法都會訓練很久,因為神經網絡算法中有很多參數,所以訓練它們通常比其他算法要耗時。目前較好的深度學習算法ResNet需要兩周時間才能完成從隨機參數開始的訓練。而機器學習相對而言則只需要很短的時間來訓練,大概在幾秒到幾小時不等。
但在測試的時候就完全相反了。在測試的時候,深度學習算法只需要運行很短的時間。然而,如果你把它拿來與K-近鄰(一種機器學習算法)來比較,測試時間會隨著數據量的增長而增加。但是這也不意味著所有機器學習算法都如此,其中有一些算法測試時間也是很短的。
2.6 可解釋性最后,我們也把可解釋性作為一個因素來對比一下機器學習和深度學習。這也是深度學習在它被應用于工業之前被研究了很久的主要因素。
舉個例子,假設我們使用深度學習來給文章自動打分。它打分的表現十分的好并且非常接近人類水平,但是有個問題,它不能告訴我們為什么它要給出這樣的分數。實際在數學上,你可以找到一個深度神經網絡哪些結點被激活了,但我們不知道這些神經元被模型怎么利用,而且也不知道這些層在一起做了點什么事情。所以我們不能結果進行合理的解釋。
在另一方面,機器學習算法例如決策樹,通過清晰的規則告訴我們為什么它要選擇了什么,所以它是特別容易解釋結果背后的原因。因此,像決策樹和線性/邏輯回歸一樣的算法由于可解釋性而廣泛應用于工業界。
3.機器學習和深度學習目前的應用場景?維基百科文章給出了機器學習所有應用場景的概述,它們包括:
上圖簡要總結了機器學習的應用領域,盡管它描述的還包括了整個機器智能領域。
一個應用機器學習和深度學習較好的例子就是谷歌了。
上圖中,你可以看到谷歌把機器學習應用在它各種各樣的產品中。機器學習和深度學習的應用是沒有邊際的,你需要的是尋找對的時機!
4.測試為了評估你是否真正了解這些差異,我們接著會來做一個測試。你可以在這兒發布你的答案。
請注意回答問題的步驟。
你會怎樣用機器學習解決下面的問題? 你會怎樣用深度學習解決下面的問題? 結論:哪個是更好的方法?
情節1:
你要開發一個汽車自動駕駛的軟件系統,這個系統會從攝像機獲取原始像素數據并預測車輪需要調整的角度。
情節2:
給定一個人的認證信息和背景信息,你的系統需要評估這個人是否能夠通過一筆貸款申請。
情節3:
為了一個俄羅斯代表能解決當地群眾的問題,你需要建立一個能把俄文翻譯成印地語的系統。
5.未來發展趨勢上述文章可以給了你關于機器學習和深度學習以及它們之間差異的概述。本章中,我想要分享一下我對機器學習和深度學習未來發展趨勢的看法。
首先,由于工業界對數據科學和機器學習使用需求量的增長,在業務上應用機器學習對公司運營會變得更加重要。而且,每個人都會想要知道基礎術語。 深度學習每天都給我們每個人制造驚喜,并且在不久的將來也會持續著這個趨勢。這是因為深度學習已經被證明是能實現較先進表現的較佳技術之一。 機器學習和深度學習的研究會持續進行。但與前些年局限于學術上的研究有所區別,深度學習和機器學習領域上的研究會在工業界和學術界同時爆發。而且隨著可用資金的增加,它會更可能成為整個人類發展的主題。我個人緊隨著這些趨勢。我通常在關于機器學習和深度學習的新聞中獲得重要信息,那些信息會使我在最近發生事情中不斷進步。而且,我也一直關注著arxiv上每天更新的論文以及相應的代碼。
在這篇文章中,我們從一個相對高的角度進行了總結,并且比較了深度學習跟機器學習的算法之間的異同點。我希望這能讓您未來在這兩個領域中的學習中變得更有自信。這是關于機器學習以及深度學習的一個學習路線。
如果您有任何的疑問,完全可以放心大膽地在評論區提問。
英文原文鏈接:https://www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4588.html
摘要:這是機器學習課程中的一個典型例子,他把演講者的聲音和背景音樂分開。雖然用于啟動檢測的技術主要依賴于音頻特征工程和機器學習,但在這里可以很容易地使用深度學習來優化結果。 介紹 想象一個能理解你想要什么,且當你打電話給客戶服務中心時能理解你的感受的機器--如果你對某件事感到不高興,你可以很快地和一個人交談。如果您正在尋找特定的信息,您可能不需要與某人交談(除非您愿意!)。 ...
摘要:如今在機器學習中突出的人工神經網絡最初是受神經科學的啟發。雖然此后神經科學在機器學習繼續發揮作用,但許多主要的發展都是以有效優化的數學為基礎,而不是神經科學的發現。 開始之前看一張有趣的圖 - 大腦遺傳地圖:Figure 0. The Genetic Geography of the Brain - Allen Brain Atlas成年人大腦結構上的基因使用模式是高度定型和可再現的。 Fi...
閱讀 2606·2021-10-14 09:43
閱讀 3566·2021-10-13 09:39
閱讀 3299·2019-08-30 15:44
閱讀 3148·2019-08-29 16:37
閱讀 3713·2019-08-29 13:17
閱讀 2740·2019-08-26 13:57
閱讀 1832·2019-08-26 11:59
閱讀 1253·2019-08-26 11:46