摘要:機器學習初學者最常犯的錯誤是測試訓練數據,并有成功的幻覺。機器學習中的每個人都知道過度擬合,但它有很多形式,并不是很明顯。事實上,理論與實踐的密切相互作用是機器學習多年來取得如此巨大進步的主要原因之一。
摘要: 這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結,包括避免陷阱,重點問題以及常見問題的答案。
機器學習算法可以通過從數據中歸納出如何執行類似任務的方法。在手動編程不適用的情況下,這通常是可行的并且非常劃算。隨著更多數據的可用,越來越多的問題可以得到解決。因此,機器學習正在被廣泛應用于計算機等領域。然而,開發一個成功的機器學習應用程序需要大量難以在教科書中找到的“黑色藝術(black art)”。
我最近讀了華盛頓大學Pedro Domingos教授的一篇技術論文,題為“機器學習的一些有用的知識”,它總結了機器學習研究人員和從業人員需要記住的12個關鍵經驗教訓,包括避免陷阱(pitfalls to avoid)、重點問題以及常見問題的答案。我想在本文中分享這些經驗教訓,因為在考慮解決一個機器學習問題時,它們是非常有用。
1:學習=表征(Representation)+評估+優化所有機器學習算法通常由以下3個組件組成:
表征(Representation):分類器必須用計算機可以處理的一些語言來表示。相反,為學習者選擇一種表示方式等于選擇它可能學習的一組分類器。這個集合稱為學習者的假設空間。如果分類器不在假設空間中,則無法學習。一個相關的問題是如何表示輸入,即使用哪些功能。
評估:需要一個評估函數來區分分類器的好壞。算法內部使用的評估函數可能不同于我們希望分類器優化的外部評估函數。
優化:最后,我們需要一種方法在語言中的分類器中搜索得分最高的分類器。優化技術的選擇對于學習者的效率至關重要,并且還有助于確定評估函數具有多于一個最佳值時產生的分類器。新學習者開始使用現成的優化器(后來由定制設計替代)是很常見的。
2:機器學習要以預測訓練集之外的數據為目的(It’s Generalization that Counts)機器學習的基本目標是推廣超出了訓練集中的例子。這是因為,無論我們有多少數據,我們都不太可能在測試時再次看到這些確切的示例。訓練集是很容易制作的。機器學習初學者最常犯的錯誤是測試訓練數據,并有成功的幻覺。如果選擇的分類器在隨后的新數據上進行測試,那么通常不會比隨機猜測更好。因此,如果聘請某人構建機器學習模型,請務必保留一些數據給自己,并測試他們提供的分類器。相反,如果被聘為構建機器學習模型,請將其中的一些數據設置為一開始,并僅在最后測試選擇的分類器,然后在整個數據中訓練處最好的模型。
3:沒有足夠的數據這似乎是一個令人沮喪的消息。幸運的是,我們想要從現實世界中學習的模型并不是完全要遵循數學的精準性!事實上,非常普遍的假設:如平滑性、類似的例子、有限的依賴性或有限的復雜性,通常足以做得很好,這是機器學習如此成功的很大一部分原因。就像演繹一樣,歸納(學習者所做的)就是知識杠桿:它將少量的輸入知識轉化為大量的輸出知識。歸納法是一種比演繹更加強大的杠桿,需要更少的輸入知識來產生有用的結果,但它仍然需要輸入知識才能工作。而且,就像任何杠桿一樣,我們投入的越多,收獲的也就越多。
現在想想,學習知識的所需的數據不應該令人驚訝。機器學習不是魔術,它無法從無到有。它現在所做的是從更少獲得更多。像所有工程一樣,編程有很多工作:我們必須從頭開始構建所有的東西。學習更像是農業,讓大自然完成大部分的工作。農民將種子與營養物質結合起來種植作物,類似訓練者將知識與數據結合起來發展項目。
4:過度擬合有很多處理方式如果我們擁有的知識和數據不足以完全確定正確的分類器,該怎么辦?我們冒著對分類器(或其中的一部分)產生幻覺的風險,這些分類器沒有基于現實,并且只是編碼數據中的隨機怪癖,這個問題被稱為過度擬合,是機器學習的怪癥。當學習者輸出的分類器對訓練數據100%準確,但對測試數據的準確率只有50%時,實際上它已經是過度擬合了。
機器學習中的每個人都知道過度擬合,但它有很多形式,并不是很明顯。了解過度擬合的一種方法是將泛化誤差分解為偏差和方差。偏差是學習者傾向于始終學習相同的錯誤。無論真實信號如何,方差都傾向于學習隨機事物。線性學習者通常有很高的偏差,因為當兩個類之間的邊界不是超平面時,學習者無法處理它。決策樹不存在這個問題,因為它們可以表示任何布爾函數,但是另一方面,他們可能會產生很高的方差:在同一個現象產生的不同訓練集上學習的決策樹往往是非常不同的,但實際上應該是一樣的。
交叉驗證可以幫助對抗過度擬合,例如通過使用它來選擇決策樹的最佳大小。但它不是萬能的,因為如果我們用它來做太多的參數選擇,它本身就會開始過度擬合。
除了交叉驗證之外,還有很多方法可以解決過度擬合的問題。最流行的是添加正則化術語到評估功能。例如,這可以懲罰具有更多結構的分類器,從而有利于較少結構的分類器。另一種選擇是在添加新結構之前,執行像卡方這樣的統計顯著性檢驗,以確定該類別的分布在具有和不具有該結構的情況下是否真的不同。當數據非常少時,這些技術特別有用。盡管如此,你應該對某種技術“解決”過度擬合問題的說法持懷疑態度,因為沒有任何一種技術總能做到最好(沒有免費的午餐)。
5:直覺錯誤——高維度過度擬合之后,機器學習中最大的問題就是維度的詛咒。這個話題是由Bellman在1961年提出的,指的是許多在低維度下工作正常的算法在輸入是高維時就變得棘手。但在機器學習中,它指的是隨著示例的維數(特征數量)增加,泛化正確地變得越來越難,因為固定大小的訓練集只覆蓋了輸入空間的一小部分。
高維度的一般問題是我們的直覺來自三維世界,通常不適用于高維空間。在高維度中,多元高斯分布的大部分質量并不接近平均值,而是在其周圍越來越遠的“殼”中。如果恒定數量的示例在高維超立方體中均勻分布,超出某些維度,則大多數示例更接近超立方體的面,而不是最近鄰居。如果我們通過將超球體寫入超立方體來近似超球體,那么在高維中幾乎所有超立方體的體積都在超球體的外面。這對于機器學習來說是個壞消息,其中一種類型的形狀經常通過另一種形狀來近似。
在二維或三維中構建分類器非常簡單,我們可以通過視覺檢查在不同類別的例子之間找到合理的邊界。但是在高維度上,我們很難理解正在發生的事情。這反過來又使設計好的分類器變得困難。天真地說,人們可能會認為聚集更多的功能不會受到損失,因為在最糟糕的情況下,它們不會提供關于該類的新信息 但實際上,維度的詛咒可能會超過它們的好處。
6:理論保證不是他們所看到的機器學習論文充滿了理論保證。最常見的類型是確保良好泛化所需的示例數量的界限。你應該怎樣做到這些保證?首先,它們甚至可能是非常了不起的,歸納傳統上與扣除形成對比:在推論中,你可以保證結論是正確的;在歸納中,所有判斷都社區。近幾十年來的一個主要發展是認識到,我們可以對歸納結果保證,特別是如果我們愿意解決概率保證。
我們必須小心這種約束是什么意思。例如,如果你的模型返回了一個與特定訓練集相一致的假設,那么這個假設可能概括得很好。所謂的是,如果給定足夠大的訓練集,那么你的模型要么返回一個推廣的假設,要么找不到一致的假設。界限也沒有說如何選擇一個好的假設空間。它只告訴我們,如果假設空間包含真實的分類器,那么訓練處輸出不好的分類器的概率是隨著訓練集大小而減少。如果我們縮小假設空間,邊界就會改善,但是包含真實分類器的機會也會縮小。
另一種常見的理論保證類型是漸近的:給定無限的數據,訓練模型的人保證輸出正確的分類器。在實踐中,我們很少處于漸近狀態(也稱為“asymptopia”)。而且,由于上面討論的偏差-方差權衡,如果學習者A在給定無限數據的情況下比學習者B好,則B通常比給定有限數據的A好。
理論保證在機器學習中的主要作用不是作為實際決策的標準,而是作為理解和推動算法設計的源泉。事實上,理論與實踐的密切相互作用是機器學習多年來取得如此巨大進步的主要原因之一。但要注意:訓練是一個復雜的現象。
文章原標題《12-useful-things-know-about-machine-learning》,
詳情請閱讀原文
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/8820.html
摘要:機器學習項目通常會有一個重要的學習者設計組成部分,從業者需要有一些專業知識。在機器學習中,這通常意味著,給定兩個具有相同訓練錯誤的分類器,其中較簡單的分類器可能具有最低的測試錯誤。機器學習通常應用于觀察性數據,其中預測變量不受學習者的控制。 摘要: 這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結,包括避免陷阱,重點問題以及常見問題的答案。 論文解讀:華盛頓大學教授Ped...
摘要:機器學習初學者中最常見的錯誤就是對訓練數據進行測試并自以為大獲成功。綜上來看,機器學習需要知識這點并不奇怪。機器學習更像是種田,讓大自然完成大部分的工作。這個問題被稱為過擬合,是機器學習中的難題。 機器學習算法可以通過學習就可以弄清楚如何去執行一些重要的任務。在手動編程不可行的情況下,這種方法通常既可行又經濟有效。隨著可獲取的數據在逐步增多,越來越多更加復雜的問題可以用機器學習來解決。...
閱讀 2779·2021-10-14 09:42
閱讀 837·2021-10-11 10:57
閱讀 781·2019-08-30 15:54
閱讀 1925·2019-08-30 13:50
閱讀 1692·2019-08-30 11:19
閱讀 940·2019-08-29 12:38
閱讀 1430·2019-08-26 11:51
閱讀 1398·2019-08-26 10:48