摘要:機器學習中的偏差方差之間的權衡機器學習全部是關于給定輸入數據和給定輸出數據,然后去尋找一個最佳映射函數,這個映射函數通常也被叫做目標函數。
作者:chen_h
微信號 & QQ:862251340
微信公眾號:coderpai
簡書地址:http://www.jianshu.com/p/f143...
我認為對偏差 - 方差之間的權衡判讀對學習機器學習是非常重要的。那么為什么這么說呢?因為這個現象的背后是所有參數,性能和幾乎所有機器學習模型的深層原因。如果你能很深刻的理解這個,我保證你能很好的理解機器學習的每一個模型。
所以,我們就不浪費時間在無聊的介紹中,直接深入挖掘吧。理論講解可能有一點枯燥,但我希望你能耐心看完本文。
機器學習中的偏差 - 方差之間的權衡機器學習全部是關于給定輸入數據(X)和給定輸出數據(Y),然后去尋找一個最佳映射函數(F),這個映射函數通常也被叫做目標函數。
任何機器學習算法的預測誤差可以分解為三部分,即:偏差誤差+方差誤差+不可約的誤差(對于給定的模型,我們不能進一步減少的誤差)。在這個文章中,我們將重點來討論機器學習中的前兩個誤差。我們按照如下目錄來進行講解:
1)偏差誤差;
2)方差誤差;
3)偏差 - 方差之間的權衡;
4)一些想法的總結;
1. 偏差誤差用簡單的話來說,這個誤差是由于簡單的假設所造成的,因為我們的假設越簡單,那么我們的模型更加容易去訓練。
一般而言,參數化算法具有較高的偏差,使得學習速度非常快,而且非常容易去理解,但是通常不太靈活。
注意:對于參數化算法和非參數化算法之間的區別,簡單來說,參數化算法對數據進行參數化,形成很多的特征,這種方法訓練速度非常快,而且也不需要很多的數據,但是他不是很靈活。非參數化算法對目標函數做出很少或者根本不做任何假設,但是它需要更多的數據,訓練速度非常慢,模型復雜度非常高,但是模型非常強大。
低偏差:對目標函數提出更少的假設;
高偏差:對目標函數提出更多的假設;
低偏差模型例子:KNN 和 SVM;
高偏差模型例子:線性回歸和邏輯斯特回歸;
2. 方差誤差1)如果我們使用不同的數據去訓練同一個模型,那么最后我們得到的目標函數估計也是會改變的。
2)目標函數是由機器學習的訓練數據所估計得到的,所以我們期望訓練數據擁有一定的方差。理想情況下,我們不希望目標函數從一個訓練數據集到另一個訓練數據集有太大的變化,也就是說我們的算法需要很好的從訓練數據中找到一些映射的特征關系,這樣可以保證不同訓練集都有一個差不多的目標函數。
低方差:隨著訓練數據集的變化,對目標函數估計值的變化非常小;
高方差:隨著訓練數據集的變化,對目標函數估計值的變化非常大;
一般而言,具有很大靈活性的非參數學習算法都具有很高的方差。
高方差例子:KNN 和 SVM。
3. 偏差 - 方差之間的權衡在上面的例子中我們可以看到一個趨勢:參數或者線性的機器學習算法一般都會有一個很高的偏差和一個很低的方差。但是,非參數或者非線性的機器學習算法一般都有一個很低的偏差和一個很高的方差。所有,我們需要在這兩者之間找到一個平衡點,來優化我們的算法。
比如,KNN 算法有很低的偏差和很高的方差,但是我們可以通過調整 k 的值來改變偏差和方差之間的權衡關系,從而達到一個比較平衡的狀態。
因此,我們增加偏差會導致方差的減少,同理,我們增加方差會導致偏差的減少。但在實踐中,我們無法去計算真正的偏差和方差值,因為我們不知道實際的目標函數。但是,作為一種方法,偏差和方差為我們提供了一種去判斷機器學習算法性能的方法。
1)機器學習是去找到一個映射函數(F),這個函數也經常被稱之為目標函數;
2)偏差是模型所做的簡化假設,使得目標函數更加容易求解;
3)方差是在給定不同訓練數據集的情況下,目標函數估計值所改變的量;
4)權衡是去調整一些參數使得偏差和方差之間相對平衡;
作者:chen_h
微信號 & QQ:862251340
簡書地址:http://www.jianshu.com/p/f143...
CoderPai 是一個專注于算法實戰的平臺,從基礎的算法到人工智能算法都有設計。如果你對算法實戰感興趣,請快快關注我們吧。加入AI實戰微信群,AI實戰QQ群,ACM算法微信群,ACM算法QQ群。長按或者掃描如下二維碼,關注 “CoderPai” 微信號(coderpai)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41080.html
摘要:機器學習初學者最常犯的錯誤是測試訓練數據,并有成功的幻覺。機器學習中的每個人都知道過度擬合,但它有很多形式,并不是很明顯。事實上,理論與實踐的密切相互作用是機器學習多年來取得如此巨大進步的主要原因之一。 摘要: 這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結,包括避免陷阱,重點問題以及常見問題的答案。 showImg(https://segmentfault.com/i...
閱讀 3776·2023-04-25 20:00
閱讀 3121·2021-09-22 15:09
閱讀 518·2021-08-25 09:40
閱讀 3425·2021-07-26 23:38
閱讀 2214·2019-08-30 15:53
閱讀 1102·2019-08-30 13:46
閱讀 2799·2019-08-29 16:44
閱讀 2053·2019-08-29 15:32