摘要:回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。
數據類型分為連續型和離散型。離散型的數據經常用來表示分類,連續型的數據經常用來表示不確定的值。比如一個產品質量分為1類,2類,這是離散型。房價1.4萬/平,3.4萬/平,這是連續型。之前我們學的都是分類,那么對于一些連續型的數據,我們就可以通過回歸算法來進行預測了。
回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。那么什么是線性關系和非線性關系?
比如說在房價上,房子的面積和房子的價格有著明顯的關系。那么X=房間大小,Y=房價,那么在坐標系中可以看到這些點:
如果房間面積大小和房價的關系可以用一根直線表示,那么這就是線性關系:
而如果不是一根直線,那么就是非線性關系:
線性回歸通過一個或者多個自變量與因變量之間進行建模的回歸分析。其中特點為一個或多個稱為回歸系數的模型參數的線性組合。
線性回歸方程,就是有k
個特征,然后每個特征都有相應的系數,并且在所有特征值為0
的情況下,目標值有一個默認值。因此線性回歸方程如下:
h ( ? ) = ? ? + ? ? ? ? ? + ? ? ? ? ? + … ?(?)= ?? + ??*?? + ??*??+… h(w)=w?+w??x?+w??x?+…
整合后的公式為:
h ( w ) = ∑ i n w i x i = θ T x h(w)=∑_i^nw_ixi=θ^Tx h(w)=i∑n?wi?xi=θTx
損失函數是一個貫穿整個機器學習重要的一個概念,大部分機器學習算法都會有誤差,我們得通過顯性的公式來描述這個誤差,并且將這個誤差優化到最小值。
假設現在真實的值為y
,預測的值為h
,那么損失函數的公式如下:
J ( θ ) = 1 2 ∑ i m ( y ( i ) ? θ T x ( i ) ) 2 J(θ)=/frac{1}{2}∑_i^m(y^{(i)}-θ^Tx^{(i)})^2 J(θ)=21?i∑m?(y(i)?θTx(i))2
也就是所有誤差和的平方。損失函數值越小,說明誤差越小.這個損失函數也有一個專門的叫法,叫做最小二乘法。
首先,我們是想要獲取到這樣一個公式:
h ( θ ) = θ 0 + θ 1 ? x 1 + θ 2 ? x 2 + … ?(θ)= θ_0 + θ_1*x_1 + θ_2*x_2+… h(θ)=θ0?+θ1??x1?+θ2??x2?+…
那么為了更好的計算,我們將這個公式進行一些變形,將 w 0 w_0 w0?后面加個 x 0 x_0 x0?,只不過這個 x 0 x_0 x0?是為1
。所以可以變化成以下:
h ( θ ) = ∑ i n θ i x i ?(θ)= ∑_i^nθ_ix_i h(θ)=i∑n?θi?xi?
而 θ i θ_i θi?和 x i x_i xi?可以寫成一個矩陣:
[ θ 0 θ 1 θ 3 . . . ] /left[/begin{matrix} θ_0 θ_1 θ_3 ... /end{matrix} /right] [θ0?θ1?θ3?...?] x [ 1 x 1 x 3 . . . ] /left[/begin{matrix} 1 // x_1 // x_3 // ... /end{matrix} /right] ?????1x1?x3?...?????? = ∑ i n θ i x i ∑_i^nθ_ix_i ∑in?θi?xi? = θ T x θ^Tx θTx
用矩陣主要是方便計算。
其次,以上求得的,只是一個預測的值,而不是真實的值,他們中間肯定會存在誤差,因此會有以下公式:
y i = θ i x i + ? i y_i=θ_ix_i + ?_i yi?=θi?xi?+?i?
我們要做的,就是找出最小的 ? i ?_i ?i?,使得預測值和真實值的差距最小。
θ
求解:然后, ? i ?_i ?i?是存在正數,也存在負數,所以可以簡單的把這個數據集,看做是一個服從均值為0
,方差為 σ 2 σ^2 σ2的正態分布。所以 ? i ?_i ?i?出現的概率為:
p ( ? i ) = 1 2 π σ e x p ? ( ? i ) 2 2 σ 2 p(?_i)=/frac{1}{/sqrt{2π}σ}exp{/frac{-(?_i)^2}{2σ^2}} p(?i?)=2π?σ1?exp2σ2?(?i?)2?
把 ? i = y i ? θ i x i ?_i=y_i-θ_ix_i ?i?=yi??θi?xi?代入到以上高斯分布的函數中,變成以下式子:
p ( ? i ) = 1 2 π σ e x p ? ( y i ? θ i x i ) 2 2 σ 2 p(?_i)=/frac{1}{/sqrt{2π}σ}exp{/frac{-(y_i-θ_ix_i)^2}{2σ^2}} p(?
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/123370.html
摘要:下文主要講述前饋神經網絡這個值稱之為損失,我們的目標就是使對所有訓練數據的損失和盡可能的小。對于前饋神經網絡中,這個有向圖是沒有回路的。反饋神經網絡也是一類重要的神經網絡。深度學習中的也屬于一種反饋神經網絡。 監督學習中,如果預測的變量是離散的,我們稱其為分類(如決策樹,支持向量機等); 如果預測的變量是連續的,我們稱其為回歸。 反向傳播算法(back propagation alg...
摘要:機器學習算法類型從廣義上講,有種類型的機器學習算法。強化學習的例子馬爾可夫決策過程常用機器學習算法列表以下是常用機器學習算法的列表。我提供了對各種機器學習算法的高級理解以及運行它們的代碼。決策樹是一種監督學習算法,主要用于分類問題。 showImg(https://segmentfault.com/img/remote/1460000019086462); 介紹 谷歌的自動駕駛汽車和機...
閱讀 608·2021-11-18 13:12
閱讀 1327·2021-11-15 11:39
閱讀 2488·2021-09-23 11:22
閱讀 6222·2021-09-22 15:15
閱讀 3669·2021-09-02 09:54
閱讀 2320·2019-08-30 11:10
閱讀 3254·2019-08-29 14:13
閱讀 2919·2019-08-29 12:49