摘要:機(jī)器學(xué)習(xí)線性回歸原理介紹機(jī)器學(xué)習(xí)線性回歸實(shí)現(xiàn)機(jī)器學(xué)習(xí)線性回歸實(shí)現(xiàn)通常我們學(xué)習(xí)機(jī)器學(xué)習(xí)都是從線性回歸模型開始的。這就是種使身高回歸于中心的作用。均方誤差作為線性回歸模型的代價(jià)函數(shù)。為了方便,這里以單變量線性回歸為例。
【機(jī)器學(xué)習(xí)】線性回歸原理介紹
【機(jī)器學(xué)習(xí)】線性回歸python實(shí)現(xiàn)
【機(jī)器學(xué)習(xí)】線性回歸sklearn實(shí)現(xiàn)
通常我們學(xué)習(xí)機(jī)器學(xué)習(xí)都是從線性回歸模型開始的。線性回歸模型形式簡單、易于建模,但是我們可以從中學(xué)習(xí)到機(jī)器學(xué)習(xí)的一些重要的基本思想。
回歸一詞的由來:這個術(shù)語是英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓在1886年左右提出來的。人們大概都注意到,子代的身高與其父母的身高有關(guān)。高爾頓以父母的平均身高X作為自變量,其一成年兒子的身高Y為因變量。他觀察了1074對父母及其一成年兒子的身高,將所得(X, Y)值標(biāo)在直角坐標(biāo)系上,發(fā)現(xiàn)二者的關(guān)系近乎一條直線,總的趨勢是X增加時Y傾向于增加,這是意料中的結(jié)果.有意思的是,高爾頓對所得數(shù)據(jù)做了深入一層的考察,而發(fā)現(xiàn)了某種有趣的現(xiàn)象。
高爾頓算出這1074個X值的算術(shù)平均為68英寸(1英寸為2.54厘米),而1074個Y值的算術(shù)平均為69英寸,子代身高平均增加了1英寸,這個趨勢現(xiàn)今人們也已注意到。以此為據(jù),人們可能會這樣推想:如果父母平均身高為a英寸,則這些父母的子代平均身高應(yīng)為a+1英寸,即比父代多1英寸。但高爾頓觀察的結(jié)果與此不符,他發(fā)現(xiàn):當(dāng)父母平均身高為72英寸時,他們的子代身高平均只有71英寸,不僅達(dá)不到預(yù)計(jì)的72+1=73英寸,反而比父母平均身高小了。反之,若父母平均身高為64英寸,則觀察數(shù)據(jù)顯示子代平均身高為67英寸,比預(yù)計(jì)的64+1=65英寸要多。
高爾頓對此的解釋是:大自然有一種約束機(jī)制,使人類身高分布保持某種穩(wěn)定形態(tài)而不作兩極分化。這就是種使身高“回歸于中心“的作用。例如,父母身高平均為72英寸,比他們這一代平均身高68英寸高出許多,“回歸于中心”的力量把他們子代的身高拉回來些:其平均身高只有71英寸,反比父母平均身高小,但仍超過子代全體平均69英寸。反之,當(dāng)父母平均身高只有64英寸,遠(yuǎn)低于他們這代的平均值68英寸時,“回歸于中心”的力量將其子代身高拉回去一些,其平均值達(dá)到67英寸,增長了3英寸,但仍低于子代全體平均值69英寸。
正是通過這個例子,高爾頓引人了“回歸”這個名詞。
線性回歸的模型形如:
線性回歸得出的模型不一定是一條直線,在只有一個變量的時候,模型是平面中的一條直線;有兩個變量的時候,模型是空間中的一個平面;有更多變量時,模型將是更高維的。
線性回歸模型有很好的可解釋性,可以從權(quán)重W直接看出每個特征對結(jié)果的影響程度。
線性回歸適用于X和y之間存在線性關(guān)系的數(shù)據(jù)集,可以使用計(jì)算機(jī)輔助畫出散點(diǎn)圖來觀察是否存在線性關(guān)系。例如我們假設(shè)房屋價(jià)格和房屋面積之間存在某種線性關(guān)系,畫出散點(diǎn)圖如下圖所示。
看起來這些點(diǎn)分布在一條直線附近,我們嘗試使用一條直線來擬合數(shù)據(jù),使所有點(diǎn)到直線的距離之和最小。實(shí)際上,線性回歸中通常使用殘差平方和,即點(diǎn)到直線的平行于y軸的距離而不用垂線距離,殘差平方和除以樣本量n就是均方誤差。均方誤差作為線性回歸模型的代價(jià)函數(shù)(cost function)。使所有點(diǎn)到直線的距離之和最小,就是使均方誤差最小化,這個方法叫做最小二乘法。
代價(jià)函數(shù):
其中,
下面求使J最小的W和b:
1.偏導(dǎo)數(shù)法偏導(dǎo)數(shù)法是非常麻煩的,需要一個一個地計(jì)算w。為了方便,這里以單變量線性回歸為例。
2.正規(guī)方程法正規(guī)方程使用矩陣運(yùn)算,可以一次求出W向量。但是當(dāng)變量(feature)個數(shù)大于數(shù)據(jù)個數(shù)時,會導(dǎo)致xTx不可逆,這時候就不能用此方法了。
使用正規(guī)方程法,如果希望得到的模型帶有偏置項(xiàng)b,就要先給數(shù)據(jù)集X增加全為1的一列,這樣才會把b包含在W中;如果不添加,那么模型是強(qiáng)制過原點(diǎn)的。
3.梯度下降這里的代價(jià)函數(shù)J的海森矩陣H是半正定的,因此J一定有全局最小值,所以也可以使用梯度下降法來求解。梯度下降法是一種迭代解法,不僅可以求解最小二乘問題,也適用于其它代價(jià)函數(shù)的問題。但是需要設(shè)置學(xué)習(xí)率α,α設(shè)置的過大或過小,都不能很好地訓(xùn)練出模型,而且梯度下降法需要對數(shù)據(jù)集進(jìn)行特征縮放。一般會在數(shù)據(jù)集特別大的時候或者xTx不可逆的時候使用梯度下降法,后面再做介紹。
4.其他還有一些方法就不一一列舉了。例如奇異值分解,QR分解,喬姆斯基分解等等。
計(jì)算出的模型如下圖。
再放一個兩個變量的情況的,如下圖。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19907.html
摘要:機(jī)器學(xué)習(xí)多項(xiàng)式回歸原理介紹機(jī)器學(xué)習(xí)多項(xiàng)式回歸實(shí)現(xiàn)機(jī)器學(xué)習(xí)多項(xiàng)式回歸實(shí)現(xiàn)在上一節(jié)中我們介紹了線性回歸的原理,然后分別用和實(shí)現(xiàn)了不同變量個數(shù)的線性回歸的幾個例子。可以看出多項(xiàng)式回歸模型的效果綠線要明顯好于線性回歸模型黃線。 【機(jī)器學(xué)習(xí)】多項(xiàng)式回歸原理介紹 【機(jī)器學(xué)習(xí)】多項(xiàng)式回歸python實(shí)現(xiàn) 【機(jī)器學(xué)習(xí)】多項(xiàng)式回歸sklearn實(shí)現(xiàn) 在上一節(jié)中我們介紹了線性回歸的原理,...
摘要:機(jī)器學(xué)習(xí)線性回歸原理介紹機(jī)器學(xué)習(xí)線性回歸實(shí)現(xiàn)機(jī)器學(xué)習(xí)線性回歸實(shí)現(xiàn)這里使用實(shí)現(xiàn)線性回歸,沒有使用等機(jī)器學(xué)習(xí)框架,目的是幫助理解算法的原理。單變量和雙變量的使用的自己模擬的一個簡單的房價(jià)數(shù)據(jù)集,多變量的使用的房價(jià)數(shù)據(jù)集。 【機(jī)器學(xué)習(xí)】線性回歸原理介紹 【機(jī)器學(xué)習(xí)】線性回歸python實(shí)現(xiàn) 【機(jī)器學(xué)習(xí)】線性回歸sklearn實(shí)現(xiàn) 這里使用python實(shí)現(xiàn)線性回歸,沒有使用sklearn等...
閱讀 2686·2019-08-30 15:55
閱讀 1815·2019-08-30 15:53
閱讀 2666·2019-08-29 18:38
閱讀 936·2019-08-26 13:49
閱讀 508·2019-08-23 15:42
閱讀 3138·2019-08-22 16:33
閱讀 1012·2019-08-21 17:59
閱讀 1090·2019-08-21 17:11