摘要:進(jìn)入當(dāng)前程序的學(xué)習(xí)系統(tǒng)的所有樣本稱作輸入,并組成輸入空間。結(jié)束語(yǔ)注意這篇文章僅僅是我接下來(lái)的機(jī)器學(xué)習(xí)系列的第一篇,后續(xù)還會(huì)有更多的內(nèi)容。
往期回顧:統(tǒng)計(jì)學(xué)習(xí)方法第二版 李航
距離上次介紹機(jī)器學(xué)習(xí)相關(guān)的內(nèi)容,已經(jīng)過(guò)了一年的時(shí)間了,而這篇博客目前的閱讀量也將近3000k,這樣數(shù)據(jù)看起來(lái)似乎也還算不錯(cuò),可惜因?yàn)槲耶?dāng)時(shí)沒(méi)有足夠的時(shí)間和精力去完整把這篇博客寫(xiě)完,只介紹了機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),感知機(jī)和KNN等知識(shí)。
個(gè)人認(rèn)為這篇博客在每個(gè)知識(shí)點(diǎn)上總結(jié)得非常的詳細(xì),但這次我想換一種方式,以一種更簡(jiǎn)潔的方式來(lái)介紹機(jī)器學(xué)習(xí)的理論基礎(chǔ)以及幾種常用模型。
那么本篇文章呢,是帶大家入門(mén)機(jī)器學(xué)習(xí)的第一期,也就是會(huì)介紹機(jī)器學(xué)習(xí)的理論基礎(chǔ)。
那在這里,我也要先引用一下一個(gè)非常經(jīng)典的小故事,幫助大家更清楚地理解機(jī)器學(xué)習(xí)。
在一個(gè)酒吧里,吧臺(tái)上擺著十杯幾乎一樣的紅酒,老板跟你打趣說(shuō)想不想來(lái)玩?zhèn)€游戲,贏了免費(fèi)喝酒,輸了付3倍酒錢(qián),那么贏的概率是多少?
你是個(gè)愛(ài)冒險(xiǎn)的人,果斷說(shuō)玩!
老板接著道:你眼前的這十杯紅酒,每杯略不相同,前五杯屬于「赤霞珠」后五杯屬于「黑皮諾」。現(xiàn)在,我重新倒一杯酒,你只需要正確地告訴我它屬于哪一類。
聽(tīng)完你有點(diǎn)心虛:根本不懂酒啊,光靠看和嘗根本區(qū)分辨不出來(lái),不過(guò)想起自己是搞機(jī)器學(xué)習(xí)的,不由多了幾分底氣爽快地答應(yīng)了老板!
你沒(méi)有急著品酒而是問(wèn)了老板每杯酒的一些具體信息:酒精濃度、顏色深度,以及一份紙筆, 老板一邊倒一杯新酒,你邊瘋狂打草稿。
很快,你告訴老板這杯新酒應(yīng)該是「赤霞珠」。
老板瞪大了眼下巴也差點(diǎn)驚掉,從來(lái)沒(méi)有人一口酒都不嘗就能答對(duì),無(wú)數(shù)人都是反復(fù)嘗來(lái)嘗去,最后以猶豫不定猜錯(cuò)而結(jié)束。
你神秘地笑了笑,老板信守承諾讓你開(kāi)懷暢飲。微醺之時(shí),老板終于忍不住湊向你打探是怎么做到的。
你炫耀道:無(wú)他,但機(jī)器學(xué)習(xí)熟爾。
老板:…
怎么辨別出來(lái)的呢?
如下圖,故事中的你畫(huà)了類似這樣子的圖,就區(qū)分出來(lái)了,到底是怎么回事?
指對(duì)數(shù)據(jù)的若干特征與若干標(biāo)簽(類型)之間的關(guān)聯(lián)性進(jìn)行建模的過(guò)程; 只要模型被確定,就可以應(yīng)用到新的未知數(shù)據(jù)上。
這類學(xué)習(xí)過(guò)程可以進(jìn)一步分為「分類」(classification)任務(wù)和「回歸」(regression)任務(wù)。
在分類任務(wù)中,標(biāo)簽都是離散值;
而在回歸任務(wù)中,標(biāo)簽都是連續(xù)值。
指對(duì)不帶任何標(biāo)簽的數(shù)據(jù)特征進(jìn)行建模,通常被看成是一種“讓數(shù)據(jù)自己介紹自己” 的過(guò)程。
這類模型包括「聚類」(clustering)任務(wù)和「降維」(dimensionality reduction)任務(wù)。
聚類算法可以將數(shù)據(jù)分成不同的組別,而降維算法追求用更簡(jiǎn)潔的方式表現(xiàn)數(shù)據(jù)。
另外,還有一種半監(jiān)督學(xué)習(xí)(semi-supervised learning)方法,介于有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間。通常可以在數(shù)據(jù)不完整時(shí)使用。
強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評(píng)價(jià)過(guò)程,以"試錯(cuò)" 的方式進(jìn)行學(xué)習(xí),并與環(huán)境進(jìn)行交互已獲得獎(jiǎng)懲指導(dǎo)行為,以其作為評(píng)價(jià)。
此時(shí)系統(tǒng)靠自身的狀態(tài)和動(dòng)作進(jìn)行學(xué)習(xí),從而改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。
(提示:半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)比較偏向于深度學(xué)習(xí),因此在后續(xù)文章中也不會(huì)再提到。)
在上面的場(chǎng)景中,每一杯酒稱作一個(gè)「樣本」,十杯酒組成一個(gè)樣本集。
酒精濃度、顏色深度等信息稱作「特征」。這十杯酒分布在一個(gè)「多維特征空間」中。
進(jìn)入當(dāng)前程序的“學(xué)習(xí)系統(tǒng)”的所有樣本稱作「輸入」,并組成「輸入空間」。
在學(xué)習(xí)過(guò)程中,所產(chǎn)生的隨機(jī)變量的取值,稱作「輸出」,并組成「輸出空間」。
在有監(jiān)督學(xué)習(xí)過(guò)程中,當(dāng)輸出變量均為連續(xù)變量時(shí),預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題;當(dāng)輸出變量為有限個(gè)離散變量時(shí),預(yù)測(cè)問(wèn)題稱為分類問(wèn)題。
先來(lái)一句易懂的話:
下面是具體介紹。
當(dāng)假設(shè)空間中含有不同復(fù)雜度的模型時(shí),就要面臨模型選擇(model selection)的問(wèn)題。
我們希望獲得的是在新樣本上能表現(xiàn)得很好的學(xué)習(xí)器。為了達(dá)到這個(gè)目的,我們應(yīng)該從訓(xùn)練樣本中盡可能學(xué)到適用于所有潛在樣本的"普遍規(guī)律",
我們認(rèn)為假設(shè)空間存在這種"真"模型,那么所選擇的模型應(yīng)該逼近真模型。
擬合度可簡(jiǎn)單理解為模型對(duì)于數(shù)據(jù)集背后客觀規(guī)律的掌握程度,模型對(duì)于給定數(shù)據(jù)集如果擬合度較差,則對(duì)規(guī)律的捕捉不完全,用作分類和預(yù)測(cè)時(shí)可能準(zhǔn)確率不高。
換句話說(shuō),當(dāng)模型把訓(xùn)練樣本學(xué)得太好了的時(shí)候,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本的普遍性質(zhì),這時(shí)候所選的模型的復(fù)雜度往往會(huì)比真模型更高,這樣就會(huì)導(dǎo)致泛化性能下降。這種現(xiàn)象稱為過(guò)擬合(overfitting)。可以說(shuō),模型選擇旨在避免過(guò)擬合并提高模型的預(yù)測(cè)能力。
與過(guò)擬合相對(duì)的是欠擬合(underfitting),是指模型學(xué)習(xí)能力低下,導(dǎo)致對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)
好。
虛線:針對(duì)訓(xùn)練數(shù)據(jù)集計(jì)算出來(lái)的分?jǐn)?shù),即針對(duì)訓(xùn)練數(shù)據(jù)集擬合的準(zhǔn)確性。
實(shí)線:針對(duì)交叉驗(yàn)證數(shù)據(jù)集計(jì)算出來(lái)的分?jǐn)?shù),即針對(duì)交叉驗(yàn)證數(shù)據(jù)集預(yù)測(cè)的準(zhǔn)確性。
從圖中我們可以看出,對(duì)于復(fù)雜數(shù)據(jù),低階多項(xiàng)式往往是欠擬合的狀態(tài),而高階多項(xiàng)式則過(guò)分捕捉噪聲數(shù)據(jù)的分布規(guī)律,而噪聲之所以稱為噪聲,是因?yàn)槠浞植己翢o(wú)規(guī)律可言,或者其分布毫無(wú)價(jià)值,因此就算高階多項(xiàng)式在當(dāng)前訓(xùn)練集上擬合度很高,但其捕捉到的無(wú)用規(guī)律無(wú)法推廣到新的數(shù)據(jù)集上。因此該模型在測(cè)試數(shù)據(jù)集上執(zhí)行過(guò)程將會(huì)有很大誤差,即模型訓(xùn)練誤差很小,但泛化誤差很大。
注意:這篇文章僅僅是我接下來(lái)的機(jī)器學(xué)習(xí)系列的第一篇,后續(xù)還會(huì)有更多的內(nèi)容。同時(shí)機(jī)器學(xué)習(xí)理論基礎(chǔ)當(dāng)然還有其他內(nèi)容要補(bǔ)充,之所以沒(méi)有放到這里是因?yàn)槲掖蛩憬Y(jié)合KNN算法一起來(lái)補(bǔ)充。
如果大家有多的時(shí)間的話,也可以再去仔細(xì)看看我之前寫(xiě)的那篇。
往期內(nèi)容回顧
?? 統(tǒng)計(jì)學(xué)習(xí)方法第二版 李航
? 我和關(guān)注我的前1000個(gè)粉絲“合影”啦!收集前1000個(gè)粉絲進(jìn)行了一系列數(shù)據(jù)分析,收獲滿滿
? 分享一個(gè)超nice的數(shù)據(jù)分析實(shí)戰(zhàn)案例 ? “手把手”教學(xué),收藏等于學(xué)會(huì)
? 數(shù)據(jù)分析必須掌握的RFM模型是什么?一文搞懂如何利用RFM對(duì)用戶進(jìn)行分類【附實(shí)戰(zhàn)講解】
? MySQL必須掌握的技能有哪些?超細(xì)長(zhǎng)文帶你掌握MySQL【建議收藏】
? Hive必須了解的技能有哪些?萬(wàn)字博客帶你掌握Hive??【建議收藏】
? 一文帶你了解Hive【詳細(xì)介紹】Hive與傳統(tǒng)數(shù)據(jù)庫(kù)有什么區(qū)別?
推薦關(guān)注的專欄
??????? 數(shù)據(jù)分析:分享數(shù)據(jù)分析實(shí)戰(zhàn)項(xiàng)目和常用技能整理
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/119684.html
摘要:大家好,我是冰河有句話叫做投資啥都不如投資自己的回報(bào)率高。馬上就十一國(guó)慶假期了,給小伙伴們分享下,從小白程序員到大廠高級(jí)技術(shù)專家我看過(guò)哪些技術(shù)類書(shū)籍。 大家好,我是...
摘要:半路出家的前端程序員應(yīng)該不在少數(shù),我也是其中之一。年,馮馮同事兼師兄看我寫(xiě)太費(fèi)勁,跟我說(shuō)對(duì)面樓在找,問(wèn)我要不要學(xué),說(shuō)出來(lái)可能有點(diǎn)丟人,但是在那之前,我真得不知道什么是,什么是。 半路出家的前端程序員應(yīng)該不在少數(shù),我也是其中之一。 為何會(huì)走向前端 非計(jì)算機(jī)專業(yè)的我,畢業(yè)之后,就職于一家電力行業(yè)公司,做過(guò)設(shè)備調(diào)試、部門(mén)助理、測(cè)試,也寫(xiě)過(guò)一段時(shí)間的QT,那三年的時(shí)間,最難過(guò)的不是工作忙不忙,...
摘要:在這里我分享下我個(gè)人入門(mén)機(jī)器學(xué)習(xí)的經(jīng)歷,希望能對(duì)大家能有所幫助。相關(guān)學(xué)習(xí)鏈接,,入門(mén)后的體驗(yàn)在入門(mén)了機(jī)器學(xué)習(xí)之后,在實(shí)際工作中,絕大多數(shù)的情況下你并不需要去創(chuàng)造一個(gè)新的算法。 機(jī)器學(xué)習(xí)在很多眼里就是香餑餑,因?yàn)闄C(jī)器學(xué)習(xí)相關(guān)的崗位在當(dāng)前市場(chǎng)待遇不錯(cuò),但同時(shí)機(jī)器學(xué)習(xí)在很多人面前又是一座大山,因?yàn)榘l(fā)現(xiàn)它太難學(xué)了。在這里我分享下我個(gè)人入門(mén)機(jī)器學(xué)習(xí)的經(jīng)歷,希望能對(duì)大家能有所幫助。 PS:這篇文章...
閱讀 2049·2021-10-08 10:05
閱讀 1889·2021-09-22 15:31
閱讀 3012·2021-09-22 15:13
閱讀 3488·2021-09-09 09:34
閱讀 2087·2021-09-03 10:46
閱讀 3125·2019-08-30 15:56
閱讀 1705·2019-08-30 15:53
閱讀 2360·2019-08-30 15:44