機(jī)器學(xué)習(xí)從入門到放棄之決策樹算法

mikyou 發(fā)布于2019-07-25 10:33 / 2149人閱讀

摘要：總言言之，決策樹第一個(gè)是需要從大量的已存在的樣本中推出可供做決策的規(guī)則，同時(shí)，這個(gè)規(guī)則應(yīng)該避免做無謂的損耗。算法原理構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性。這時(shí)分裂屬性可能會(huì)遇到三種不同的情況對(duì)離散值生成非二叉決策樹。對(duì)離散值生成二叉決策樹。

算法背景

決策樹故名思意是用于基于條件來做決策的，而它運(yùn)行的邏輯相比一些復(fù)雜的算法更容易理解，只需按條件遍歷樹就可以了，需要花點(diǎn)心思的是理解如何建立決策樹。

舉個(gè)例子，就好像女兒回家，做媽媽的給女兒介紹對(duì)象，于是就有了以下對(duì)話：

媽媽：女啊，明天有沒有時(shí)間，媽媽給你介紹個(gè)對(duì)象
女兒：有啊，對(duì)方多大了。
媽媽：年齡和你相仿
女兒：帥不帥啊
媽媽: 帥
女兒：那我明天去看看

媽媽和女兒對(duì)話的這個(gè)過程中，女兒的決策過程可以用下圖表示：

你可能會(huì)認(rèn)為，這個(gè)決策的過程本質(zhì)上就是對(duì)數(shù)據(jù)集的每一個(gè)做if--else的判斷，這不很簡(jiǎn)單嗎？那為什么還要專門弄一個(gè)算法出來呢？

不妨可以考慮兩點(diǎn)，假如訓(xùn)練數(shù)據(jù)集中存在無關(guān)項(xiàng)，比如以下的例子：

10-1  #表示第一項(xiàng)特征是1，第二項(xiàng)特征是0，最后推出的結(jié)果是1，以下同理
12-1
05-0
09-0
17-1
……

顯然的，最后結(jié)果和第二個(gè)特征無關(guān)，如果仍要做判斷就會(huì)增加了損耗。所以在建立決策樹的過程中，我們就希望把這些無關(guān)項(xiàng)扔掉。

第二點(diǎn)，回到媽媽給女兒介紹對(duì)象的這個(gè)例子，上圖是為了方面讀者理解，所以按照順序畫出，但事實(shí)上，有一個(gè)嚴(yán)重的問題，比如說女兒可能不能容忍某個(gè)缺點(diǎn)，而一旦對(duì)方的性格中具有這個(gè)缺點(diǎn)，那么其他一切都不用考慮。也就是說，有一個(gè)特征跟最后的結(jié)果相關(guān)度極高，這時(shí)我們就希望這個(gè)數(shù)據(jù)出現(xiàn)在根節(jié)點(diǎn)上，如果核心條件不滿足那就結(jié)束遍歷這棵樹了，避免無謂的損耗。

總言言之，決策樹第一個(gè)是需要從大量的已存在的樣本中推出可供做決策的規(guī)則，同時(shí)，這個(gè)規(guī)則應(yīng)該避免做無謂的損耗。

算法原理

構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性。分裂屬性值得就是在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支，其目標(biāo)是讓各個(gè)分裂子集盡可能地“純”。盡可能“純”就是盡量讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。這時(shí)分裂屬性可能會(huì)遇到三種不同的情況：

對(duì)離散值生成非二叉決策樹。此時(shí)用屬性的每一個(gè)劃分作為一個(gè)分支。

對(duì)離散值生成二叉決策樹。此時(shí)使用屬性劃分的一個(gè)子集進(jìn)行測(cè)試，按照“屬于此子集”和“不屬于此子集”分成兩個(gè)分支。

屬性是連續(xù)值。確定一個(gè)split_point，按照>split_point和<=split_point轉(zhuǎn)成成離散，分別建立兩個(gè)分支。

構(gòu)造決策樹的關(guān)鍵性內(nèi)容是進(jìn)行屬性選擇度量，屬性選擇度量是一種選擇分裂準(zhǔn)則，是將給定的類標(biāo)記的訓(xùn)練集合的數(shù)據(jù)劃分D“最好”地分成個(gè)體類的啟發(fā)式方法，它決定了拓?fù)浣Y(jié)構(gòu)及分裂點(diǎn)split_point的選擇。

在這里僅介紹比較常用的ID3算法。

從信息論知識(shí)中我們直到，期望信息越小，信息增益越大，從而純度越高。所以ID3算法的核心思想就是以信息增益度量屬性選擇，選擇分裂后信息增益最大的屬性進(jìn)行分裂。

循序本系列的從工程角度理解算法，而非數(shù)學(xué)角度理解算法的原則，因此這里只給出信息增益度量的計(jì)算方式，如果需要深入了解其數(shù)學(xué)原理，請(qǐng)查閱專業(yè)資料。

設(shè)D為用類別對(duì)訓(xùn)練元組進(jìn)行的劃分，則D的熵計(jì)算方法為：

其中pi表示第i個(gè)類別在整個(gè)訓(xùn)練集中出現(xiàn)的概率。

當(dāng)按照特征A分割后，其期望信息為：

其中Di/D表示每一個(gè)D在整體訓(xùn)練集占的比例。

而信息增益即為兩者的差值：

其中當(dāng)gain(A)達(dá)到最大時(shí)，該特征便是最佳的劃分特征，選中最佳特征作為當(dāng)前的節(jié)點(diǎn)，隨后對(duì)劃分后的子集進(jìn)行迭代操作。

算法實(shí)現(xiàn)

github

在本專欄的前面的文章描述了基于決策樹的五子棋游戲，算是一個(gè)基于決策樹的應(yīng)用了。詳情請(qǐng)點(diǎn)這里

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)決策樹 hadoop之hbase從入門到精通機(jī)器學(xué)習(xí)入門之深度學(xué)習(xí)從入門到精通

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/38027.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

mikyou

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

10個(gè)程序員必上的網(wǎng)站

閱讀 3690·2021-10-09 09:44
什么是域名中的主機(jī)名-域名中的主機(jī)名怎么看？

閱讀 3389·2021-09-22 15:29
開發(fā)一個(gè)自己的 CSS 框架（三）

閱讀 3140·2019-08-30 15:54
css前端初始化

閱讀 3024·2019-08-29 16:19
學(xué)習(xí)實(shí)踐 - 收藏集 - 掘金

閱讀 2151·2019-08-29 12:50
serverless在微店node領(lǐng)域的探索應(yīng)用

閱讀 600·2019-08-26 14:04
js面試題目

閱讀 1706·2019-08-23 18:39
掌握 Javascript 類型轉(zhuǎn)換：從規(guī)則開始

閱讀 1354·2019-08-23 17:59

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

機(jī)器學(xué)習(xí)從入門到放棄之決策樹算法

相關(guān)文章

機(jī)器學(xué)習(xí)--決策樹--dot轉(zhuǎn)存pdf

發(fā)表評(píng)論

0條評(píng)論

mikyou

男|高級(jí)講師

TA的文章

10個(gè)程序員必上的網(wǎng)站

什么是域名中的主機(jī)名-域名中的主機(jī)名怎么看？

開發(fā)一個(gè)自己的 CSS 框架（三）

css前端初始化

學(xué)習(xí)實(shí)踐 - 收藏集 - 掘金

serverless在微店node領(lǐng)域的探索應(yīng)用

js面試題目

掌握 Javascript 類型轉(zhuǎn)換：從規(guī)則開始

最新活動(dòng)