Hinton提出泛化更優的「軟決策樹」：可解釋DNN具體決策

SillyMonkey 發布于2019-04-25 18:22 / 1033人閱讀

摘要：近日，針對泛化能力強大的深度神經網絡無法解釋其具體決策的問題，深度學習殿堂級人物等人發表論文提出軟決策樹。即使沒有使用無標簽數據，仍然有可能通過使用一種稱為蒸餾法，的技術和一種執行軟決策的決策樹，將神經網絡的泛化能力遷移到決策樹上。

近日，針對泛化能力強大的深度神經網絡（DNN）無法解釋其具體決策的問題，深度學習殿堂級人物 Geoffrey Hinton 等人發表 arXiv 論文提出「軟決策樹」（Soft Decision Tree）。相較于從訓練數據中直接學習的決策樹，軟決策樹的泛化能力更強；并且通過層級決策模型把 DNN 所習得的知識表達出來，具體決策解釋容易很多。這最終緩解了泛化能力與可解釋性之間的張力。

深度神經網絡優秀的泛化能力依賴于其隱藏層中對分布式表征的使用 [LeCun et al., 2015]，但是這些表征難以理解。對于第一個隱藏層我們明白是什么激活了單元，對于最后一個隱藏層我們也明白激活一個單元產生的影響；但是對于其他隱藏層來說，理解有意義變量（比如輸入和輸出變量）的特征激活的原因和影響就困難重重。由于其邊際效應取決于同一層其他單元的影響，使得獨立地理解任何特定的特征激活變得舉步維艱。

相比之下，很容易解釋決策樹是如何做出特定分類的，因為它依賴于一個相對短的決策序列，直接基于輸入數據做出每個決策。但是決策樹并不像深度神經網絡一樣可以很好地泛化。與神經網絡中的隱藏單元不同，決策樹較低級別的典型節點僅被一小部分訓練數據所使用，所以決策樹的較低部分傾向于過擬合，除非相對于樹的深度，訓練集是指數量級的規模。

在這篇論文中，我們提出了一種新的方法，以緩解泛化能力和可解釋性之間的張力。與其嘗試理解深度神經網絡如何決策，我們使用深度神經網絡去訓練一個決策樹以模仿神經網絡發現的「輸入-輸出「函數，但是是以一種完全不同的方式工作。如果存在大量的無標簽數據，該神經網絡可以創建一個大得多的標記數據集去訓練一個決策樹，從而克服決策樹的統計低效問題。即使無標簽數據是不可用的，或許可以使用生成式建模中的研究進展（Goodfellow et al., 2014, Kingma and Welling, 2013）以從一個類似于數據分布的分布中生成合成無標簽數據。即使沒有使用無標簽數據，仍然有可能通過使用一種稱為蒸餾法（distillation，Hinton et al., 2015, Buciluˇa et al., 2006）的技術和一種執行軟決策的決策樹，將神經網絡的泛化能力遷移到決策樹上。

在測試過程中，我們使用決策樹作為我們的模型。該模型的性能可能會略微低于神經網絡，但速度快得多，并且該模型的決策是可解釋的。

為了簡單起見，我們從一類特殊的決策樹開始討論，使深度神經網絡的知識能更容易地被提取/蒸餾然后導入決策樹中。

2、專家的層次化混合

我們使用小批量梯度下降法訓練軟二元決策樹，其中每一個內部節點（inner node）i 有一個學習到的過濾器 w_i 和一個偏置 b_i，每一個葉節點（leaf node）l 有一個學習到的分布 Q_l。在每一個內部節點處，選擇最右邊的分支的概率為：

其中 x 是模型的輸入，σ是 sigmoid logistic 函數。

這個模型是專家的層次化混合（hierarchical mixture of experts，Jordan and Jacobs, 1994），但每個專家實際上都是一個「偏執者（bigot）」，即在訓練之后，無論輸入是什么都會生成相同的分布。該模型學習到了一個過濾器的分層體系，用于為每個樣本分配一個特定的專家以及相關的特定路徑概率，并且每個偏執者都學習到了一個簡單的、靜態的關于所有可能輸出類 k 的分布。

其中 Q^l. 表示在第 l 葉的概率分布，Φ^l. 是第 l 葉的學習參數。

圖 1：這個示意圖展示了一個有單個內部節點和兩個葉節點的軟二元決策樹。

圖 2：一個在 MNIST 上訓練的 4 層軟決策樹的可視化。

內部節點中的圖像是學習到的過濾器，葉節點中的圖像是學習到的類概率分布的可視化。圖中標注了每一葉的最終的較大可能分類，以及每一個邊的可能分類。以最右邊的內部節點為例，可以看到在決策樹的當前層次下可能的分類只有 3 和 8，因此該學習到的卷積核只需要簡單地學習區分這兩個數字就可以了。

圖 3：在 Connect4 數據集上訓練的軟決策樹前 2 層的可視化示例。

通過檢查已學習的過濾器，我們可以看到游戲可以分為兩種截然不同的子類型：一種是玩家將棋子放在棋盤的邊緣，另一種是玩家將棋子放在棋盤中央。

論文：Distilling a Neural Network Into a Soft Decision Tree

論文地址：https://arxiv.org/abs/1711.09784

摘要：深度神經網絡已經在分類任務上證明了其有效性；當輸入數據是高維度，輸入與輸出之間的關系很復雜，已標注的訓練實例數量較大時，深度神經網絡的表現更為突出。由于它們對分布式層級表征的依賴，很難解釋為什么一個已學習的網絡能夠在特定的測試中做出特定的分類決策。如果我們能夠獲取神經網絡習得的知識，并借助依賴于層級決策的模型表達出來，那么解釋一個特定的決策將會容易很多。我們描述了一種使用已訓練的神經網絡創建軟決策樹的方法，它比直接從訓練數據中學習的決策樹有著更優的泛化能力。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器決策樹決策樹python 決策樹圖像識別機器學習決策樹

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4688.html

發表評論

登陸后可評論

0條評論

SillyMonkey

男|高級講師

我要關注我要私信

TA的文章

前端進階（8） - 前端開發需要了解的工具集合：webpack, eslint, prettier,

閱讀 1876·2019-08-29 16:44
HTML與CSS中的定位個人分享

閱讀 2179·2019-08-29 16:30
Z-index 層疊上下文和層疊水平

閱讀 788·2019-08-29 15:12
使用next.js結合GITHUB ISSUE實現博客。

閱讀 3534·2019-08-26 10:48
Vue數據響應式原理筆記就幾行沒啥可看的

閱讀 2664·2019-08-23 18:33
避免CDN引用資源被webpack打包進出口bundle.js文件

閱讀 3784·2019-08-23 17:01
scheduler 源碼

閱讀 1947·2019-08-23 15:54
前端路由跳轉基本原理

閱讀 1310·2019-08-23 15:05

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

Hinton提出泛化更優的「軟決策樹」：可解釋DNN具體決策

相關文章

發表評論

0條評論

SillyMonkey

男|高級講師

TA的文章

前端進階（8） - 前端開發需要了解的工具集合：webpack, eslint, prettier,

HTML與CSS中的定位個人分享

Z-index 層疊上下文和層疊水平

使用next.js結合GITHUB ISSUE實現博客。

Vue數據響應式原理筆記就幾行沒啥可看的

避免CDN引用資源被webpack打包進出口bundle.js文件

scheduler 源碼

前端路由跳轉基本原理

最新活動