論文解讀：華盛頓大學(xué)教授Pedro Domingos技術(shù)論文：機(jī)器學(xué)習(xí)中一些有用的知識(shí)（二）

selfimpr 發(fā)布于2019-06-26 18:22 / 2347人閱讀

摘要：機(jī)器學(xué)習(xí)項(xiàng)目通常會(huì)有一個(gè)重要的學(xué)習(xí)者設(shè)計(jì)組成部分，從業(yè)者需要有一些專(zhuān)業(yè)知識(shí)。在機(jī)器學(xué)習(xí)中，這通常意味著，給定兩個(gè)具有相同訓(xùn)練錯(cuò)誤的分類(lèi)器，其中較簡(jiǎn)單的分類(lèi)器可能具有最低的測(cè)試錯(cuò)誤。機(jī)器學(xué)習(xí)通常應(yīng)用于觀察性數(shù)據(jù)，其中預(yù)測(cè)變量不受學(xué)習(xí)者的控制。

摘要：這是機(jī)器學(xué)習(xí)研究人員和從業(yè)人員所學(xué)到的12個(gè)關(guān)鍵經(jīng)驗(yàn)教訓(xùn)的總結(jié)，包括避免陷阱，重點(diǎn)問(wèn)題以及常見(jiàn)問(wèn)題的答案。

論文解讀：華盛頓大學(xué)教授Pedro Domingos技術(shù)論文：機(jī)器學(xué)習(xí)中一些有用的知識(shí)（一）

論文地址：https://homes.cs.washington.e...

7：特征工程是關(guān)鍵

有些機(jī)器學(xué)習(xí)項(xiàng)目成功了，有些失敗了，到底什么在其中起到關(guān)鍵作用？最容易使用的特征是最重要的因素。如果你有許多獨(dú)立的特征，每個(gè)特征都與類(lèi)相關(guān)聯(lián)，學(xué)習(xí)是很容易。另一方面，如果這個(gè)類(lèi)是一個(gè)非常復(fù)雜的特征，你可能無(wú)法學(xué)習(xí)它。通常情況下，原始數(shù)據(jù)不是可以學(xué)習(xí)的形式，但是可以從中構(gòu)建特征。這通常是機(jī)器學(xué)習(xí)項(xiàng)目中的大部分工作所在，它通常也是最有趣的部分之一，其中直覺(jué)、創(chuàng)造力和“黑色藝術(shù)”與技術(shù)材料一樣重要。

初學(xué)者常常驚訝于機(jī)器學(xué)習(xí)項(xiàng)目實(shí)際進(jìn)行機(jī)器學(xué)習(xí)的時(shí)間太少。但是，如果考慮收集數(shù)據(jù)，整合數(shù)據(jù)，清理數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及進(jìn)行特征設(shè)計(jì)的嘗試和錯(cuò)誤可能會(huì)花費(fèi)多少時(shí)間，你會(huì)發(fā)現(xiàn)這些才是真正費(fèi)時(shí)間的。此外，機(jī)器學(xué)習(xí)不是建立數(shù)據(jù)集和運(yùn)行模型的一步式過(guò)程，而是運(yùn)行模型、分析結(jié)果、修改數(shù)據(jù)或模型并重復(fù)的迭代過(guò)程。訓(xùn)練通常是最快速的部分，但那是因?yàn)槲覀円呀?jīng)掌握了很好的技巧！特征工程是最困難的，因?yàn)樗翘囟I(lǐng)域的，而訓(xùn)練是通用標(biāo)準(zhǔn)執(zhí)行的。但是，兩者之間沒(méi)有明顯的邊界。

8：更多數(shù)據(jù)擊敗更聰明的算法

在大多數(shù)計(jì)算機(jī)科學(xué)中，這兩種主要的有限資源是時(shí)間和記憶。在機(jī)器學(xué)習(xí)中，還有第三個(gè)：訓(xùn)練數(shù)據(jù)。在20世紀(jì)80年代，數(shù)據(jù)是稀缺的。今天往往是時(shí)間是寶貴的。大量的數(shù)據(jù)是可用的，但沒(méi)有足夠的時(shí)間來(lái)處理它，所以它沒(méi)有被使用。這導(dǎo)致了一個(gè)矛盾：盡管原則上更多的數(shù)據(jù)意味著可以學(xué)習(xí)更復(fù)雜的分類(lèi)器，但在實(shí)踐中是更簡(jiǎn)單的分類(lèi)器被使用，因?yàn)閺?fù)雜的分類(lèi)器學(xué)習(xí)時(shí)間過(guò)長(zhǎng)。今天所有的研究者都想找到快速訓(xùn)練復(fù)雜分類(lèi)器的方法，而且在這方面確實(shí)取得了顯著的進(jìn)展。

部分原因是使用更聰明的算法。所有學(xué)習(xí)者本質(zhì)上都是通過(guò)將附近的例子分組到同一個(gè)類(lèi)來(lái)工作的，關(guān)鍵的區(qū)別在于“附近”。由于數(shù)據(jù)分布不均勻，訓(xùn)練可以產(chǎn)生廣泛不同的邊界，同時(shí)在重要的區(qū)域仍然做出相同的預(yù)測(cè)（具有大量訓(xùn)練實(shí)例的那些預(yù)測(cè)），大多數(shù)文本示例可能會(huì)出現(xiàn)。

通常，首先嘗試最簡(jiǎn)單的訓(xùn)練（例如，邏輯回歸之前的樸素貝葉斯，支持向量機(jī)之前的k-最近鄰居）。更復(fù)雜的訓(xùn)練是誘人的，但他們通常更難以使用，因?yàn)樗麄冇懈嗟膮?shù)需要調(diào)整以獲得更好的結(jié)果，并且他們的內(nèi)部更不透明。

模型可以分為兩種主要類(lèi)型：表示具有固定大小的線性分類(lèi)器，以及表示可隨數(shù)據(jù)增長(zhǎng)的線性分類(lèi)器，如決策樹(shù)。固定大小的分類(lèi)器只能利用這么多的數(shù)據(jù)。原則上可變大小的分類(lèi)器可以在給定足夠數(shù)據(jù)的情況下學(xué)習(xí)任何函數(shù)，但實(shí)際上，由于算法或計(jì)算成本的限制，它們可能不會(huì)。而且，由于維度的詛咒，沒(méi)有現(xiàn)有的數(shù)據(jù)量可能就足夠了。出于這些原因，那些充分利用數(shù)據(jù)和計(jì)算資源的算法，通常會(huì)表現(xiàn)得很好，只要你愿意付出努力。機(jī)器學(xué)習(xí)項(xiàng)目通常會(huì)有一個(gè)重要的學(xué)習(xí)者設(shè)計(jì)組成部分，從業(yè)者需要有一些專(zhuān)業(yè)知識(shí)。

9：模型不只是一個(gè)

在機(jī)器學(xué)習(xí)的早期，每個(gè)人都有自己喜歡的模型，以及一些先驗(yàn)理由相信它的優(yōu)越性。大部分人努力嘗試很多參數(shù)的變化，并選擇了最好的一個(gè)。然后系統(tǒng)的經(jīng)驗(yàn)表明，不同應(yīng)用的最佳模型往往是不同，并且包含許多模型的系統(tǒng)開(kāi)始出現(xiàn)。但是隨后研究人員注意到，如果不是選擇找到的最佳變體，我們可以結(jié)合了許多變體，結(jié)果會(huì)更好。并且對(duì)設(shè)計(jì)者而言沒(méi)有額外的工作量。

創(chuàng)建這樣的模型集合有一個(gè)通用的名詞：裝箱。我們只需通過(guò)重采樣生成隨機(jī)變化的訓(xùn)練集，分別學(xué)習(xí)分類(lèi)器并結(jié)合，看看他們的性能即可。這是有效的，因?yàn)樗鼧O大地減少了方差，而偏差只是稍微增加。在訓(xùn)練過(guò)程中，訓(xùn)練樣例有權(quán)重，而且這些都是不同的，這樣每個(gè)新的分類(lèi)器都會(huì)將重點(diǎn)放在前面往往出錯(cuò)的例子上。在堆疊中，單個(gè)分類(lèi)器的輸出成為“更高層次”的輸入，該模型計(jì)算出如何最好地組合它們。

在Netflix獎(jiǎng)中，來(lái)自世界各地的團(tuán)隊(duì)競(jìng)相建立最佳視頻推薦系統(tǒng)。隨著比賽的進(jìn)行，團(tuán)隊(duì)發(fā)現(xiàn)他們通過(guò)將學(xué)習(xí)者與其他團(tuán)隊(duì)相結(jié)合而獲得最佳成績(jī)。獲勝者和亞軍都是由100多名學(xué)習(xí)者組成的合并隊(duì)伍，合并在一起進(jìn)一步提高了模型的性能。毫無(wú)疑問(wèn)，這將是未來(lái)的趨勢(shì)。

10：簡(jiǎn)單并不意味著準(zhǔn)確

奧卡姆的剃刀這個(gè)故事地指出，實(shí)體不應(yīng)該超出必要的倍增。在機(jī)器學(xué)習(xí)中，這通常意味著，給定兩個(gè)具有相同訓(xùn)練錯(cuò)誤的分類(lèi)器，其中較簡(jiǎn)單的分類(lèi)器可能具有最低的測(cè)試錯(cuò)誤。有關(guān)這一說(shuō)法的證據(jù)經(jīng)常出現(xiàn)在文獻(xiàn)中，但事實(shí)上，它有很多反例，而“無(wú)免費(fèi)午餐”定理暗示它不可能是真實(shí)的。

我們?cè)谇耙徊糠挚吹揭粋€(gè)反例：模型集合。即使在訓(xùn)練誤差達(dá)到零之后，分類(lèi)器的泛化誤差也會(huì)繼續(xù)提高。因此，與直覺(jué)相反，模型的參數(shù)數(shù)量與其過(guò)度擬合的傾向之間沒(méi)有必然的聯(lián)系。

相反，更復(fù)雜的觀點(diǎn)將復(fù)雜性等同于假設(shè)空間的大小，因?yàn)檩^小的空間允許假設(shè)由較短的代碼表示。如上面關(guān)于理論保證部分的界限可能會(huì)被視為暗示更短的假設(shè)。這可以通過(guò)將更短的代碼分配給我們有一些先驗(yàn)偏好的空間中的假設(shè)來(lái)進(jìn)一步細(xì)化。但將此視為準(zhǔn)確性與簡(jiǎn)單性之間權(quán)衡的“證明”是循環(huán)推理：我們通過(guò)設(shè)計(jì)使我們喜歡的假設(shè)更簡(jiǎn)單，如果它們準(zhǔn)確，那是因?yàn)槲覀兊钠檬菧?zhǔn)確的，而不是因?yàn)榧僭O(shè)“簡(jiǎn)單”代表了我們選擇。

11：可描述并不意味著可以學(xué)習(xí)

本質(zhì)上，所有可變規(guī)模模型的描述都具有形式的相關(guān)定理：“使用這種描述，每個(gè)函數(shù)都可以被描述或近似地描述”。然而，僅僅因?yàn)橐粋€(gè)函數(shù)可以描述，并不意味著它可以被學(xué)習(xí)。例如，標(biāo)準(zhǔn)決策樹(shù)模型不能學(xué)習(xí)含有更多葉子的樹(shù)干。在連續(xù)的空間中，使用一組固定的基元描述甚至簡(jiǎn)單的函數(shù)往往需要無(wú)數(shù)的組件。

此外，如果假設(shè)空間具有許多評(píng)估函數(shù)的局部最優(yōu)值（通常情況如此），則學(xué)習(xí)者可能無(wú)法找到真正的函數(shù)，即使它是可描述的。給定有限的數(shù)據(jù)、時(shí)間和記憶，標(biāo)準(zhǔn)模型只能學(xué)習(xí)所有可能函數(shù)的一小部分，而這些子集對(duì)于具有不同表述的模型是不同的。因此，關(guān)鍵問(wèn)題不是“能否描述出來(lái)？

12：相關(guān)并不意味著因果關(guān)系

相關(guān)性并不意味著因果關(guān)系。但是，盡管我們討論過(guò)的那種模型只能學(xué)習(xí)相關(guān)性，但他們的結(jié)果往往被視為代表因果關(guān)系。這不是錯(cuò)了嗎？如果是這樣，那么人們?yōu)槭裁催@樣做呢？

通常情況下，訓(xùn)練預(yù)測(cè)模型的目標(biāo)是將它們用作行動(dòng)指南。如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市買(mǎi)到，那么也許把啤酒放在尿布部分旁邊會(huì)增加銷(xiāo)售。但實(shí)際上實(shí)驗(yàn)很難說(shuō)清楚。機(jī)器學(xué)習(xí)通常應(yīng)用于觀察性數(shù)據(jù)，其中預(yù)測(cè)變量不受學(xué)習(xí)者的控制。一些學(xué)習(xí)算法可能潛在地從觀測(cè)數(shù)據(jù)中提取因果信息，但它們的適用性相當(dāng)有限。另一方面，相關(guān)性是潛在因果關(guān)系的標(biāo)志，我們可以用它作為進(jìn)一步調(diào)查的指導(dǎo)。

結(jié)論

像任何學(xué)科一樣，機(jī)器學(xué)習(xí)有很多的“民間智慧”，雖然不是100%正確，但對(duì)成功至關(guān)重要。多明戈斯教授的論文總結(jié)了一些最重要的內(nèi)容。學(xué)習(xí)更多知識(shí)是他的書(shū)The Master Algorithm，這是一個(gè)非技術(shù)性的機(jī)器學(xué)習(xí)入門(mén)。他還教授在線機(jī)器學(xué)習(xí)課程，可以在這里查看。

文章原標(biāo)題《12-useful-things-know-about-machine-learning》，

譯者：虎說(shuō)八道，審校：袁虎。

詳情請(qǐng)閱讀原文

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)的技術(shù) 大學(xué)教授機(jī)器學(xué)習(xí)涉及的技術(shù) 機(jī)器學(xué)習(xí)技術(shù)的核心

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/19717.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

selfimpr

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

游戲開(kāi)發(fā)商如何租用合適穩(wěn)定的游戲服務(wù)器？

閱讀 2762·2021-11-22 13:54
“云”上醫(yī)療｜云計(jì)算加速醫(yī)療數(shù)字化轉(zhuǎn)型升級(jí)_云資訊

閱讀 2697·2021-10-14 09:42
華納云(hncloud)，中國(guó)香港/美國(guó)云服務(wù)器，低至3折，384元/年起，OpenStack+CN

閱讀 4038·2021-09-28 09:47
django框架之sass項(xiàng)目中用到的工具 (1)

閱讀 2171·2021-09-03 10:28
青果網(wǎng)絡(luò)-618阿里云，騰訊云特惠優(yōu)惠折上折！

閱讀 1215·2021-07-26 23:38
CSS魔法堂：display:none與visibility:hidden的恩怨情仇

閱讀 2566·2019-08-30 15:54
JavaScript面向?qū)ο蟪醪秸J(rèn)識(shí)

閱讀 2645·2019-08-29 16:35
618購(gòu)物節(jié)來(lái)襲，電商陪你浪浪浪

閱讀 1436·2019-08-29 15:42

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

論文解讀：華盛頓大學(xué)教授Pedro Domingos技術(shù)論文：機(jī)器學(xué)習(xí)中一些有用的知識(shí)（二）

相關(guān)文章

**論文解讀：華盛頓大學(xué)教授Pedro Domingos技術(shù)論文：機(jī)器學(xué)習(xí)中一些有用的知識(shí)（一）**

**「我是可微分編程的粉絲」，Gary Marcus再回應(yīng)深度學(xué)習(xí)批判言論**

【精品】12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

發(fā)表評(píng)論

0條評(píng)論

selfimpr

男|高級(jí)講師

TA的文章

游戲開(kāi)發(fā)商如何租用合適穩(wěn)定的游戲服務(wù)器？

“云”上醫(yī)療｜云計(jì)算加速醫(yī)療數(shù)字化轉(zhuǎn)型升級(jí)_云資訊

華納云(hncloud)，中國(guó)香港/美國(guó)云服務(wù)器，低至3折，384元/年起，OpenStack+CN

django框架之sass項(xiàng)目中用到的工具 (1)

青果網(wǎng)絡(luò)-618阿里云，騰訊云特惠優(yōu)惠折上折！

CSS魔法堂：display:none與visibility:hidden的恩怨情仇

JavaScript面向?qū)ο蟪醪秸J(rèn)識(shí)

618購(gòu)物節(jié)來(lái)襲，電商陪你浪浪浪

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

論文解讀：華盛頓大學(xué)教授Pedro Domingos技術(shù)論文：機(jī)器學(xué)習(xí)中一些有用的知識(shí)（二）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！