摘要:雖然為企業(yè)定制的深度學(xué)習(xí)框架可以提供重要的價(jià)值,但自己構(gòu)建一個(gè)這樣的框架會(huì)帶來獨(dú)特的挑戰(zhàn)。目前,訓(xùn)練深度學(xué)習(xí)模型的較佳選擇是圖形處理單元。實(shí)際上,由于規(guī)模和管理方面的復(fù)雜性不可預(yù)測(cè),許多深度學(xué)習(xí)項(xiàng)目的最終歸宿都是數(shù)據(jù)科學(xué)實(shí)驗(yàn)。
深度學(xué)習(xí)是受到人類大腦啟發(fā)而產(chǎn)生的機(jī)器學(xué)習(xí)(ML)算法的一種。這些算法也被稱為神經(jīng)網(wǎng)絡(luò),它們特別擅長從嘈雜的數(shù)據(jù)和曾經(jīng)對(duì)機(jī)器完全不透明的數(shù)據(jù)里探測(cè)出模式。雖然神經(jīng)網(wǎng)絡(luò)的技術(shù)細(xì)節(jié)可能令數(shù)學(xué)和計(jì)算機(jī)科學(xué)博士感到興奮,但該技術(shù)的真正意義有更廣泛的吸引力。它代表著邁向真正的自主學(xué)習(xí)機(jī)器的又進(jìn)一步。
毫不奇怪,這一新的算法浪潮已經(jīng)引起了從機(jī)器翻譯到自動(dòng)駕駛汽車等應(yīng)用領(lǐng)域的廣泛關(guān)注。企業(yè)(而不只是互聯(lián)網(wǎng)的數(shù)字巨頭)已經(jīng)開始使用它來解決各種各樣的問題。先期采用者已經(jīng)在欺詐檢測(cè)、制造性能優(yōu)化、預(yù)防性維護(hù)和推薦引擎等方面展示了(深度學(xué)習(xí))高影響力的業(yè)務(wù)價(jià)值。很明顯這些新的機(jī)器智能驅(qū)動(dòng)的創(chuàng)新有可能在未來五年重新定義各個(gè)行業(yè),并產(chǎn)生新的贏家和輸家。
雖然為企業(yè)定制的深度學(xué)習(xí)框架可以提供重要的價(jià)值,但自己構(gòu)建一個(gè)這樣的框架會(huì)帶來獨(dú)特的挑戰(zhàn)。本文將探討一些企業(yè)在開發(fā)應(yīng)用此技術(shù)時(shí)遇到的障礙,克服這些障礙的方法,以及構(gòu)建和維護(hù)深度學(xué)習(xí)項(xiàng)目時(shí)的其他需考慮的事項(xiàng)。具體我們將探討:
深度學(xué)習(xí)特殊的硬件和軟件需求(例如GPU)
解釋模型的新方法
構(gòu)建可為深度學(xué)習(xí)提供服務(wù)的數(shù)據(jù)基礎(chǔ)平臺(tái)的考慮因素
在選擇、測(cè)試和推廣深度學(xué)習(xí)模型時(shí)進(jìn)行的自動(dòng)化
部署深度學(xué)習(xí)到生產(chǎn)系統(tǒng)的挑戰(zhàn)和要求
企業(yè)級(jí)專業(yè)知識(shí)技能的需求
深度學(xué)習(xí)需要超強(qiáng)的計(jì)算力
應(yīng)用深度學(xué)習(xí)的挑戰(zhàn)之一是這樣一個(gè)事實(shí):(有時(shí)運(yùn)行在數(shù)百萬個(gè)神經(jīng)元節(jié)點(diǎn)的規(guī)模上的)模型是計(jì)算密集型的,想要有效地進(jìn)行模型的訓(xùn)練需要專門的硬件和軟件資源。
目前,訓(xùn)練深度學(xué)習(xí)模型的較佳選擇是GPU(圖形處理單元)。這些專用電路是在游戲行業(yè)被開發(fā)出來的,但特別適用于深度學(xué)習(xí)所需的浮點(diǎn)并行計(jì)算。
這一硬件是在CPU之后重要一步的前進(jìn)。過去需要幾個(gè)月的時(shí)間進(jìn)行模型的訓(xùn)練,用GPU則只用幾周。但是,使用GPU可能會(huì)遇到挑戰(zhàn),因?yàn)樗鼈兊挠布軜?gòu)和計(jì)算框架與只能工作于CPU架構(gòu)的軟硬件大不相同。
GPU需要大量工程工作來優(yōu)化軟件和確保高效的并行性、可管理性、可靠性和可移植性。它們還必須與整個(gè)分析生態(tài)系統(tǒng)的其他部分集成在一起,因?yàn)槟承W(xué)習(xí)會(huì)在CPU和GPU架構(gòu)中都會(huì)發(fā)生。只通過GPU擴(kuò)展模型可能非常棘手,因此需要智能地路由流量的設(shè)計(jì)以便高效地使用這兩種架構(gòu)。
使用LIME來逐步接近模型的可解釋性
除了密集的計(jì)算需求之外,使用神經(jīng)網(wǎng)絡(luò)的另一個(gè)獨(dú)特挑戰(zhàn)是它們偶爾的不可探知性。神經(jīng)網(wǎng)絡(luò)使用隱藏層,從而將機(jī)器用于制定決策的信息解耦。深度學(xué)習(xí)的模型像黑盒子一樣工作,因?yàn)閹缀醪豢赡芰私獾剿鼈兊膬?nèi)部運(yùn)作方式。這就導(dǎo)致了信任的問題,因?yàn)樵谝恍┬袠I(yè)里,可解釋性是強(qiáng)制要求的。
例如,歐洲的金融機(jī)構(gòu)必須遵守歐盟的《通用數(shù)據(jù)保護(hù)條例(GDPR)》。該條例會(huì)對(duì)無法解釋客戶數(shù)據(jù)如何被使用的公司施加嚴(yán)厲的財(cái)務(wù)處罰。在這種情況下,告訴客戶他們的金融交易被拒絕是因?yàn)槟P偷臎Q定的是不可能的,也是非法的。除了符合法規(guī)之外,利益相關(guān)者往往需要被告知決策是如何被制定的,從而能決定是否支持決策的行動(dòng)。
盡管離真正解決可解釋性還很遠(yuǎn),但已經(jīng)有了一些方法可以讓企業(yè)解決模型可解釋性的問題。一種是被稱為局部可理解的與模型無關(guān)的解釋(LIME)的方法,這是華盛頓大學(xué)開發(fā)的一個(gè)開源的研究成果。LIME揭示了在決策時(shí)觸發(fā)算法的特定變量,并以人類可讀的方式生成該信息。例如在欺詐的場景下,了解這些信息可以從監(jiān)管的角度提供安全保護(hù),并幫助企業(yè)了解欺詐行為發(fā)生的方式和原因。
隨著研究人員試圖解決解釋性問題并完善深度學(xué)習(xí)必須的硬件,新的創(chuàng)新正在快速發(fā)展。但即使存在這些缺點(diǎn),在企業(yè)中使用這種技術(shù)的收益可能很大。不過在正式部署模型之前,企業(yè)還必須擁有恰當(dāng)?shù)臄?shù)據(jù)平臺(tái)。
為深度學(xué)習(xí)構(gòu)建一個(gè)數(shù)據(jù)基礎(chǔ)(平臺(tái))
投資構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)和分析基礎(chǔ)系統(tǒng)是深度學(xué)習(xí)項(xiàng)目的第一步。事實(shí)上,深度學(xué)習(xí)項(xiàng)目的成功取決于數(shù)據(jù),這些數(shù)據(jù)必須是干凈、高可用且可靠的。過時(shí)的、不完整或不準(zhǔn)確的數(shù)據(jù)會(huì)讓模型產(chǎn)生不正確的預(yù)測(cè),這樣的代價(jià)是昂貴的并可能導(dǎo)致整個(gè)項(xiàng)目失敗。
雖然不像深度學(xué)習(xí)的其他部分那么令人興奮,但深度學(xué)習(xí)項(xiàng)目的大部分工作是在在這個(gè)數(shù)據(jù)基礎(chǔ)系統(tǒng)里完成的——讓數(shù)據(jù)可以被訪問,確保數(shù)據(jù)類型是正確的,修復(fù)和準(zhǔn)確度相關(guān)的問題,并開發(fā)能幫助模型應(yīng)用于正式環(huán)境的系統(tǒng)。
一旦模型被部署到生產(chǎn)系統(tǒng),就需要能實(shí)時(shí)地解決數(shù)據(jù)集成問題。流式數(shù)據(jù)的導(dǎo)入必須是高可用和高可靠的,且計(jì)算特征的延遲要短。與此同時(shí),批量數(shù)據(jù)的導(dǎo)入需要支持大規(guī)模,并與數(shù)據(jù)管道和存儲(chǔ)系統(tǒng)集成。
該系統(tǒng)還必須能夠快速迭代。特征準(zhǔn)備需要能與模型訓(xùn)練同步,要有相同的邏輯、延遲和前向兼容。對(duì)于所有的數(shù)據(jù)源和特征,必須確保它們的可見性和可追溯性,并將數(shù)據(jù)質(zhì)量和管理與監(jiān)控系統(tǒng)相結(jié)合。
越來越多的企業(yè)數(shù)據(jù)分布在混合云環(huán)境以及不同的存儲(chǔ)格式上。駐留在公共云中的數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)和存儲(chǔ)在于不同類型的對(duì)象和文件存儲(chǔ)系統(tǒng)中的數(shù)據(jù)之間必須要建立起連接。
雖然面臨很多挑戰(zhàn),但這些依然可控。可以通過開發(fā)系統(tǒng)來持續(xù)監(jiān)控?cái)?shù)據(jù),讓項(xiàng)目的團(tuán)隊(duì)知道數(shù)據(jù)從何而來,不管是現(xiàn)在還是過去的數(shù)據(jù),都知道如何重現(xiàn)它們。一旦這個(gè)數(shù)據(jù)基礎(chǔ)及其監(jiān)控系統(tǒng)到位,就可以利用它進(jìn)行深入學(xué)習(xí)實(shí)踐,并可以將它用于其他領(lǐng)域。
自動(dòng)化深度學(xué)習(xí)模型的選擇和訓(xùn)練
大多數(shù)(如果不是全部的話)用于深度學(xué)習(xí)的軟件框架都是開源的項(xiàng)目,任何人都可以免費(fèi)下載和試用。其中,2015年由谷歌開源的TensorFlow是市場的領(lǐng)導(dǎo)者。
可以在這些深度學(xué)習(xí)框架之上運(yùn)行許多不同的神經(jīng)網(wǎng)絡(luò)類別,例如前饋網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、深層信念網(wǎng)絡(luò)和深度卷積網(wǎng)絡(luò)。由于新型深度學(xué)習(xí)模型繼續(xù)以驚人的速度出現(xiàn),持續(xù)更新這個(gè)清單是幾乎不可能的。基于你自己的使用場景,選擇特定神經(jīng)網(wǎng)絡(luò)體系架構(gòu)的較佳實(shí)踐是存在的。但是,測(cè)試是無可替代的。深度學(xué)習(xí)是一門實(shí)驗(yàn)學(xué)科,而不是理論學(xué)科。
一旦模型通過自動(dòng)過程(分析運(yùn)營方法論)完成訓(xùn)練和驗(yàn)證,應(yīng)先部署到一個(gè)預(yù)生產(chǎn)環(huán)境里。在預(yù)生產(chǎn)環(huán)境中可以再對(duì)模型進(jìn)行調(diào)整或重新訓(xùn)練。使用分析運(yùn)營流程方法論的好處還包括,可以讓利益相關(guān)方在模型被部署到生產(chǎn)環(huán)境自動(dòng)運(yùn)行之前熟悉模型。
生產(chǎn)系統(tǒng)上的深度學(xué)習(xí)模型需要考慮的事項(xiàng)
與所有其他類型的機(jī)器學(xué)習(xí)模型類似,深度學(xué)習(xí)模型的全生命周期(從開發(fā)到測(cè)試,發(fā)布到預(yù)生產(chǎn),再發(fā)布到生產(chǎn))都需要被監(jiān)控和并能自動(dòng)化的再訓(xùn)練。在某些情況下,還應(yīng)該能夠有從預(yù)生產(chǎn)到生產(chǎn)系統(tǒng)的灰度部署(通常通過A / B測(cè)試框架完成)。
還應(yīng)考慮再訓(xùn)練的策略。在某些情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)相比深度學(xué)習(xí)可能能夠更快地被再次訓(xùn)練。特別是當(dāng)深度學(xué)習(xí)模型已經(jīng)在海量數(shù)據(jù)中訓(xùn)練并且新數(shù)據(jù)不會(huì)提供太多差異時(shí)(例如,一個(gè)模型用數(shù)十億人和汽車的圖像訓(xùn)練過了)。通過現(xiàn)場測(cè)試來識(shí)別何時(shí)該模型的預(yù)測(cè)與基于人類專業(yè)知識(shí)的預(yù)期相一致也很重要。如果情況并非如此(不一致),那么應(yīng)該再次通過分析運(yùn)營流程開始自動(dòng)再訓(xùn)練的工作。
例如,推薦引擎能向購物者展示不同的選擇,但需要有一個(gè)機(jī)制來監(jiān)控它,以確保購物者對(duì)推薦的物品的響應(yīng)是正面的。同時(shí),還應(yīng)該能夠在全部數(shù)據(jù)的一定比例范圍內(nèi)部署新的推薦引擎,并將其性能與另外一個(gè)推薦引擎的性能進(jìn)行實(shí)時(shí)比較。
上面這些都不容易完成。實(shí)際上,由于規(guī)模和管理方面的復(fù)雜性不可預(yù)測(cè),許多深度學(xué)習(xí)項(xiàng)目的最終歸宿都是數(shù)據(jù)科學(xué)實(shí)驗(yàn)。由于存在如此多的陷阱,建立一個(gè)熟悉生產(chǎn)環(huán)境里深度學(xué)習(xí)挑戰(zhàn)的團(tuán)隊(duì)非常重要。不幸的是,具有這種知識(shí)的人(目前)很難在谷歌和臉書等公司以外找到。
人才的匱乏
目前深度學(xué)習(xí)的專業(yè)人才很稀缺且昂貴。雖然許多聰明人能夠自學(xué)神經(jīng)網(wǎng)絡(luò)并使用云API進(jìn)行模型實(shí)驗(yàn),但很難找到具有在企業(yè)環(huán)境中大規(guī)模部署深度學(xué)習(xí)經(jīng)驗(yàn)的工程師。在福布斯最近一篇關(guān)于人工智能的文章中,Diego Klabjan說:“人工智能開發(fā)的人才庫很小,以可承受的、可持續(xù)的速度在一個(gè)組織中獲得這種腦力資源會(huì)很難。”
這一切將隨著深度學(xué)習(xí)領(lǐng)域的發(fā)展而變化,同時(shí)深度學(xué)習(xí)將證明其在更多行業(yè)和業(yè)務(wù)場景中的價(jià)值。同時(shí),克服這種知識(shí)差距的一種方法是與知道需要避免哪種錯(cuò)誤的有經(jīng)驗(yàn)的合作伙伴合作。雖然等到深度學(xué)習(xí)領(lǐng)域成熟后再行動(dòng)會(huì)很有誘惑力,但這樣做可能會(huì)導(dǎo)致落后于人。
利用深度學(xué)習(xí)進(jìn)行變革性轉(zhuǎn)變
部署深度學(xué)習(xí)與采用其他類型的軟件不同,它可能涉及大規(guī)模決策的自動(dòng)化,并且是顛覆性的。這就要求企業(yè)重新考慮在部署之前涉及的流程。
這是必須的,因?yàn)樯疃葘W(xué)習(xí)不僅僅是通常的分析型附加業(yè)務(wù)。這些數(shù)據(jù)產(chǎn)品必須成為業(yè)務(wù)的組成部分,讓企業(yè)通過利用其數(shù)據(jù)的強(qiáng)大能量并自動(dòng)采取行動(dòng)來推動(dòng)組織變革。
隨著深度學(xué)習(xí)領(lǐng)域的不斷成熟,成功部署深度學(xué)習(xí)的企業(yè)將看到更安全的產(chǎn)品、更滿意的客戶、更高效的運(yùn)營以及其他幾十個(gè)相關(guān)應(yīng)用場景所帶來的紅利。部署深度學(xué)習(xí)需要深思熟慮的投資(很大的)、跨職能協(xié)作和大量測(cè)試,但這些付出是值得的。如果企業(yè)準(zhǔn)備好了,深度學(xué)習(xí)可以帶來變革。
Emily Drevets
Emily Drevets之前是BrightTALK的數(shù)據(jù)科學(xué)和大數(shù)據(jù)內(nèi)容的負(fù)責(zé)人。她目前住在芝加哥,在那里她是一名作家,在晚上她就變成即興創(chuàng)作的自我。她只吃過芝加哥式的熱狗兩次。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/4769.html
摘要:訓(xùn)練和建模邏輯的算法既是瓶頸也是突破口,深度學(xué)習(xí)的未來應(yīng)用與發(fā)展值得矚目。自研發(fā)深度學(xué)習(xí)系統(tǒng)薄言豆豆人機(jī)對(duì)話成功率達(dá),是目前比較優(yōu)秀的的中文理解智能系統(tǒng)。 2016正好是人工智能概念誕生60周年。早在1956年,美國達(dá)特茅斯(Dartmouth)大學(xué)召開的學(xué)術(shù)會(huì)議上就提出了人工智能的概念。60年里,科學(xué)技術(shù)的積累使得機(jī)器學(xué)習(xí)、模式識(shí)別、人機(jī)交互這三個(gè)基礎(chǔ)支撐可以得到較為廣泛的應(yīng)用。隨著一個(gè)甲...
摘要:在安全方面,詹東東稱,中企通信幫助企業(yè)在威脅來臨前先發(fā)制人。詹東東表示,中企通信云數(shù)據(jù)中心按照自身標(biāo)準(zhǔn)與要求進(jìn)行定制化建設(shè),等級(jí)都符合標(biāo)準(zhǔn),并有專業(yè)的工程師進(jìn)行駐場維護(hù)和服務(wù),幫助國內(nèi)企業(yè)解決語言不通溝通不暢等問題。當(dāng)前,全球經(jīng)濟(jì)正大步踏入數(shù)字經(jīng)濟(jì)時(shí)代,伴隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)、云計(jì)算的快速發(fā)展,國內(nèi)各行業(yè)數(shù)字化轉(zhuǎn)型也在不斷深入,這其中醞釀著無限的紅利的同時(shí)也將給各行各業(yè)帶來顛覆性的變...
摘要:然而在中國,還處于比較初級(jí)的階段,很多企業(yè)對(duì)自身安全問題并沒有系統(tǒng)性的管理。年整個(gè)中國市場只有億人民幣的規(guī)模,這個(gè)數(shù)字相比中國經(jīng)濟(jì)對(duì)全球經(jīng)濟(jì)的占比是不相符的。 showImg(https://segmentfault.com/img/bV9xRN?w=865&h=950);作者簡介: 叢磊,白山合伙人兼工程副總裁2016年加入白山,主要負(fù)責(zé)云聚合產(chǎn)品的研發(fā)管理和云鏈產(chǎn)品體系構(gòu)建等。20...
閱讀 1272·2021-11-23 09:51
閱讀 2664·2021-09-03 10:47
閱讀 2244·2019-08-30 15:53
閱讀 2430·2019-08-30 15:44
閱讀 1383·2019-08-30 15:44
閱讀 1208·2019-08-30 10:57
閱讀 1936·2019-08-29 12:25
閱讀 1099·2019-08-26 11:57