摘要:京東更是已經實現深度學習的初步運用。目前深度學習推廣的條件已經成熟。李成華表示,隨著深度學習的發展和成熟,的機器學習算法將會被取代。京東研究深度學習的初衷客服對電商發展的重要性毋庸置疑。隨后深度學習技術的風靡,加深了京東完善的想法。
說深度學習(Deep Learning)算法是當前“人工智能皇冠上的明珠”并不過分。通過深層神經網絡(DNN)模型的運用,深度學習已成為目前最接近人腦的智能學習方法,不僅Google、Facebook、百度、騰訊等國內外搜索和社交公司為之瘋狂,電商巨頭京東和阿里也已經加入競爭。京東更是已經實現深度學習的初步運用。
深度學習技術在電商運營中的價值如何實現?未來的應用趨勢是什么?在近日的京東技術狂歡節上,CSDN記者采訪了京東深度神經網絡實驗室(DNN Lab)首席科學家李成華,就此問題進行了討論,具體的話題涉及京東如何理解深度學習、為何要做深度學習、如何展開深度學習的研究、深度學習技術在京東的應用現狀以及京東在研發過程中的一些心得等。
京東深度神經網絡實驗室(DNN Lab)首席科學家 李成華
李成華介紹,京東DNN Lab主要專注于人工智能和機器學習領域前瞻性的研究,涉及神經網絡、知識層次、異構計算等技術的研發。DNN Lab目前主要成果包括命名實體識別、用戶意圖識別、用戶畫像和自動問答等,產品化是JIMI智能機器人,已經成功應用于售前咨詢、售后服務和生活伴侶三個場景,承擔超過30%的京東客服任務。作為一個“新生兒”,JIMI會把處理不了的問題轉到人工客服,但京東希望未來JIMI可以包攬至少80%的客服工作。
同時,京東也將會探索利用深度學習算法提升產品銷量預測、互聯網金融、智能硬件、智能搜索、推薦廣告等方面的效果。
大數據催熟深度學習
深度學習是模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋和處理各種數據,包括文本數據、圖像數據和語音數據等。
人工神經網絡具有良好的學習能力和解決問題的能力,但傳統神經網絡一般只有兩三層的神經網絡,其有限的參數和計算單元,對復雜函數的表示能力有限,學習能力受到制約,特征的開發和篩選也極為耗費人力。包含多個隱藏層的深度學習模型則不一樣,根據機器學習泰斗、多倫多大學計算機系教授Geoffery Hinton的論文,它的優勢更大:
1、多隱藏層的人工神經網絡具有優異的特征學習能力,學習到的特征對數據有更本質的刻畫,從而有利于可視化或分類。
2、深度神經網絡在訓練上的難度,則可以通過“逐層初始化”(Layer-wise Pre-training)來有效克服。
在李成華看來,相比傳統神經網絡,深度學習更懂用戶、更智能、更精準,更符合京東的業務需求。
目前深度學習推廣的條件已經成熟。一方面,傳統神經網絡在大數據量的學習上性能較差,不符合大數據所需的時效性。另一方面,大數據的演進催生了軟硬件系統的進步,分布式架構的產生,使得算法的性能已經不是瓶頸,并行化框架和訓練加速方法,讓深度學習的前景變得光明。同時,大數據也會讓深度學習的效果越來越好。所以,從某種意義上說,深度學習是大數據的較佳拍檔。
根據業界報道,深度學習在幾個主要領域都獲得了突破性的進展:
在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(GMM),獲得了相對30%左右的錯誤率降低;
在圖像識別領域,通過構造深度卷積神經網絡(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網絡結構,進一步降低到11%;
在自然語言處理領域,深度學習基本獲得了與其他方法水平相當的結果,但可以免去繁瑣的特征提取步驟。
李成華表示,隨著深度學習的發展和成熟,80%的機器學習算法將會被取代。
京東研究深度學習的初衷
客服對電商發展的重要性毋庸置疑。京東雖然有近5000人的人工客服團隊,但應付618或者雙十一大促仍然顯得捉襟見肘。2012年12月,京東開始籌劃成立JIMI智能客服團隊,通過一些機器算法模擬人的思維,達到客服跟用戶交流的效果。隨后深度學習技術的風靡,加深了京東完善JIMI的想法。2014年9月9日,京東成立了京東深度神經網絡實驗室(DNN Lab),旨在通過神經網絡、知識層次、異構計算等新興領域的研究和應用來確保京東技術的領先性,提高JIMI的智能性及其應用的廣泛性是實驗室的較早的直接目標。
該實驗室直接隸屬于京東副總裁馬松——馬松本人是電商及人工智能領域的資深專家,在美國日本做過多年的研究,并曾在eBay擔任要職。擔任首席科學家的李成華是加拿大約克大學的博士后、美國麻省理工大學的訪問科學家,在神經網絡領域有超過十年的研究基礎和行業經驗。其他8名成員也是來自全球知名高校、企業和研究機構的技術精英,具有多年的實踐經驗和技術積累。
深度學習技術固然有很大的應用價值,但隨著IBM Watson、百度大腦等平臺的開放,這種能力的獲得并不困難,產品化的好壞才是直接影響客戶服務能力的因素。京東沒有采用戰略合作的方式,而是選擇在這個領域投入豪華的陣容自主研發,這說明,深度學習和數據挖掘技術已經被電商企業視為核心競爭力,立志做技術驅動型企業的京東,必須自己掌握核心這些技術,讓數據更好地服務于自己。
京東DNN Lab的研發方向
與Google、百度、騰訊在圖像和語音識別領域投入重金不同,京東DNN Lab目前更注重自然語言的處理。李成華強調,京東深度學習算法目前用于破解傳統機器學習算法的瓶頸,提升JIMI在各個環節的性能、智能程度,從而提升用戶滿意度。基于這樣的目標,DNN Lab主要進行如下4個方面的研發:
意圖識別:針對用戶輸入的文本,通過意圖識別之后對應到訂單、售后、商品、閑聊等不同的類別。意圖識別對JIMI非常重要,用戶的每一句問話,JIMI首先要判斷他的意圖,到底說的是訂單問題、商品咨詢還是售后問題,抑或單純的閑聊,才會給出更好的反饋。
命名實體識別:先對用戶輸入的文本進行識別,在對識別后的命名實體進行抽取,對應到人名、地名、商品名、機構名等不同類別,更好地理解用戶的語言。所以,命名實體識別其實也是用戶意圖識別的必須步驟。
自動問答:在明確用戶的意圖之后,通過自動問答系統匹配答案,抽取和排序候選答案,給用戶反饋較佳答案和建議。通過深度學習的算法,可以提高自動問答的準確率。與此同時,京東還開發了一個知識庫,讓JIMI能夠通過深度學習算法識別用戶使用不同的詞語背后的各種情緒,從而提供有針對性的回答。
用戶畫像:通過用戶各個維度的數據,比如性別、能力、身高,歷史瀏覽記錄,購物記錄,是不是有小孩,最近購物傾向是什么,關注什么商品,對用戶做很細的刻度,分成很多維度的畫像,標注土豪還是屌絲,用戶價值維度是高是低還是中等,用戶是什么類別、性質的,是理性保守型還是購物沖動型的,根據這種細粒度的畫像提供個性化的服務。
由于人工智能和深度學習技術與大數據相結合的研究和應用都是在探索之中,DNN Lab還沒有詳細的長期規劃。李成華表示,未來的6個月之內,DNN Lab的主要精力還是放在JIMI智能機器人的完善上——JIMI背后的用戶畫像、自然語言處理、各種自然問答、命名實體抽取等,每一個技術點其實都是一個很大的課題。因此,他同時表示出對深度學習人才的渴求。
不過,李成華也透露,京東對深度學習算法的主要預期,將在產品銷量預測、互聯網金融、智能硬件、商品搜索/推薦/廣告等方面。
DNN在京東的應用
京東基于其人工客服和用戶交互產生的上億條數據對JIMI進行訓練,模擬每一個用戶場景。JIMI的應用如前文所述,主要分為三類場景。它在2014年雙十一期間接待了近百萬用戶,有效緩解了人工客服的壓力。
從實際效果來說, JIMI在一定程度上能夠讓不解內情的用戶單從對話無法區分對方是智能機器人還是人工客服。不過,京東以用戶滿意度提升、用戶體驗的提升、用戶愿意使用、服務占比提高等指標是來衡量其技術的好壞或者應用的效果,在每個課題上,都有識別的準確性、評判分類的準確性的不同標準。在這些標準下,京東內部對JIMI現階段的服務效果較為滿意。
從神經網絡層級來說,李成華介紹,目前工業界用得最多的已經到了十幾層甚至幾十層,京東目前能夠做到八九層,明年可以達到十幾層。
在對京東其他大數據應用場景的支持,DNN Lab目前主要是根據項目合作的形式來做,兄弟部門的算法工程師加入項目,提供數據和業務需求,看看哪些點上能用到深度學習,共同改進業務。
李成華希望能夠做到深度學習的平民化,即研究一種深度學習算法的架構,把很多參數固定起來,通過預處理,封裝成跟數據相關性很小的標準化的API或者云服務,提供給京東內部,讓他們很容易地應用于各種數據,最終還將會向京東產業鏈輸出。
DNN Lab階段性成果的經驗
京東DNN Lab正式成立至今不過短短的幾個月,JIMI智能機器人就已經取得如此的成績,確實有驕傲的資本。總結一下,京東的成功主要有以下的幾個原因:
業務導向。相對于財大氣粗的Google、百度,京東的體量要小一些,這也讓京東以更加務實的姿態進入這個領域,以為業務帶來價值為宗旨,譬如第一個目標直指JIMI智能機器人的打造。所以,具體操作上,京東DNN Lab以項目組的方式運行,由一位副總裁直接領導,同時網羅全球優秀的、有經驗的技術人才,形成了一個高效的團隊。
數據量與數據質量。得益于開放生態系統的構建,京東擁有龐大的業務量并積累了較為完善的數據,因而深度學習才能達成較好的結果。李成華介紹說:“我們數據比較突出,從大數據來說京東的數據可能是所有電商中數據鏈最長的,包括經銷商的數據、用戶一開始瀏覽我們的數據,可能別的電商有,最后我們做到客服有沒有返修,返修的時候跟我們人交互的時候他的情緒是什么樣的,這是別的平臺他們沒有的,因為他們服務不是自己做的,我們推送服務全是自己做的,所以我們對用戶數據掌握非常全,所以我們的描述也是最準的。”
模型優化。這又包括三個層面:針對輸入向量非常長的文本(京東的詞有將近十萬的維度),首先做特征的降維,而且能夠找到并應用非常重要的有區別度的,有利于業務提升的特征。第二是說調節各種參數,使得算法能夠更快地收斂。第三是通過底層的分布式集群加速算法運算。李成華表示,京東借助于GPU加速運算構建分布式集群,實現性能的提升與大數據量的支持,其單臺服務器能比純CPU運算性能提升8~10倍。
當然,這僅僅是京東在深度學習領域的初步應用。當被問及DNN縱深研發的挑戰,李成華表示,其中的一個方面是訓練的時間會比較長,因為它的迭代、交叉、神經元的連接時間比較長。甚至如果參數調節不當,訓練就沒有任何效果——隨著深度增加,參數調節需要很多的經驗,然而這是一個新興領域。換句話說,人才的缺乏也是一大難題。未來,我們期待有破解這兩個挑戰的分享。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4297.html
摘要:近年來機器學習領域隨著深度神經網絡的崛起而迎來新一波的春天,尤其最近兩年無論學界還是業界,或是各大媒體,甚至文盲老百姓都言必稱智能。 近年來機器學習、AI領域隨著深度神經網絡(DNN)的崛起而迎來新一波的春天,尤其最近兩年無論學界還是業界,或是各大媒體,甚至文盲老百姓都言必稱智能。關于這方面,可討論的東西實在太多太多,我不想寫成一本厚厚的書,所以在此僅以機器學習在計算機視覺和圖像領域的人臉識...
摘要:深度學習方法是否已經強大到可以使科學分析任務產生最前沿的表現在這篇文章中我們介紹了從不同科學領域中選擇的一系列案例,來展示深度學習方法有能力促進科學發現。 深度學習在很多商業應用中取得了前所未有的成功。大約十年以前,很少有從業者可以預測到深度學習驅動的系統可以在計算機視覺和語音識別領域超過人類水平。在勞倫斯伯克利國家實驗室(LBNL)里,我們面臨著科學領域中最具挑戰性的數據分析問題。雖然商業...
閱讀 3949·2021-11-16 11:44
閱讀 3130·2021-11-12 10:36
閱讀 3385·2021-10-08 10:04
閱讀 1270·2021-09-03 10:29
閱讀 411·2019-08-30 13:50
閱讀 2623·2019-08-29 17:14
閱讀 1745·2019-08-29 15:32
閱讀 1090·2019-08-29 11:27