摘要:本篇為場景中的智能聊天機器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術以及智能聊天機器人來解決組織內部面臨的大量的每日業務咨詢問題。圖對于現代企業來說,智能聊天機器人有著非常廣泛的業務需求。
寫在前面:在背景篇《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》中,我們大概了解了NLP技術的發展情況,接下來,我們會向大家介紹NLP技術在宜信應用的高級場景。本篇為場景中的智能聊天機器人篇,敬請收看~
作者:井玉欣。畢業于北京大學信息科學技術學院,獲博士學位,研究方向包括計算機軟件與理論、邏輯推理等,目前就職于宜信技術研發中心,從事人工智能、機器學習、自然語言處理以及知識工程等方面的研究。
##高級場景之智能聊天機器人
前文我們介紹了NLP技術、數據、服務上相關演化發展的過程,接下來,我將結合兩個具體的實例來分享我們在NLP領域的一些實施經驗。今天要介紹的是:如何利用NLP技術以及智能聊天機器人來解決組織內部面臨的大量的每日業務咨詢問題。
圖1
對于現代企業來說,智能聊天機器人有著非常廣泛的業務需求。對外,我們有常見的客服機器人、智能投資顧問等;對內,我們有業務支持機器人、運維機器人以及個人助理等。
本實例是一個面向企業內部的信貸業務咨詢機器人,為一個問答類QA-BOT。它的業務背景是:目前宜信的普惠業務在全國范圍內有著500+線下門店,包括600+位營業部主管,3000+位業務專員以及20000+位一線銷售。
每天這些一線同事在業務工作中都會產生大量的業務咨詢問題,以往這些問題都是后臺支持同事人工在IM中進行處理,工作非常枯燥,處理成本高、效率低;無法對問題進行有效的統計,不知道問題提問的頻次,導致無法針對性的進行培訓。長此以往,不利于業務的發展,也不利于團隊的發展。
為了解決這個困境,我們研發了一個基于QA的問答機器人來支持這個工作,將人工的過程轉為自動處理,從而實現一個全天候、7X24小時的全面支持機制。
對于問答機器人來說,其任務的核心和本質實際上就是基于檢索的問答模型,我們給它半形式化地定義如下:
輸入一個用戶的問題Qx,在已有的QA數據庫中,即(Q1,A1),(Q2,A2),…,(Qn,An)等QA問答對中,找到這樣一組問答對(Qk,Ak),使得函數F(R(Qx),R(Qk))的值最大,其中F為語義相似度函數,R為文本表征函數。
上述定義就是說我們希望在所有QA問答對的問題中找到與用戶提問最為相似的那個問題,它所對應的答案便是最合適反饋給用戶的答案。
這其中的核心問題是求文本語義相似度,也就是求兩個問題文本之間的相似度。解決這個問題有很多方法,例如我們可以直接構建一個Dual LSTM的神經網絡,把用戶的query從一側進行輸入,然后把知識庫中問答對的question從另外一側輸入,通過RNN、CNN或者全鏈接的網絡,在語料充足的情況下,就能夠訓練出一個模型,輸出的概率值即為兩個輸入問題的相似度,如圖2所示。
圖2
然而,大多數情況下我們都面臨樣本不夠充足的問題,尤其是在快速迭代的研發環境下,我們通常無法搜集到足夠的語料。所以我們常把相似度問題拆分為兩個子問題,即短文本語義表征和語義距離計算。兩者間又以前者更重要一些,一旦我們即將處理的問題有了一個合理的語意表征,我們就可以通過簡單的余弦距離、全鏈接網絡等計算出兩個表征之間的語義距離或者說語義相似度。
那我們怎樣準確地表征短文本語義呢?
這也有很多方法,比如經典的詞袋模型,還有一些無監督的表示方法(詞向量加權、Doc2Vec、Skip-thought、Variational Auto-encoder)以及有監督的表示方法(DSSM、遷移學習)等。
但是我們要注意到之前所說的限制條件,也就是只能基于小規模語料和目前有限的QA問答對,而且業務要求快速實施、快速迭代。于是在方案的早期實施階段,我們優先選擇了“詞袋模型+同義詞擴展+tf-idf 權重”的這個方法,利用我們之前積累的相關術語的同義詞、常用詞的同義詞,可以把一個問題進行基于同義詞的復述,從而探索出來很多不同的問法,來提高用戶提問在有限QA對數據庫中命中的幾率。通過上述方法構建出短文本的表征向量之后,再利用一些語義相似度的計算方法,就可以得到兩個文本之間語義相似程度的分數。
這種方法最大的好處就是快,我們可以利用小規模的語料,1-2周之內在一個新領域上迅速上線一版效果表現非常不錯的問答機器人。
圖3
當然這個方案肯定不是終點,上述這個方案最重要的作用是迅速上線初版模型,利用這個模型我們就可以去收集用戶提出的真實問題,滾動、積累更多問題數據,不斷的補充進語料庫和QA數據庫,進而為我們訓練更復雜的模型提供基礎。而且隨著QA數據庫中的QA對越來越多,我們可以去回答更多類型的問題。
在有了一定的語料基礎之后,我們構建了一版更為復雜的神經網絡模型。這里我們采用了經典論文“Universal Language Model Fine-tuning for Text Classification”(by J. Howard et al)中的思想,在通用語料上先訓練出一個language model(語言模型),再在領域語料上對該模型進行fine-tuning,最后將其遷移到最終的目標任務上,此外論文還提供了一些調參、優化的技巧。
圖4
按照這個思想實施項目:在Wiki語料上訓練語言模型之后,又在領域語料上進行了調優,然后遷移到相應的相似度計算網絡上,最終得到了一個不錯的測試效果。返回的答案列表中,正確答案排在首位的概率有88%,正確答案位于列表前三位范圍以內的概率有94%,整體來看這個效果是不錯的。
當然對于問答機器人來說,QQ相似度計算只是其中比較重要的一步,還有許多其他模型需要融合進來,協作提高問答的準確率。比如QA匹配模型,用來計算用戶問題和知識庫中所有問題對應答案的匹配程度。不過有了前面QQ相似度的計算基礎,我們完全可以用同樣的思路來構建一個QA匹配模型,輸出QA匹配度值。最后將QQ相似度值和QA匹配度值進行加權重排,得到最終的答案列表,這才是返回給用戶的答案。
此外還有一個擴展方向,即對于用戶提問未能命中QA數據情況的處理。QA數據庫是由人工提取或智能生成的QA問答對構成的,個數有限,因此對于用戶可能會提問的各種各樣的問題無法完全覆蓋掉。一個有效的能力擴展方法就是開拓QA機器人的檢索數據源(見圖5),將機器人檢索范圍擴展到一些第三方API查詢接口,QA問答對數據庫,知識圖譜以及文檔等各個渠道的知識,從中找到答案。
圖5
在我們的項目里,我們實施了“文檔檢索+關鍵信息提取”的保底方案,在問答數據庫無法覆蓋所有問題的情況下也盡可能為用戶提供答案。
當然,我們還可以針對一些問題,通過槽值提取、實體關系識別等方法,實現在三方API上或者知識圖譜上進行搜索,不過這個方法會稍微復雜一些,一般還需要會話的支持,此方面有專門的文章和報告,這里不再贅述。
不過提起多輪會話,我們還可以利用這個技術解決另外一個問題,即如何解決模糊提問。實際中,用戶提出的某些問題非常模糊,無法找到準確答案,這常常會造成系統效果下降。例如用戶問的問題非常簡短,僅僅兩三個字,這顯然很難在QA 數據庫里檢索到一個準確答案。
圖6
圖6是一些資料上對機器人進行的劃分,對話機器人在這里分為QA類和會話類兩類機器人。QA類機器人就是在結構化和非結構化的數據上進行檢索。而會話機器人則通常需要在多輪會話支持下,就一個問題多次與用戶進行交流,捕獲用戶意圖,給出對應的響應,比如閑聊機器人,任務機器人以及推薦機器人等。
我們認為QA機器人也會逐漸引入會話的概念,對于用戶提出的模糊問題,完全可以利用對話狀態分析、對話狀態管理以及關鍵信息識別等方法來判斷用戶的意圖是什么,缺失的信息有哪些,之后利用文本生成或追加提問等方法來要求用戶補充更多信息。這樣我們的機器人在有足夠信息的條件下,就可以查找到更精準的結果。
圖7 機器人處理主要流程
圖7是機器人的處理流程,分為了預處理、分析分類、檢索匹配、綜合排序四個主要環節,各環節所涉及的技術也有枚舉,報告之前我們著重介紹的QQ檢索、QA匹配等任務。
另外,我們對聊天機器人這一相對高級的場景也提供了平臺化的管理(見圖8),其架構主要是在底層的自然語言處理平臺上進行了進一步的場景化包裝,在其基礎之上增加了聊天機器人模塊(包括Web/APP集成、對話管理、人工后臺、外部API對接等),QA庫管理模塊(包括數據管理、實施發布等)和知識庫管理模塊(批量導入、內容管理、語料生成等)以及很重要的統計模塊(包括統計挖掘和報表展示)。
圖8 平臺化高級場景管理
我們通過對場景中各功能進行封裝和整合,以平臺的形式提供一個一站式解決方案,用戶在付出少量數據的情況下,就可以對模型無感知地迅速構建一個自己的業務問答機器人。
圖9~圖11為機器人的一些運行效果截圖。其中圖9為web版機器人交互界面,可以看到機器人回答的形式包括精準回答、相似問題、文檔庫搜索內容。
圖9 機器人展示效果
圖10是后臺管理界面中的會話檢索功能,可以在此方便地瀏覽機器人和系統用戶所進行的會話,評估機器人效果,并可以把在會話過程中發現的、QA庫里沒有記錄到的新問題識別出來,快速方便地添加到QA庫之中。
圖10 后臺管理-會話檢索頁面
圖11為模型管理模塊,其中可以看到機器人所涉及的各類模型列表,每個模型后有相關操作按鈕,可以對模型進行上線、更新、重啟、停止等一系列管控操作。
圖11 后臺管理-模型管理頁面
以上便是NLP技術在宜信的應用場景之一:智能聊天機器人。下篇我們會為大家介紹另一個應用場景,構建客戶畫像。敬請大家期待~
宜信技術學院
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19887.html
摘要:技術在宜信宜信擁有豐富的業務和產品線,這些產品線產生了大量的人工智能賦能需求。技術在宜信的實踐背景暫且介紹到這里,接下來我們會為大家介 文章圍繞基于機器學習的NLP技術在宜信內部各業務領域的應用實踐展開,分享這一過程中的相關經驗,包括智能機器人在業務支持、客戶服務中的探索,基于文本語義分析的用戶畫像構建,以及NLP算法服務平臺化實施思路等。本文為背景篇,敬請大家閱讀~ 作者:井玉欣。畢...
摘要:導讀前面兩篇我們介紹了技術在宜信應用的背景敏捷技術在宜信業務中的實踐背景篇,以及應用場景之一敏捷技術在宜信業務中的實踐智能聊天機器人篇。這就是我們實現的一個實時用戶畫像處理流程。 導讀: 前面兩篇我們介紹了NLP技術在宜信應用的背景《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》,以及應用場景之一《敏捷AI | NLP技術在宜信業務中的實踐【智能聊天機器人篇】》。本篇為另一個場...
摘要:月日晚點,線上直播,中臺一種敏捷的智能業務支持方案金融科技領域,能解決什么問題在宜信年的發展歷程中,圍繞普惠金融和財富管理兩大業務板塊,宜信陸續推出了宜人貸宜人財富致誠信用博城保險等多個產品,技術已被廣泛應用到各產品的業務線中。 [宜信技術沙龍】是由宜信技術學院主辦的系列技術分享活動,活動包括線上和線下兩種形式,每期技術沙龍都將邀請宜信及其他互聯網公司的技術專家分享來自一線的實踐經驗,...
閱讀 1318·2023-04-26 03:05
閱讀 775·2021-10-19 11:43
閱讀 3220·2021-09-26 09:55
閱讀 832·2019-08-30 15:56
閱讀 989·2019-08-30 15:44
閱讀 1242·2019-08-30 15:44
閱讀 2725·2019-08-30 14:23
閱讀 3239·2019-08-30 13:13