摘要:導讀前面兩篇我們介紹了技術在宜信應用的背景敏捷技術在宜信業務中的實踐背景篇,以及應用場景之一敏捷技術在宜信業務中的實踐智能聊天機器人篇。這就是我們實現的一個實時用戶畫像處理流程。
導讀:
前面兩篇我們介紹了NLP技術在宜信應用的背景《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》,以及應用場景之一《敏捷AI | NLP技術在宜信業務中的實踐【智能聊天機器人篇】》。本篇為另一個場景,也就是在業務中如何構建客戶畫像,敬請收看~
作者簡介井玉欣:畢業于北京大學信息科學技術學院,獲博士學位,研究方向包括計算機軟件與理論、邏輯推理等,目前就職于宜信技術研發中心,從事人工智能、機器學習、自然語言處理以及知識工程等方面的研究。
高級場景之構建客戶畫像在許多企業中,每天業務人員和客戶的溝通都會產生大量記錄,這些記錄可能包括了客服的溝通數據(通話記錄、通話小結),也可能包括了各式各樣的報告數據(陪訪報告、征信報告等)(見圖1)。
圖1 業務人員與客戶產生溝通記錄
前者可能口語會多一些,后者則主要是書面用語。但兩者之間有一個共同的特點,就是其中都蘊含著豐富的客戶信息。想要把這些信息提取出來,我們就需要利用到(NLP)技術。
圖2為一段客戶陪訪報告的節選,觀察其文本特征,發現有許多業務所關注的信息,比如職業方面,客戶是“大學教授”;在可投資產方面,理財金額有“100萬”,投資類型是“銀行理財”,對公司的態度是“不了解”等。
圖2 客戶陪訪報告示例
所以我們完全可以通過NLP分析文本,對其中的客戶特征進行標簽化提取,最終利用得到的標簽構建出客戶畫像。這樣做的好處很多,比如方便我們的業務人員隨時發現關鍵問題,便于跟進;自動化處理,提高工作效率。根據挖掘出的信息構建出客戶標簽畫像之后,就可以方便地盤點特定時間范圍內的需求特點,為新產品設置提供系數參考,或者補充、驗證結構化字段內容。
總體的實施路線如圖3所示,先通過業務分析來定義業務關注的標簽庫,然后針對定義出來的標簽訓練相應的提取模型,最后利用模型對數據進行分析,得到一系列客戶標簽,再對其進行匯總,最終形成客戶畫像。
圖3 總體實施路線
總體的路線是這樣的,但具體的實施過程中我們也有一些細節需要關注。通過對之前的數據進行分析,我們發現了一些特征,比如文本之中信息高度集中,信息表述通常以短句為單位,但是單一短句語義存在模糊性,還需要結合一定的上下文對其進行分析。所以我們需要對復雜句進行適當的切割,確定合適的數據粒度,同時配合一個適當大小的短句滑動窗口來捕獲相關的上下文語義。
此外對于內部的業務文本來說,其內容涉及大量產品的專有實體名稱和術語,以及較多的數字。針對這種情況,我們建立了專門的詞庫和實體庫,對相應的實體名稱和術語進行準確的切割和識別。對于數字的處理,我們先后比較字向量、標識符替換、規則識別+后處理等等技術方案,并且選擇了其中效果最好的方法。
當然我們也面臨著普遍存在的標注語料不足的問題,因此在這個項目中,我們側重于研究怎么在小樣本條件下進行Few-shot learning。
實際中,在大多數專業領域AI項目實施過程中,都存在著標注數據不足的情況,所以針對小樣本進行學習的Few-shot learning也越來越凸顯其重要性。Few-shot learning包括很多種技術,有常見的遷移學習+fine-tuning技術,典型的如Bert;也有基于半監督訓練的一些技術,如基于相似性度量的一些神經網絡模型,基于最近鄰算法的樣本標注擴散這些技術等;還有meta learning的相關技術,例如OpenAI在ICLR 2018上的best paper;甚至還有一些圖網絡的相關技術。
在以上種種技術當中,比較適合工程化的、比較容易實施的還是基于遷移學習的方法。在我們的項目中,發現遷移學習,也就是基于預訓練模型,遷移到目標訓練任務上,再加上半監督學習的標注輔助,可以比較好的滿足我們的需求。
下面介紹一下我們的算法流程:
先對復雜句進行清洗與切割;之后可以選擇性的加入一些過濾規則,快速地去除那些比較明顯的噪音數據;然后將數據流入到標簽提取模型之中,得到具體的標簽;最后在畫像構建階段對得到的所有標簽進行去重、消歧,形成最終的客戶畫像。
具體到算法模型,我們也先后比較許多方法,本質上我們認為標簽識別模型是一個短文本分類算法,我們嘗試了基于統計的方法(SVM, Random Forest, XgBoost),也嘗試了基于神經網絡的模型(FastText,Text CNN/RNN/RCNN, HAN),最終我們選擇了HAN模型,也就是層次注意網絡(Hierarchical Attention Network)模型,通過在詞一級和句一級分別進行RNN和Attention計算,最終得到一個合理的文本向量表征,用于最后的分類,整個過程如圖4所示。
圖4 HAN模型架構
圖5是本實例的總體處理流程,經過數據預處理之后,文本被并行地分配到各個業務關注標簽提取模型之中,輸出各個業務標簽,最終匯總到客戶畫像構建模塊,在此進行去重、消解歧義和矛盾,最后得到客戶的畫像。
圖5 實例處理總體流程
另外我們結合公司的敏捷實時數據平臺設計了一個相應的實時AI解決方案,如圖6所示,這里用到了我們團隊開源的一些技術,包括DBus(數據總線平臺),Wormhole(流式處理平臺),Moonbox(計算服務平臺)以及Davinci(可視應用平臺),這四個平臺構成了敏捷大數據平臺棧。
在這個方案里,我們通過DBus來采集各類數據存儲中的自然語言數據,經過一些可選的技術(如ASR等)得到相應的文本;再通過Wormhole來進行實時的流式處理,標簽模型在Wormhole的實時數據流上運行,對數據流中的文本自動提取相應的標簽,再由Wormhole輸出到指定的數據存儲中;之后由Moonbox對標簽進行后續的匯總處理,先從存儲介質之上把之前計算得到的標簽提取出來,使用畫像模型對畫像進行構建,輸出到如Redis之類的存儲介質之中,最后推送給業務系統供其使用。這就是我們實現的一個實時用戶畫像處理流程。
圖6
此外,在圖6下方的數據流分支里,我們通過在Wormhole上流轉的生產數據流進行一個選擇性抽樣,之后同樣利用標簽模型和畫像模型,計算出客戶畫像,此后將原始數據、標簽數據和客戶畫像通過Davinci展示給我們的模型維護人員,用于評估檢查模型的運行情況,這樣就實現了一個實時的模型效果監控系統。綜合這兩者,我們就得到了一個實時的、基于文本分析的畫像構建系統。
總結隨著各企業實體對自然語言數據愈發關注,NLP+AI技術在各領域都成了非常重要、核心的基礎技術服務。領域知識與NLP技術的結合帶來了新的技術產品,創造出了新的商業價值,比如我們目前常用的一些產品:Siri、小愛同學等等,這種Conversational UI帶來的不僅是一種全新的交互模式,更是開辟了一個新的產品領域。
在數據方面,雖然自然語言的數據存量很大,但目前來看無論是通用領域還是專業領域,經過加工整理的高質量自然語言語料數據資源還是比較缺乏,因此其具有非常高的價值。領域語料的積累可以極大提升AI產品的效果,在一定程度上幫助企業形成新的數據壁壘、技術壁壘。
在NLP的算法方面,就未來一段時間來看,如前文所述,面對小語料任務的Few-shot Learning會越來越受關注,尤其是以Bert為代表的遷移學習技術,將給現在的一些NLP任務帶來一場革命。此外還有針對NLP語料的數據增強技術,我們知道在圖像領域數據增強技術已經比較成熟,是一種常見的數據處理方式,但是在NLP領域數據增強技術的發展還不夠成熟,如果能在這方面有所突破的話,相信會對各類NLP任務都有很大幫助。
NLP技術的發展還需要業界各企業、各位算法與工程專家的共同努力,相信未來我們能夠更準確、更快速、更方便地理解各領域的自然語言數據。
-
作者:井玉欣 宜信技術學院
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19918.html
摘要:技術在宜信宜信擁有豐富的業務和產品線,這些產品線產生了大量的人工智能賦能需求。技術在宜信的實踐背景暫且介紹到這里,接下來我們會為大家介 文章圍繞基于機器學習的NLP技術在宜信內部各業務領域的應用實踐展開,分享這一過程中的相關經驗,包括智能機器人在業務支持、客戶服務中的探索,基于文本語義分析的用戶畫像構建,以及NLP算法服務平臺化實施思路等。本文為背景篇,敬請大家閱讀~ 作者:井玉欣。畢...
摘要:本篇為場景中的智能聊天機器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術以及智能聊天機器人來解決組織內部面臨的大量的每日業務咨詢問題。圖對于現代企業來說,智能聊天機器人有著非常廣泛的業務需求。 寫在前面:在背景篇《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》中,我們大概了解了NLP技術的發展情況,接下來,我們會向大家介紹NLP技術在宜信應用的高級場景。本篇為場景中的智能...
摘要:月日晚點,線上直播,中臺一種敏捷的智能業務支持方案金融科技領域,能解決什么問題在宜信年的發展歷程中,圍繞普惠金融和財富管理兩大業務板塊,宜信陸續推出了宜人貸宜人財富致誠信用博城保險等多個產品,技術已被廣泛應用到各產品的業務線中。 [宜信技術沙龍】是由宜信技術學院主辦的系列技術分享活動,活動包括線上和線下兩種形式,每期技術沙龍都將邀請宜信及其他互聯網公司的技術專家分享來自一線的實踐經驗,...
閱讀 3737·2021-10-14 09:43
閱讀 3322·2021-08-25 09:38
閱讀 618·2019-08-30 15:55
閱讀 1358·2019-08-30 13:05
閱讀 2252·2019-08-29 16:05
閱讀 514·2019-08-29 12:58
閱讀 2802·2019-08-29 12:34
閱讀 3253·2019-08-26 12:15