摘要:技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來我們會(huì)為大家介
文章圍繞基于機(jī)器學(xué)習(xí)的NLP技術(shù)在宜信內(nèi)部各業(yè)務(wù)領(lǐng)域的應(yīng)用實(shí)踐展開,分享這一過程中的相關(guān)經(jīng)驗(yàn),包括智能機(jī)器人在業(yè)務(wù)支持、客戶服務(wù)中的探索,基于文本語義分析的用戶畫像構(gòu)建,以及NLP算法服務(wù)平臺(tái)化實(shí)施思路等。本文為背景篇,敬請大家閱讀~
作者:井玉欣。畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,獲博士學(xué)位,研究方向包括計(jì)算機(jī)軟件與理論、邏輯推理等,目前就職于宜信技術(shù)研發(fā)中心,從事人工智能、機(jī)器學(xué)習(xí)、自然語言處理以及知識(shí)工程等方面的研究。
業(yè)務(wù)背景宜信公司于2006年成立于北京,經(jīng)過12年的發(fā)展,目前圍繞著普惠和財(cái)富兩大業(yè)務(wù)板塊,陸續(xù)推出了許多相關(guān)產(chǎn)品,如宜人貸、宜人財(cái)富、致誠信用、博城保險(xiǎn)等等。
實(shí)際上在這些產(chǎn)品的背后,AI技術(shù)已廣泛地應(yīng)用其相關(guān)的各條業(yè)務(wù)線中。
從宜信所處的金融領(lǐng)域的各個(gè)子領(lǐng)域來劃分,可以分為智能交易、智能信貸、金融信息、金融安全、個(gè)性化服務(wù)這五個(gè)方面,每個(gè)方面都有相關(guān)人工技術(shù)的輔助。
例如智能交易領(lǐng)域,有智能投研、量化分析、自動(dòng)/輔助交易等技術(shù);智能信貸領(lǐng)域,有能夠進(jìn)行身份識(shí)別、用戶畫像以及智能風(fēng)控等相關(guān)的人工智能產(chǎn)品;金融信息領(lǐng)域,我們會(huì)進(jìn)行知識(shí)工程、圖譜分析、智能問答等;金融安全領(lǐng)域,要進(jìn)行反欺詐分析;而個(gè)性化服務(wù)領(lǐng)域就更廣泛了,我們有行為分析、智能營銷、推薦與匹配以及智能理財(cái)顧問等等一系列比較成熟的AI產(chǎn)品。
讓我們繼續(xù)向下探究,在這些AI產(chǎn)品的背后,會(huì)發(fā)現(xiàn)都有一些NLP(Natural Language Processing, 自然語言處理)技術(shù)的影子。比如在智能交易領(lǐng)域,我們需要理解相當(dāng)多的投研報(bào)告,這里就會(huì)用到報(bào)告理解方面的NLP技術(shù);智能信貸領(lǐng)域,可能需要進(jìn)行風(fēng)控報(bào)告的生成和分析,也要用到相關(guān)的NLP技術(shù);知識(shí)工程領(lǐng)域,要對金融信息進(jìn)行知識(shí)提取,或者為了構(gòu)建知識(shí)圖譜進(jìn)行關(guān)系提取、事件提取等;智能營銷和智能理財(cái)顧問中,則需要智能聊天以及話術(shù)提取的處理技術(shù)。
可以說NLP技術(shù)貫穿了各個(gè)領(lǐng)域的AI產(chǎn)品,其直接原因就是因?yàn)槲覀兊臉I(yè)務(wù)中存在著大量的自然語言數(shù)據(jù),如電銷通話數(shù)據(jù)、客戶分析小結(jié)、客服溝通內(nèi)容、內(nèi)部交流信息以及其他各種文本報(bào)告等等,這些數(shù)據(jù)都是使用自然語言來進(jìn)行存儲(chǔ)的;而且用自然語言文本存儲(chǔ)這些數(shù)據(jù),還有著其他形式數(shù)據(jù)無法比擬的一些優(yōu)點(diǎn),如圖1所示,自然語言數(shù)據(jù)來源豐富,信息表述多種多樣,保留信息完整,并且符合用戶習(xí)慣等等。
圖1 自然語言的特點(diǎn)
但是,我們需要注意到相較于這些優(yōu)點(diǎn),自然語言數(shù)據(jù)也有著數(shù)據(jù)非結(jié)構(gòu)化不易處理、存在可能的歧義性、語法不規(guī)則性、未知語言現(xiàn)象等缺點(diǎn)。另外,結(jié)合宜信所處的業(yè)務(wù)領(lǐng)域,這些自然語言又有一些獨(dú)特的特點(diǎn):更強(qiáng)的詞匯專業(yè)性、更廣泛的數(shù)據(jù)來源、多樣的數(shù)據(jù)形式(錄音數(shù)據(jù),文字對話數(shù)據(jù)以及短/長文本的報(bào)告、小結(jié)等)、較大的數(shù)據(jù)量以及分布的不均衡性。
這些缺點(diǎn)使得自然語言數(shù)據(jù)并不容易處理,NLP技術(shù)實(shí)施起來難度也不小,但是為什么自然語言數(shù)據(jù)仍然越來越得到關(guān)注,NLP技術(shù)的實(shí)施也越來越廣泛了呢?
實(shí)際上,近幾年來,各企業(yè)、組織開始在業(yè)務(wù)中也越來越關(guān)注大量非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含的高價(jià)值信息。我們知道,結(jié)構(gòu)化數(shù)據(jù)比較好處理,但是經(jīng)過多年的發(fā)展,能夠從中挖掘出的信息越來越有限;而我們平時(shí)接觸到的非結(jié)構(gòu)化數(shù)據(jù),其數(shù)量級要比結(jié)構(gòu)化數(shù)據(jù)多出好幾倍,里面蘊(yùn)含著非常多的高價(jià)值信息。
典型的非結(jié)構(gòu)化數(shù)據(jù)包括圖片、視頻等,另外很重要的一部分就是自然語言文本數(shù)據(jù)。我們可以從這些自然語言文本中挖掘出大量有價(jià)值的內(nèi)容,例如在前面所述的宜信自然語言數(shù)據(jù)中我們就可以得到客戶信息、產(chǎn)品數(shù)據(jù)、輿論傾向、策略反饋等。
此外,自然語言處理給我們帶來了新的會(huì)話交互方式,更確切的說,基于自然語言理解和自然語言生成所形成的對話式用戶交互更加自然、高效、吸引人,更加符合用戶習(xí)慣,這也就是我們所說的Conversational UI,新的交互方式越來越多的應(yīng)用在各個(gè)領(lǐng)域。比如我們接觸到的智能音箱小愛同學(xué),她的表現(xiàn)就非常驚艷。
所以,越來越多的業(yè)務(wù)開始關(guān)注非結(jié)構(gòu)化數(shù)據(jù)和自然語言數(shù)據(jù)這些高數(shù)量級的有價(jià)值信息,它具有的一些特點(diǎn),提供的一些交互方式,帶來了更多擴(kuò)展的形式,這就導(dǎo)致了自然語言數(shù)據(jù)越來越重要,NLP技術(shù)越來越必要。
我們給NLP技術(shù)做一個(gè)簡單的定位,即NLP技術(shù)承擔(dān)了領(lǐng)域內(nèi)自然語言數(shù)據(jù)的分類、提取、轉(zhuǎn)換、生成任務(wù),是業(yè)務(wù)領(lǐng)域內(nèi)重要、基礎(chǔ)的技術(shù)服務(wù)之一。
NLP技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。算法團(tuán)隊(duì)成立以來,一直面臨著不小的項(xiàng)目壓力。在整個(gè)項(xiàng)目的驅(qū)動(dòng)過程中,團(tuán)隊(duì)也逐漸得到成長,結(jié)合金融領(lǐng)域的相關(guān)業(yè)務(wù)知識(shí),磨練出從規(guī)則分析到統(tǒng)計(jì)學(xué)算法,再到更加復(fù)雜的神經(jīng)網(wǎng)絡(luò),以及NLP領(lǐng)域?qū)I(yè)技術(shù)等一系列技能。
圖2 相關(guān)算法技術(shù)棧
具體來講,我們從可以承擔(dān)基本的處理任務(wù)(利用一些現(xiàn)有的規(guī)則分析、基本算法模型所進(jìn)行的詞性分析、句法分析)發(fā)展到可以利用相對復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型對外提供文本分類、文本聚類、信息抽取等等一些模型服務(wù),再到目前實(shí)施的智能聊天機(jī)器人(Chatbot)、用戶畫像、知識(shí)工程等高級場景,技術(shù)也隨之轉(zhuǎn)向了transformer、GAN、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)網(wǎng)絡(luò)等能力越來越強(qiáng)、結(jié)構(gòu)越來越復(fù)雜的模型。這一過程可以看出來技術(shù)在不斷的進(jìn)步。
除了技術(shù)在不斷的發(fā)展以外,我們也積攢了一批有價(jià)值的語料。在業(yè)務(wù)環(huán)節(jié)方面,我們積攢了如電銷數(shù)據(jù)、客服數(shù)據(jù)、陪訪數(shù)據(jù)、催收數(shù)據(jù)等語料;在業(yè)務(wù)領(lǐng)域方面,我們積攢了借貸(車、房、消費(fèi)),理財(cái)(投資、保險(xiǎn)、生活、傳承、公益)等方面的語料;而在數(shù)據(jù)形式方面,我們收集了對話類(電話、文字溝通信息)、文章類(小結(jié)、新聞、報(bào)告)形式的語料。
這是一批比較有價(jià)值的語料信息,最終形成了公司內(nèi)部的專業(yè)語料數(shù)據(jù),包括公司的產(chǎn)品清單、業(yè)務(wù)術(shù)語表、業(yè)務(wù)實(shí)體表乃至財(cái)富領(lǐng)域的財(cái)富產(chǎn)品知識(shí)圖譜等等。我們最終的目的是經(jīng)過一定的擴(kuò)充、抽象和加工之后,希望能夠形成金融領(lǐng)域的、高價(jià)值的、專業(yè)數(shù)據(jù)集,來對外進(jìn)行賦能輸出。比如我們可以輸出金融術(shù)語表、金融術(shù)語同義詞林、金融領(lǐng)域相關(guān)本體以及各個(gè)子領(lǐng)域的知識(shí)庫等。
此外,我們在服務(wù)模式上也有一個(gè)演化的過程。早期我們是以項(xiàng)目為驅(qū)動(dòng)的服務(wù)模式,這個(gè)過程中存在著一些普遍的痛點(diǎn):
產(chǎn)品眾多、業(yè)務(wù)需求繁雜;
不同的業(yè)務(wù)相結(jié)合,需求不斷發(fā)生變化;
時(shí)效性要求,越快越好,上線稍晚就會(huì)影響到需求方;
研發(fā)團(tuán)隊(duì)人力有限,偶爾還要兼顧環(huán)境部署、上線模型監(jiān)控與維護(hù)等工作,整個(gè)過程中研發(fā)團(tuán)隊(duì)忙、壓力大,沒時(shí)間對模型進(jìn)行有效調(diào)優(yōu)。
那么如何解決這些痛點(diǎn)呢?反思過后,我們走出了重要的一步,即服務(wù)的平臺(tái)化。通過構(gòu)建一個(gè)統(tǒng)一的NLP模型平臺(tái),對外提供一個(gè)統(tǒng)一的NLP服務(wù),其優(yōu)點(diǎn)是:
降低成本,提高效率;
平臺(tái)上的模型可以靈活組合,快速響應(yīng)客戶的需求;
可以統(tǒng)一相關(guān)標(biāo)準(zhǔn),方便對模型進(jìn)行集中管理。
通過平臺(tái)化服務(wù),使我們的工作擺脫了原有的粗放式服務(wù)模式,提高了AI團(tuán)隊(duì)的輸出能力。
圖3 服務(wù)的平臺(tái)化
圖3為我們平臺(tái)的邏輯功能視圖,自底向上分為資源層、預(yù)處理層、模型層及場景層。資源層主要包括一系列的語料、標(biāo)簽、預(yù)訓(xùn)練模型等資源;預(yù)處理層包含一些常用的NLP技術(shù),如分詞分句、詞性分析、句法分析、主題分析、命名實(shí)體識(shí)別等;模型層則包括一些可以對外提供服務(wù)的算法模型,例如文本的聚類、分類、生成、復(fù)述等模型,情感分析模型等;最高的場景層則針對一些高級的、可以形成一定閉環(huán)能力的復(fù)雜場景進(jìn)行解決方案的構(gòu)建,例如對于智能機(jī)器人、用戶畫像等復(fù)雜場景,我們會(huì)形成一個(gè)包裝好的解決方案,提供給用戶使用。
圖4 NLP平臺(tái)架構(gòu)
圖4為NLP平臺(tái)工程架構(gòu)。我們構(gòu)建了一個(gè)支持Python環(huán)境的多任務(wù)調(diào)度微服務(wù)架構(gòu),從圖中可以看到我們利用Mongo、HDFS、ES、MQ等系統(tǒng)構(gòu)建了相關(guān)的數(shù)據(jù)訪問層、模型算法層,在這兩層的基礎(chǔ)上,在微服務(wù)層我們對算法模型進(jìn)行任務(wù)調(diào)度管理;外部我們暴露出相關(guān)的Web接口和App接口。此外,縱向來看,我們集成了一些權(quán)限管理、多租戶管理功能,可以對接企業(yè)內(nèi)部的單點(diǎn)登錄、身份認(rèn)證、權(quán)限控制等系統(tǒng)。
NLP技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來我們會(huì)為大家介紹NLP技術(shù)在宜信應(yīng)用的兩個(gè)場景:智能聊天機(jī)器人和構(gòu)建客戶畫像。敬請大家期待~
宜信技術(shù)學(xué)院
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19888.html
摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐背景篇,以及應(yīng)用場景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐智能聊天機(jī)器人篇。這就是我們實(shí)現(xiàn)的一個(gè)實(shí)時(shí)用戶畫像處理流程。 導(dǎo)讀: 前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》,以及應(yīng)用場景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】》。本篇為另一個(gè)場...
摘要:本篇為場景中的智能聊天機(jī)器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機(jī)器人來解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問題。圖對于現(xiàn)代企業(yè)來說,智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。 寫在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來,我們會(huì)向大家介紹NLP技術(shù)在宜信應(yīng)用的高級場景。本篇為場景中的智能...
摘要:月日晚點(diǎn),線上直播,中臺(tái)一種敏捷的智能業(yè)務(wù)支持方案金融科技領(lǐng)域,能解決什么問題在宜信年的發(fā)展歷程中,圍繞普惠金融和財(cái)富管理兩大業(yè)務(wù)板塊,宜信陸續(xù)推出了宜人貸宜人財(cái)富致誠信用博城保險(xiǎn)等多個(gè)產(chǎn)品,技術(shù)已被廣泛應(yīng)用到各產(chǎn)品的業(yè)務(wù)線中。 [宜信技術(shù)沙龍】是由宜信技術(shù)學(xué)院主辦的系列技術(shù)分享活動(dòng),活動(dòng)包括線上和線下兩種形式,每期技術(shù)沙龍都將邀請宜信及其他互聯(lián)網(wǎng)公司的技術(shù)專家分享來自一線的實(shí)踐經(jīng)驗(yàn),...
閱讀 1984·2021-11-24 09:38
閱讀 3344·2021-11-22 12:07
閱讀 1912·2021-09-22 16:03
閱讀 1968·2021-09-02 15:41
閱讀 2626·2021-07-24 23:28
閱讀 2218·2019-08-29 13:17
閱讀 1560·2019-08-29 12:25
閱讀 2673·2019-08-29 11:10