何為敏捷大數(shù)據(jù)與敏捷AI？

X_AirDu 發(fā)布于2019-06-26 19:00 / 837人閱讀

摘要：摘要敏捷大數(shù)據(jù)智能化的主要目標(biāo)就是，結(jié)合敏捷大數(shù)據(jù)實施理念，研發(fā)靈活的輕量化的智能模型，并在敏捷大數(shù)據(jù)平臺上對數(shù)據(jù)流進(jìn)行實時智能化處理，最終實現(xiàn)一站式的大數(shù)據(jù)智能分析實踐。因此，實時數(shù)據(jù)處理已成為未來大數(shù)據(jù)技術(shù)發(fā)展的主要方向。

摘要：敏捷大數(shù)據(jù)智能化的主要目標(biāo)就是，結(jié)合敏捷大數(shù)據(jù)實施理念，研發(fā)靈活的、輕量化的智能模型，并在敏捷大數(shù)據(jù)平臺上對數(shù)據(jù)流進(jìn)行實時智能化處理，最終實現(xiàn)一站式的大數(shù)據(jù)智能分析實踐。

一、前言

人工智能的誕生可以追溯到上世紀(jì)50年代，在達(dá)特茅斯會議上，麥卡錫提出了AI的概念，但在初期的熱度過后，人工智能的發(fā)展經(jīng)歷了多次低谷，直到從90年代中末期開始至今的這近二十年的時間里，人工智能才真正迎來了黃金時期。尤其是在近10年來，各方面因素都推動其不斷發(fā)展：理論上，機(jī)器學(xué)習(xí)，尤其是統(tǒng)計學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)理論不斷突破，效果顯著；外部環(huán)境上，軟硬件技術(shù)的進(jìn)步為人工智能模型的實現(xiàn)提供了足夠的計算能力；此外，極為重要的一個因素就是在數(shù)據(jù)方面，大數(shù)據(jù)技術(shù)的發(fā)展使人工智能終于擺脫了數(shù)據(jù)的桎梏，可以在充足的樣本基礎(chǔ)上提升模型的能力。可以說，現(xiàn)在各領(lǐng)域智能模型的研發(fā)絕大多數(shù)都離不開大數(shù)據(jù)技術(shù)的支持。

反過來看，人工智能對大數(shù)據(jù)技術(shù)同樣有著極為重要的作用。

一方面，對于利用大數(shù)據(jù)技術(shù)收集到的數(shù)據(jù)需要通過一些智能分析過程才能發(fā)現(xiàn)其中的價值；

另一方面，通過對已有數(shù)據(jù)的智能分析，我們可以推導(dǎo)出更多的數(shù)據(jù)特征，甚至進(jìn)一步指導(dǎo)數(shù)據(jù)生產(chǎn)的方向。

所以在今天我們談起大數(shù)據(jù)的利用，都不可避免地涉及到人工智能、機(jī)器學(xué)習(xí)等概念。

敏捷大數(shù)據(jù)平臺棧作為一個實時數(shù)據(jù)基礎(chǔ)設(shè)施平臺，是對大數(shù)據(jù)理論與技術(shù)進(jìn)一步發(fā)展的成果，自然也會有對智能化方面的研究與布局。敏捷大數(shù)據(jù)智能化的主要目標(biāo)就是，結(jié)合敏捷大數(shù)據(jù)實施理念，研發(fā)靈活的、輕量化的智能模型，并在敏捷大數(shù)據(jù)平臺上對數(shù)據(jù)流進(jìn)行實時智能化處理，最終實現(xiàn)一站式的大數(shù)據(jù)智能分析實踐。

為實現(xiàn)上述目標(biāo)，我們對人工智能、機(jī)器學(xué)習(xí)、實時運(yùn)算等技術(shù)，以及相關(guān)業(yè)務(wù)領(lǐng)域知識，乃至產(chǎn)品用戶體驗都進(jìn)行了深入的研究與分析，本系列文章將把我們的理念和在上述過程中所獲得的一些經(jīng)驗、成果與大家分享。

二、實時數(shù)據(jù)智能處理

隨著技術(shù)的發(fā)展，我們能夠獲得前所未有的海量數(shù)據(jù)，如果能夠快速、高效地對這些數(shù)據(jù)進(jìn)行處理，發(fā)現(xiàn)其中的高價值信息，無疑可以極大提升企業(yè)的應(yīng)變能力，從而在復(fù)雜且易變的業(yè)務(wù)場景中迅速地做出戰(zhàn)術(shù)乃至戰(zhàn)略上的調(diào)整。因此，實時數(shù)據(jù)處理已成為未來大數(shù)據(jù)技術(shù)發(fā)展的主要方向。數(shù)據(jù)處理的實時化必然會對與數(shù)據(jù)緊密相關(guān)的智能分析模型造成影響，可以說，為了快速識別、適應(yīng)外部環(huán)境的變化情況，各組織已經(jīng)開始將數(shù)據(jù)實時處理能力與AI能力相結(jié)合，實現(xiàn)智能數(shù)據(jù)分析業(yè)務(wù)的快速交付。

實際上，針對實時數(shù)據(jù)流的智能化處理技術(shù)已經(jīng)在很多行業(yè)中得到了先驗。例如在互聯(lián)網(wǎng)直播領(lǐng)域，基于視頻流的實時濾鏡、實時特效算法已經(jīng)在快手、抖音等眾多APP中普遍使用，而國外的Twitch等直播網(wǎng)站，也推出了實時游戲數(shù)據(jù)分析等AI插件來增強(qiáng)直播效果；在體育數(shù)據(jù)領(lǐng)域，基于實時賽況的球隊、球員數(shù)據(jù)統(tǒng)計分析和賽況走勢預(yù)測也在各體育數(shù)據(jù)提供商處，如Opta Sports等，得到了應(yīng)用；在交通領(lǐng)域，基于實時交通信息的路況擁堵預(yù)測系統(tǒng)也已經(jīng)開始實施。此類例子不一而足，但都反映了實時AI數(shù)據(jù)處理已經(jīng)在不同領(lǐng)域、不同業(yè)務(wù)場景下得到了廣泛應(yīng)用，并且發(fā)揮了不可取代的作用。

在金融領(lǐng)域的許多場景中，對于實時AI數(shù)據(jù)處理同樣存在有眾多需求，如實時風(fēng)控、實時數(shù)據(jù)預(yù)測、實時異常檢測、實時用戶分析等等。下圖為實時產(chǎn)品推薦的一個數(shù)據(jù)流圖，可以用于金融產(chǎn)品推薦場景中，例如網(wǎng)貸、保險、基金、股票等產(chǎn)品。

該圖描述了如下過程：在交互端我們可以通過埋點獲得大量的、不同用戶的行為數(shù)據(jù)，這些數(shù)據(jù)將被企業(yè)實時數(shù)據(jù)平臺采集，與用戶、產(chǎn)品及其他數(shù)據(jù)一起提供給計算層的各類模型，如用戶興趣模型、產(chǎn)品畫像模型等。這些模型對用戶和產(chǎn)品進(jìn)行特征刻畫，最終提供給推薦模型計算、排序、過濾得到最終的推薦列表。這一過程中我們可以根據(jù)采集到的實時用戶行為數(shù)據(jù)流對用戶興趣模型進(jìn)行更新和校正，從而實現(xiàn)對用戶所感興趣內(nèi)容的實時追蹤。

上圖沒有體現(xiàn)的一個過程是對產(chǎn)品畫像模型的實時更新，盡管相對用戶的行為數(shù)據(jù)而言，產(chǎn)品的特征數(shù)據(jù)相對穩(wěn)定，但在實際當(dāng)中還是有不少產(chǎn)品對時效性要求很高，其畫像特征也需要我們進(jìn)行實時的維護(hù)，例如證券市場的數(shù)據(jù)信息等。這些產(chǎn)品數(shù)據(jù)流可以通過其他渠道匯總進(jìn)入企業(yè)實時數(shù)據(jù)平臺之中，并提供給產(chǎn)品畫像模型進(jìn)行產(chǎn)品特征的重構(gòu)，最終提供給推薦模型進(jìn)行產(chǎn)品推薦。一個好的實時產(chǎn)品推薦系統(tǒng)可以靈敏捕捉用戶的需求、響應(yīng)產(chǎn)品的變化，可以高效地針對用戶開展個性化精準(zhǔn)營銷，提升用戶體驗度的同時還能夠提高獲客和關(guān)單數(shù)量，產(chǎn)生巨大的業(yè)務(wù)價值。

在上圖中企業(yè)實時數(shù)據(jù)平臺扮演了為推薦模型提供實時數(shù)據(jù)的重要任務(wù)。在一個敏捷的數(shù)據(jù)環(huán)境中，敏捷大數(shù)據(jù)就平臺可以很好地支持上述工作，一種實現(xiàn)架構(gòu)如下圖所示：

在該圖中，dbus和wormhole可以方便對接多種不同數(shù)據(jù)源，實時獲取數(shù)據(jù)，將數(shù)據(jù)pipeline源頭實時化。另外wormhole支持流上處理，很適合接入產(chǎn)品畫像模型和用戶興趣模型對產(chǎn)品與用戶的特征進(jìn)行實時刻畫，這些特征經(jīng)過存儲后由moonbox根據(jù)需要進(jìn)行抽取，輸入推薦模型得到需要的推薦列表，最終返回給交互端。此外，如果加上davinci數(shù)據(jù)BI的支持，我們還可以輕松地實現(xiàn)實時業(yè)務(wù)指標(biāo)監(jiān)控，便于我們對推薦效果進(jìn)行評估。整個過程靈活、便捷地整合了多種不同開源平臺以快速搭建實時數(shù)據(jù)應(yīng)用，還可以根據(jù)需要隨時切換開源選型，支持快速迭代試錯，結(jié)合已有的算法模型就能夠迅速支持實現(xiàn)智能用戶產(chǎn)品實時推薦這一場景。

三、敏捷AI

如前文所述，在實時AI數(shù)據(jù)處理過程中，基于敏捷大數(shù)據(jù)的各項業(yè)務(wù)組件，結(jié)合第三方的開源構(gòu)件，通過簡單配置即可快速編排、敏捷地實現(xiàn)算法運(yùn)行的底層支持架構(gòu)。這使得整個系統(tǒng)中看起來唯一的麻煩之處在于我們還要事先開發(fā)好各種智能模型，這對于一些業(yè)務(wù)組織來說還是有一定的技術(shù)門檻；此外對于某些業(yè)務(wù)來說，快速推進(jìn)和成本控制才是首要考慮的因素，那么針對性地定制化開發(fā)智能算法模型，并調(diào)整調(diào)用接口使之可以接入實時數(shù)據(jù)架構(gòu)之中，就顯得比較笨拙。例如很多數(shù)據(jù)分析的業(yè)務(wù)人員，也許不需要太過精準(zhǔn)的模型性能，但最好能夠保證分析系統(tǒng)實施的便捷性、業(yè)務(wù)邏輯實現(xiàn)的迅捷性。

我們已經(jīng)讓數(shù)據(jù)處理變得敏捷，那么如何將數(shù)據(jù)智能也變得更加敏捷呢？為了解決這一問題，我們提出了敏捷AI的實施思路，即在現(xiàn)有敏捷大數(shù)據(jù)產(chǎn)品的基礎(chǔ)之上，基于業(yè)務(wù)場景設(shè)計開發(fā)一系列可插拔的實時智能模型算子，這些模型涵蓋了業(yè)務(wù)場景內(nèi)常見的智能化數(shù)據(jù)分析需求，具有較強(qiáng)的通用性和復(fù)用性，能夠無縫接入敏捷大數(shù)據(jù)平臺上的實時數(shù)據(jù)流并向平臺輸出分析結(jié)果，根據(jù)需要實時流入各業(yè)務(wù)端，最終實現(xiàn)基于實時數(shù)據(jù)流的智能分析過程。在敏捷大數(shù)據(jù)產(chǎn)品和敏捷AI的支持下，業(yè)務(wù)人員可以根據(jù)業(yè)務(wù)場景快速構(gòu)建從實時數(shù)據(jù)處理平臺到實時數(shù)據(jù)智能分析，再到實時數(shù)據(jù)展示的整個智能化數(shù)據(jù)治理流程，并可根據(jù)效果靈活調(diào)整試錯，極大降低實時智能化業(yè)務(wù)分析的實施成本。

在上述敏捷AI的實施思路下，我們著手構(gòu)建敏捷AI算法庫，這是一套基于業(yè)務(wù)領(lǐng)域劃分的輕量級通用數(shù)據(jù)模型集合。其中的每個模型的設(shè)計應(yīng)該遵循以下原則：

輕量級，對模型復(fù)雜度進(jìn)行適當(dāng)?shù)目刂票ＷC數(shù)據(jù)處理的實時性；

獨立性，盡量減少環(huán)境依賴或保證環(huán)境的部署獨立性，避免由模型引入給系統(tǒng)整體帶來的環(huán)境依賴變動；

單一性，各模型功能盡量單一，保證各模型功能的平行性；

數(shù)據(jù)普適性，除部分模型存在一些必需的特征外，各模型應(yīng)保證對接入數(shù)據(jù)的普遍適應(yīng)能力，通過一定的配置或映射即可以適應(yīng)絕大多數(shù)的業(yè)務(wù)場景。

為了實現(xiàn)上述要求，我們在研發(fā)模型時將不可避免地在某些方面做出一些取舍，例如模型若想通用必將會導(dǎo)致性能的一定程度下降，如何在這些矛盾中尋求一個合理的折中，也是在設(shè)計時需要考慮的問題。目前，我們已經(jīng)針對一些領(lǐng)域開始研發(fā)敏捷AI模型，經(jīng)過實際測試與應(yīng)用后，不久的將來就將整合進(jìn)現(xiàn)在的敏捷大數(shù)據(jù)產(chǎn)品棧中。此外，在未來我們還可以公布相關(guān)接口和規(guī)約，讓用戶也有能力將自己的模型加入到庫中。

四、結(jié)語

實時數(shù)據(jù)的智能化分析是未來大數(shù)據(jù)技術(shù)和人工智能技術(shù)發(fā)展的重要方向之一，如何降低這一實施過程的經(jīng)濟(jì)成本、時間成本、技術(shù)成本以及變更成本，是敏捷大數(shù)據(jù)和敏捷AI著重解決的關(guān)鍵問題。本文結(jié)合敏捷大數(shù)據(jù)產(chǎn)品提出了一種解決思路，希望我們的產(chǎn)品能夠幫助各組織方便、快速、靈活地構(gòu)建自己的實時大數(shù)據(jù)智能分析系統(tǒng)。來源：宜信技術(shù)學(xué)院

作者：井玉欣

宜信技術(shù)學(xué)院