摘要:在短時間內爆發大量數據,這時數據資源的采集存儲和分析和應用等,都是大數據行業的難點。挖掘數據新的價值面對海量實時行為數據的技術思考,主要是從四個角度來進行第一,必須要以原始數據存儲。
在短時間內爆發大量數據,這時數據資源的采集、存儲和分析和應用等,都是大數據行業的難點。行為數據、日志數據的處理,往往成為企業數據建設首先面對的瓶頸,這些數據不易保存,實時獲取分析難度較大,但是數據價值卻不可估量。
在大數據中,90% 以上的數據爆發來自于行為數據,就像現在的互聯網、移動互聯網、甚至在產生于物聯網中用來描述人和物的每一分每一秒的變化的數據狀態,這些都是行為數據。
行為數據能用做什么?
行為數據能做什么?有一個簡單的例子 —— 分析訪客行為的路徑,我們拿一個網站的數據進行分析,針對網站的訪客,我們可以通過分析其訪問前期、中期、后期的行為習慣去了解哪些引流的渠道需要加強投入,以及使用這些來指導內容編輯和競品研究分析工作。
實際上在做需求時,還有更多的細節要求如:對數據的實時性的要求比較高、要求數據的熱點情報的準確性、與客戶數據的協同分析等。
行為數據的處理方式
用戶行為數據通常具備以下特征:
用戶基數大;
高基數維度比較多;
數據量大;
時序的特征。
我們用到的高基維,其中有些維度都是上千萬的高基維參數。用戶行為數據的處理,在支持原始數據查詢的同時,也要支持原始數據的聚合能力。
原始數據的聚合分析這塊又分為兩種,一種是過去常用的做法,通過一個固化的業務模型或者主題,提前計算好的數據,叫做物化視圖。
第二種是基于原始數據存儲之后,在實時查詢的過程中進行多維交叉的計算,這個稱為實時聚合。
在查詢過程中對實時聚合的一個分析,也是大家在進行數據挖掘分析中共同面臨的一個問題,就是針對海量數據。
首先,針對這些數據,需要快速的檢索出所需要的數據的行號。其次,在獲取數據所在位置之后,如何快速地把數據裝載到內存里,最后是裝載到內存之后通過分布式計算的方式,怎么去把我們的結果計算出來。
這些就是在做數據的實時查詢過程中的需要具備的基本技術條件。
挖掘數據新的價值
面對海量實時行為數據的技術思考,主要是從四個角度來進行:
第一,必須要以原始數據存儲。為什么要基于原始數據存儲?因為在整個的數據分析階段,可以細分為三個階段。第一個就是傳統的是 BI 階段。第二個是數據的挖掘,第三個是數據的預測分析。
想解決這三個階段的過程,以傳統的方法是建一個數倉,基于數倉來實施的時,只能面向比較固化的業務報表模式,產生一些數據的分析結果,得到決策結果。如果想做數據挖掘時,基于固化業務模式計算的結果的很難滿足數據挖掘需求,所以必須從初始階段基于原始數據去提取其特征。
基于固化的的業務報表模型所獲取數據計算的結果,對數據挖掘分析的價值不高。存儲引擎必須以原始數據進行存儲,才能既滿足 BI 階段的需求,又可以解決未來數據挖掘與數據預測分析的需求。
第二,要滿足實時多維的查詢,是為了在數據基于原始數據存儲之后,去做到聚合結果能夠滿足用戶對海量增量數據快速查詢的需求。
第三,快速響應需求,在企業內部,其實數據部門的需求量是最大的,各個業務部門的需求都往數據中心提,所以數據部門必須去解決好如何快速地響應業務需求。
第四,數據的探索分析,以往把數據,按照固化的業務報表模式所獲取的結果,做二次分析的空間量比較小。所以必須要基于原始多維的數據進行數據的探索,挖掘數據新的價值,而不是按照已有的固化的業務模式,只是生產出一些固化的業務模型的數據。
平臺架構
數果現在基于之前做過的一些技術的預言跟驗證,自行研發了一個基于 Hadoop 加速引擎,稱為 Tindex。之前我也在網絡上做過萬億級日志與行為數據存儲查詢技術剖析http://www.infoq.com/cn/artic... 的文章 ,也講解了 Tindex 是如何實現的。Tindex 的實現主要基于三點,第一點基于索引,第二點基于類似存儲的方式,第三點做了分布式內存計算的框架在 Tindex 中,使之能夠支持數據的實時的多維分析的能力。
基于加速引擎這塊,在其上層做了一個適配層,有 SQL引擎。SQL 引擎支持 SQL 語句和表達式,還有大數據生態技術,目前已經是完全支持。基于適配層,來做不同的行業應用。這是數果整個平臺技術架構的一個圖。
平臺特性
平臺的特性方面,支持海量增量數據實時接入。在數據接入這塊,現在提供可視化埋點,跟文件、MR 的一些數據的采集,就像我們目前在做的單進程的接入式,基本上在 3 萬以上,從數據的產生,到數據顯示、出現查詢結果,在 5 秒以內即可實現。
第二個特性,基于明細數據的存儲與預聚合的存儲分別去搭建。為什么不僅要基于原始數據存儲,還需要預聚合存儲?因為其有兩種不同的需求。第一個是面向固化的高頻查詢的數據,我們可以基于預聚合存儲的方式,去查詢其周期跨度比較長的需求,一年兩年都可以進行查詢。但是基于近半年或者一年的數據需要進行深度數據探索分析的,便可以基于原始明細數據做實時聚合分析。還有在基于原始明細數據進行分析的時候,他會更佳靈活。
第三,海量數據中怎么去實現快速檢索,是基于搜索引擎的索引技術進行改造的。但是在篩選方式上,目前只能支持時間篩選、文本篩選和數值篩選,例如文本篩選中支持分詞與模糊匹配,數值篩選中,數值的分組和數值的范圍這些均可支持。
這個展示的是靈活多維的分析,在這個界面中,左邊的這一列中是基于原始明細數據產生的所有的維度,可以根據權限去進行顯示。而在指標方面通過界面拖拽進行多維實時分析,選擇想要的數據分析結果,進行可視化的展示,可以自由地數據探索。因為數據是基于原始明細數據的存儲,所以不需要提前預計算。可以在界面上進行任意數據交叉分析,去了解數據的分布態是非常便捷的。
通過指標的靈活定義,來實現實時響應的業務需求,這個指標定義這塊有幾個指標,一種叫單指標,即按照某一個維度進行一個聚合計算,通過界面可以簡單、快速完成。另一種叫復合指標,需要進行一些四則運算,可以通過這個界面定義出來。
在指標這方面還有比較復雜的,需要通過多個維度進行定義的,可以通過一些表達式,進行快速的定義,定義完成后就通過界面,直接看到結果,獲得圖形顯示,進行數據分析。
支持實時監控與跟蹤告警,在多維分析界面中把分析結果定義出來后,可以直接形成一個實時監控大屏,不需要重新開放,多站完成各類需求。
最后一個也是最重要的一個特性,是支持二次的開發。數果的平臺提供普通類查詢,有 Timeseries、TopN、select、groupby、firstN、scanQuery。也提供像用戶分組,用戶漏斗查詢,用戶留存查詢這類高級查詢,還支持多種條件的過濾,像日期范圍、數值范圍、地理坐標范圍,還有字符串的精準匹配。還支持多種聚合的方式。如統計,分組,還有聚合再聚合,這類業務場景,也是在業務需求中經常出現的。
基于平臺我們做了什么?
基于這個平臺實現了指標任意定制,因為數據是基于原始明細記錄存儲的,所以指標的定制這方面,不需要提前預計算,直接通過界面,通過一些表達式便可以輕松實現。
維度的自由的篩選,可以通過界面,自由地拖拽數據,就可以完成交叉分析。
基于平臺提供用戶行為分析模型,例如實時的用戶分群,可以通過界面快速的完成。再例如實時的路徑分析,實時的流程分析,實時的漏斗分析。提供了一個智能算法模型,相當于在這個模塊實現了,將機械學習跟深度學習的算法吸收進來,跟我們的平臺打通,就可以實現通過界面的簡單拖拽,來完成大部分算法的模型。用戶也有一些固化的模型,像用戶的擴群,用戶 RFM 細分的模型,用戶流失預測的模型。基于這方面也提供了一個實時大屏的模塊,能夠由用戶自由拖拽完成其實時監控的需求。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19632.html
摘要:遠程醫療這一概念被提出后,已經被廣泛應用。但是,如何提高視頻傳輸性能,如何確保家庭基層醫療機構和戶外應急的遠程醫療快速接入,是當前的遠程醫療業務系統面臨的主要挑戰。 編者按:近日,Gartner最新發布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮書報告,報告中針對各行業在視頻應用...
閱讀 925·2021-09-09 09:32
閱讀 2900·2021-09-02 10:20
閱讀 2715·2021-07-23 11:24
閱讀 838·2019-08-30 15:54
閱讀 3642·2019-08-30 15:54
閱讀 1354·2019-08-30 11:02
閱讀 2855·2019-08-26 17:40
閱讀 1138·2019-08-26 13:55