摘要:故障根因確認(rèn)一些情況下,問題的根因需要借助除監(jiān)控指標(biāo)之外的數(shù)據(jù)進(jìn)行分析??偨Y(jié)以上我們介紹了百度智能監(jiān)控平臺(tái)在全局故障分析細(xì)分維度定位事件關(guān)聯(lián)定位三個(gè)故障定位階段中進(jìn)行的數(shù)據(jù)可視化探索。
作者介紹
運(yùn)小煒,百度高級(jí)研發(fā)工程師,負(fù)責(zé)百度智能監(jiān)控平臺(tái)的設(shè)計(jì)和研發(fā)工作,在系統(tǒng)監(jiān)控、業(yè)務(wù)監(jiān)控等方向有廣泛的實(shí)踐經(jīng)驗(yàn)。
干貨概覽
百度擁有上百條產(chǎn)品線、數(shù)十萬的服務(wù),每個(gè)服務(wù)時(shí)時(shí)刻刻都在產(chǎn)生著海量的監(jiān)控?cái)?shù)據(jù),形成的監(jiān)控項(xiàng)規(guī)??倲?shù)已達(dá)數(shù)十億。面對(duì)如此海量的數(shù)據(jù),在日常運(yùn)維(如故障診斷、成本分析、性能優(yōu)化等場(chǎng)景)過程中,傳統(tǒng)的統(tǒng)計(jì)圖表難以有效直觀地展示如此龐大的數(shù)據(jù)。
因此,優(yōu)秀的監(jiān)控?cái)?shù)據(jù)可視化產(chǎn)品就呼之欲出,它既要數(shù)據(jù)準(zhǔn)確、全面、時(shí)效性高,也需要提升用戶的使用體驗(yàn),使其能在茫茫數(shù)據(jù)中一眼就能發(fā)現(xiàn)想要觀察的數(shù)據(jù)。
那怎么做才能適應(yīng)用戶需求、完成精準(zhǔn)展示,同時(shí)又能挖掘數(shù)據(jù)價(jià)值呢?下面我們從故障診斷的場(chǎng)景出發(fā),來看百度智能監(jiān)控平臺(tái)是如何充分利用數(shù)據(jù)可視化武器來解決實(shí)際業(yè)務(wù)問題的。
故障定位可視化思路
在標(biāo)準(zhǔn)的故障處理流程中,故障定位一般可分為兩個(gè)階段:
故障止損前:期望可以快速獲得可用于止損決策的信息,做出相應(yīng)的止損操作使得服務(wù)恢復(fù)。比如通過確定故障范圍,調(diào)度流量繞過故障機(jī)房或摘除故障實(shí)例等。
故障止損后:仍需要進(jìn)一步找到導(dǎo)致故障的深層次原因,確定故障根因,將線上環(huán)境恢復(fù)到正常狀態(tài)。
基于上面的需求,可以總結(jié)為以下三個(gè)定位的層次,從整體到局部逐步縮小故障范圍,找到故障根因:
全局問題定位:快速確認(rèn)線上狀態(tài),縮小故障判定范圍。為可能的止損操作提供判斷依據(jù)。本文會(huì)介紹如何構(gòu)建一個(gè)全景分析儀表盤。
細(xì)分維度定位:通過分析地域、機(jī)房、模塊、接口、錯(cuò)誤碼等細(xì)分維度,進(jìn)一步縮小問題范圍,確定需要排障的目標(biāo)模塊、接口等。本文會(huì)介紹如何基于多維度數(shù)據(jù)可視化解決維度數(shù)量暴增帶來的定位難題。
故障根因確認(rèn):一些情況下,問題的根因需要借助除監(jiān)控指標(biāo)之外的數(shù)據(jù)進(jìn)行分析。例如上線變更、運(yùn)營(yíng)活動(dòng)導(dǎo)致的故障。本文針對(duì)導(dǎo)致故障占比較高的變更上線類故障進(jìn)行分析,看如何快速找到可能導(dǎo)致故障的變更事件。
全景掌控縮小范圍
對(duì)于一個(gè)服務(wù)乃至一條產(chǎn)品線而言,擁有一個(gè)布局合理、信息豐富的全景監(jiān)控儀表盤(Dashboard)對(duì)于服務(wù)狀態(tài)全景掌控至關(guān)重要,因此在百度智能監(jiān)控平臺(tái)中,我們提供了一款可定制化的、組件豐富的儀表盤服務(wù)。
用戶可以根據(jù)服務(wù)的特征,自由靈活的組織儀表盤布局,配置所需要展示的數(shù)據(jù)信息。
如上圖所示,我們可以按照問題定位的思路,將服務(wù)整體的服務(wù)可用性情況、分功能可用性情況、分模塊的核心指標(biāo)、流量的同環(huán)比對(duì)比、分IDC的流量對(duì)比等,依次通過豐富的可視化組件進(jìn)行呈現(xiàn)。使得在收到報(bào)警時(shí),可以快速將故障縮小到具體功能、模塊、接入流量、機(jī)房級(jí)別。
深入數(shù)據(jù)確定根因
在故障處理過程中,全景數(shù)據(jù)儀表盤為我們縮小了故障定位的范圍,但大多數(shù)的根因仍然隱藏在數(shù)據(jù)的細(xì)分維度中。由此多維度分析的重要性就體現(xiàn)出來了。常見的多維度分析包括如下幾種場(chǎng)景:
單維度取值對(duì)比分析:針對(duì)同一個(gè)維度的不同取值進(jìn)行對(duì)比分析,例如確定流量下跌出現(xiàn)在哪個(gè)省份。
多維度關(guān)聯(lián)分析:分析兩個(gè)甚至更多維度互相作用后數(shù)據(jù)的分析,例如如何確定一個(gè)下跌是機(jī)房級(jí)別還是模塊級(jí)別。
維度下鉆分析:一些維度包含多個(gè)層級(jí),例如省份、城市等相關(guān)聯(lián)維度的逐層下鉆定位。
我們針對(duì)這些場(chǎng)景,設(shè)計(jì)了相應(yīng)的解決方案。
單緯度取值對(duì)比分析
維度取值對(duì)比分析是一種最常見的細(xì)分維度定位方式。對(duì)于同一個(gè)維度下取值數(shù)量較少的情況,可以通過多維度趨勢(shì)圖和餅圖等可視化方式進(jìn)行快速的分析,查看不同維度取值的取值狀態(tài),以及占整體比例情況。
而對(duì)于維度取值數(shù)量多,且不同取值數(shù)量級(jí)差距較大情況(例如分省份的流量下跌判定),使用餅圖或趨勢(shì)圖很容易把流量較小省份的信息隱藏掉。這種場(chǎng)景下,我們可以通過維度取值自動(dòng)展開功能,分別查看每個(gè)省份的狀態(tài)。
多個(gè)緯度關(guān)聯(lián)分析
細(xì)分維度的故障所帶來的表象可能會(huì)在多個(gè)維度均有表現(xiàn),比如服務(wù)整體的訪問拒絕上升,我們會(huì)發(fā)現(xiàn)分機(jī)房的拒絕量上升,也看到分模塊的拒絕上升。
那么我們?nèi)绾未_認(rèn)故障的根因是來源于某個(gè)機(jī)房還是某個(gè)模塊,還是這兩者的交叉維度,即某個(gè)機(jī)房的某個(gè)模塊導(dǎo)致的問題。
矩陣熱力圖可以解決這一問題。將需要做分析的兩個(gè)維度分別作為橫縱坐標(biāo),通過階梯的閾值顏色將對(duì)應(yīng)交叉維度的取值展現(xiàn)再坐標(biāo)上。我們便可非常直觀的看到這這兩個(gè)維度對(duì)于整個(gè)業(yè)務(wù)的影響情況,如下圖所示:
我們可以看到,從縱向的分模塊維度,可以看到Module 4在多個(gè)機(jī)房都有明顯的訪問拒絕情況,而在橫向分機(jī)房維度,則沒有明顯的特征。則說明是Module 4模塊導(dǎo)致的問題。
嵌套緯度下鉆分析
類似于國(guó)家-省份-城市的行政區(qū)域劃分,區(qū)域-機(jī)房-機(jī)器的服務(wù)部署劃分,我們可以看到很多維度之間存在著層次嵌套的關(guān)系。我們故障定位的思路也是如此,從整體到局部逐步分層下鉆定位。
我們提供了多維度展開報(bào)表功能支持這種下鉆分析。
例如我們懷疑是某幾臺(tái)服務(wù)器導(dǎo)致的拒絕量上升,我們可以基于多維度統(tǒng)計(jì)報(bào)表,點(diǎn)擊排序找到拒絕較大的區(qū)域,然后依次展開找到拒絕較大的機(jī)房和機(jī)器。
點(diǎn)擊詳情后,我們就可以跳轉(zhuǎn)到機(jī)器對(duì)應(yīng)的頁面,查看對(duì)應(yīng)機(jī)器的詳細(xì)數(shù)據(jù)來進(jìn)行定位。
找尋關(guān)聯(lián)事件定位
根據(jù)歷史經(jīng)驗(yàn),大多數(shù)的線上故障都是由于變更操作所引起的,包括程序、數(shù)據(jù)、配置等變更事件,增刪機(jī)器實(shí)例、執(zhí)行預(yù)案等運(yùn)維事件,甚至包括可能引發(fā)流量突增的活動(dòng)運(yùn)營(yíng)事件。對(duì)于某些體積龐大的產(chǎn)品線,開發(fā)和維護(hù)人員眾多,以上事件的發(fā)生更是千絲萬縷、錯(cuò)綜復(fù)雜。
面對(duì)這個(gè)問題,我們?cè)O(shè)計(jì)并推出了一種可以解決這種問題的通用性組件——事件流圖。
通過事件流圖,可以快速篩選出故障的前后時(shí)間,發(fā)生或發(fā)生中的事件,每個(gè)事件通過色塊的長(zhǎng)短位置,展示了開始結(jié)束時(shí)間以及持續(xù)時(shí)長(zhǎng)。我們可以快速的分析出對(duì)應(yīng)時(shí)間的故障可能是由于某些操作開始或操作完成引發(fā)的。
對(duì)于部分業(yè)務(wù)線,同一時(shí)間段發(fā)生的事件可能有上百甚至上千條,我們提供便捷的篩選功能來解決這一問題。通過事件類型標(biāo)簽,打開或關(guān)閉某一類事件的展示,優(yōu)先排查最有可能的根因。同時(shí)對(duì)于每一類事件的支持細(xì)分篩選,用戶可以自定義事件篩選的條件,支持多項(xiàng)選擇、文本模糊匹配等多種方式,使得定位范圍一層層縮小,最終找到問題根因。
總結(jié)
以上我們介紹了百度智能監(jiān)控平臺(tái)在全局故障分析、細(xì)分維度定位、事件關(guān)聯(lián)定位三個(gè)故障定位階段中進(jìn)行的數(shù)據(jù)可視化探索。
數(shù)據(jù)可視化能力的優(yōu)勢(shì)不僅僅在故障定位場(chǎng)景中有突出體現(xiàn),還能應(yīng)用在更多的數(shù)據(jù)分析領(lǐng)域。我們未來會(huì)進(jìn)一步介紹平臺(tái)在應(yīng)用性能分析、商業(yè)數(shù)據(jù)分析等領(lǐng)域的實(shí)踐成果,歡迎各位繼續(xù)關(guān)注。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/3955.html
摘要:作者介紹王藝,百度云智能運(yùn)維架構(gòu)研發(fā)負(fù)責(zé)人。年轉(zhuǎn)向運(yùn)維方向,作為智能運(yùn)維架構(gòu)方向的技術(shù)負(fù)責(zé)人,致力于為百度智能運(yùn)維平臺(tái)和產(chǎn)品提供高性能高可用可擴(kuò)展的系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施。持續(xù)的數(shù)據(jù)建設(shè),是智能運(yùn)維建設(shè)的關(guān)鍵。 作者介紹王藝,百度云智能運(yùn)維架構(gòu)研發(fā)負(fù)責(zé)人。2010年加入百度,先后負(fù)責(zé)百度鏈接庫(kù)、百度志愿計(jì)算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過千億級(jí)網(wǎng)頁鏈接的洗禮,也調(diào)度過數(shù)十萬量級(jí)的服務(wù)器,熱衷于直...
摘要:隨著人工智能時(shí)代的到來,攜程生產(chǎn)環(huán)境運(yùn)維進(jìn)入了新的運(yùn)維時(shí)代。本文選取了幾種典型的運(yùn)維場(chǎng)景對(duì)在攜程的踐行展開了介紹,首先讓我們從概念認(rèn)識(shí)下。針對(duì)應(yīng)用異常指標(biāo)檢測(cè)這種場(chǎng)景,抽取一定的樣本統(tǒng)計(jì),在基于專家經(jīng)驗(yàn)標(biāo)注下的準(zhǔn)確率可達(dá)到以上,召回率接近。 作者簡(jiǎn)介徐新龍,攜程技術(shù)保障中心應(yīng)用管理團(tuán)隊(duì)高級(jí)工程師,負(fù)責(zé)多個(gè)AIOps項(xiàng)目的設(shè)計(jì)與研發(fā)。信號(hào)處理專業(yè)碩士畢業(yè),對(duì)人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及數(shù)學(xué)有...
摘要:摘要智能監(jiān)控是智能運(yùn)維的子領(lǐng)域,詳細(xì)分析。我和我的團(tuán)隊(duì)在阿里內(nèi)部的分工是橫向去看阿里巴巴業(yè)務(wù)指標(biāo)的監(jiān)控,我們就以這個(gè)話題展開。分享分為五個(gè)環(huán)節(jié),從阿里巴巴不同的業(yè)態(tài),特別是新的業(yè)態(tài)帶來的挑戰(zhàn)講起。 摘要:?智能監(jiān)控是智能運(yùn)維的子領(lǐng)域,詳細(xì)分析。 showImg(https://segmentfault.com/img/remote/1460000017348788); 作者簡(jiǎn)介 王肇...
摘要:本文將介紹美團(tuán)點(diǎn)評(píng)整個(gè)數(shù)據(jù)庫(kù)平臺(tái)的演進(jìn)歷史,以及我們當(dāng)前的情況和面臨的一些挑戰(zhàn),最后分享一下我們從自動(dòng)化到智能化運(yùn)維過渡時(shí),所進(jìn)行的思考探索與實(shí)踐。 從自動(dòng)化到智能化運(yùn)維過渡時(shí),美團(tuán)DBA團(tuán)隊(duì)進(jìn)行了哪些思考、探索與實(shí)踐?本文根據(jù)趙應(yīng)鋼在第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)上的演講內(nèi)容整理而成,部分內(nèi)容有更新。 背景 近些年,傳統(tǒng)的數(shù)據(jù)庫(kù)運(yùn)維方式已經(jīng)越來越難于滿足業(yè)務(wù)方對(duì)數(shù)據(jù)庫(kù)的穩(wěn)定性、可用性、靈活...
閱讀 1612·2021-09-23 11:31
閱讀 927·2021-09-23 11:22
閱讀 1351·2021-09-22 15:41
閱讀 4079·2021-09-03 10:28
閱讀 2913·2019-08-30 15:55
閱讀 3548·2019-08-30 15:55
閱讀 1959·2019-08-30 15:44
閱讀 2723·2019-08-30 13:50