摘要:背景近年來,隨著阿里新業(yè)務(wù)新技術(shù)的快速發(fā)展,傳統(tǒng)的業(yè)務(wù)總量監(jiān)控大盤已經(jīng)越來越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個方面缺乏全局視角監(jiān)控大盤主要反映的是單個業(yè)務(wù)或應(yīng)用的運行狀態(tài),缺少全局的業(yè)務(wù)視角能反應(yīng)整個業(yè)務(wù)域的上下游整體的運行情況。
背景
近年來,隨著阿里新業(yè)務(wù)、新技術(shù)的快速發(fā)展,傳統(tǒng)的業(yè)務(wù)總量“監(jiān)控大盤”已經(jīng)越來越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個方面:
缺乏全局視角:“監(jiān)控大盤”主要反映的是單個業(yè)務(wù)或應(yīng)用的運行狀態(tài),缺少全局的業(yè)務(wù)視角能反應(yīng)整個“業(yè)務(wù)域”的上下游整體的運行情況。比如交易系統(tǒng)成功率下跌,想看看是不是優(yōu)惠出問題了,但是不知道“優(yōu)惠”的業(yè)務(wù)監(jiān)控在哪里,只能依賴"優(yōu)惠"的同學去排查,釘釘電話溝通,大家一起拼湊信息,上下游協(xié)調(diào)成本很高。
監(jiān)控標準不統(tǒng)一:一直以來“業(yè)務(wù)監(jiān)控”都是自定義的,依賴開發(fā)人員的個人經(jīng)驗,往往系統(tǒng)、業(yè)務(wù)監(jiān)控混在一起,沒有標準,業(yè)務(wù)之間不能比較;各系統(tǒng)監(jiān)控能力參差不齊,很容易出現(xiàn)業(yè)務(wù)鏈路中的監(jiān)控斷層;業(yè)務(wù)監(jiān)控缺少一套行之有效的方法論,新人或者新業(yè)務(wù)對于業(yè)務(wù)要怎么監(jiān)控,不知道如何下手、不知道自己配的監(jiān)控是否覆蓋全面,只有等到故障發(fā)生以后才去補監(jiān)控。
缺少業(yè)務(wù)視角:隨著阿里業(yè)務(wù)飛速發(fā)展,特別是“大中臺”的建設(shè),使得傳統(tǒng)的“總量”監(jiān)控已經(jīng)不能滿足需求,比如一個“交易”中臺業(yè)務(wù)就會有數(shù)十個“業(yè)務(wù)方”調(diào)用,單純的總量監(jiān)控會把小調(diào)用量的業(yè)務(wù)淹沒,必須按每個業(yè)務(wù)方的“業(yè)務(wù)身份”進行監(jiān)控。對于像“盒馬”、“淘鮮達”這樣的新零售業(yè)務(wù),這樣的問題更加突出,一家門店出現(xiàn)交易異常對于“交易總量”來說是微不足道的,但是對這件門店的客戶體驗來說是災(zāi)難性的。
監(jiān)控配置成本高:“業(yè)務(wù)監(jiān)控”一直都是由“開發(fā)人員”純手工打造,需要經(jīng)過日志埋點、監(jiān)控配置、報警閾值設(shè)置,整個過程費時費力,缺乏自動化、智能化監(jiān)控的手段,這也是造成各系統(tǒng)監(jiān)控能力參差不齊的重要原因,一些新業(yè)務(wù)因為無力投入大量精力配置監(jiān)控,導致業(yè)務(wù)監(jiān)控能力缺失。
全景式監(jiān)控業(yè)務(wù)全鏈路監(jiān)控從業(yè)務(wù)的視角出發(fā),監(jiān)控整個業(yè)務(wù)流程的健康狀況,無需多個系統(tǒng)切換,直觀看到全局和上下游,方便快速發(fā)現(xiàn)、定位問題。
建立了完整的“業(yè)務(wù)監(jiān)控模型”,為業(yè)務(wù)建立起一個從“宏觀”到“微觀”的全景式業(yè)務(wù)監(jiān)控體系,結(jié)束了業(yè)務(wù)監(jiān)控沒有標準,只能純手工打造的歷史。業(yè)務(wù)監(jiān)控模型主要包括3部分:
● 業(yè)務(wù)域:一個完整的業(yè)務(wù)或產(chǎn)品稱為“業(yè)務(wù)域”,如電商的“交易域”、“營銷域”、“支付域”等。
● 業(yè)務(wù)活動:業(yè)務(wù)域中的的核心業(yè)務(wù)用例叫做“業(yè)務(wù)活動”,如交易域的“下單確認”、“創(chuàng)建訂單”等,業(yè)務(wù)活動是整個監(jiān)控模型的核心,每個業(yè)務(wù)活動都會有標準的【黃金指標】來反應(yīng)自身的健康狀況,業(yè)務(wù)活動之間建立上下游關(guān)系就形成了業(yè)務(wù)鏈路。
● 系統(tǒng)服務(wù):業(yè)務(wù)活動中的依賴的關(guān)鍵方法稱作“系統(tǒng)服務(wù)”,如“下單確認”包含:查詢會員、查詢商品、查詢優(yōu)惠等關(guān)鍵方法,每個系統(tǒng)服務(wù)也通過【黃金指標】來表示其健康狀況。
監(jiān)控流程以“監(jiān)控模型”為基礎(chǔ),我們總結(jié)出了一套如何做好“業(yè)務(wù)監(jiān)控”的方法論,并將其沉淀到產(chǎn)品中。
● 梳理關(guān)鍵業(yè)務(wù): 業(yè)務(wù)方需要梳理出自己的核心業(yè)務(wù)是什么(業(yè)務(wù)活動),以及這些核心業(yè)務(wù)的關(guān)鍵依賴有哪些(系統(tǒng)服務(wù))。
● 監(jiān)控數(shù)據(jù)埋點:提供了無侵入的配置化監(jiān)控SDK,只要將“業(yè)務(wù)活動”和“系統(tǒng)服務(wù)”對應(yīng)的方法填寫到配置文件中即可,系統(tǒng)會自動收集,計算,上報監(jiān)控數(shù)據(jù)。
● 監(jiān)控鏈路:系統(tǒng)根據(jù)收集的數(shù)據(jù)自動生成業(yè)務(wù)鏈路,每個“業(yè)務(wù)活動”和“系統(tǒng)服務(wù)”節(jié)點都自動生成流量、耗時、成功率的黃金指標,同時每個‘節(jié)點’都可以通過鉆取查看詳細的監(jiān)控數(shù)據(jù),包括:不同機房、單元、分組的數(shù)據(jù)對比,每個業(yè)務(wù)身份的明細調(diào)用情況等。
● 異常檢測:業(yè)務(wù)鏈路涉及節(jié)點眾多,必須要有完善的異常檢測機制來幫助用戶自動發(fā)現(xiàn)問題,我們提供了“智能基線預警”和“專家規(guī)則預警”相結(jié)合的異常檢測機制,無需用戶逐個配置報警規(guī)則,自動發(fā)現(xiàn)異常節(jié)點,實時將這些節(jié)點“標紅”,異常的詳細信息也會同步顯示,方便用戶快速發(fā)現(xiàn)和定位問題。
通過業(yè)務(wù)全鏈路監(jiān)控,可以做到對業(yè)務(wù)域的監(jiān)控標準化和全覆蓋,避免了自定義監(jiān)控覆蓋不全面、不標準、配置工作量大的問題,使得老板、PD、運營、監(jiān)控值班等用戶都可以快速了解業(yè)務(wù)是否有問題。
黃金指標引入Google的黃金指標概念,改變了業(yè)務(wù)監(jiān)控完全依賴自定義的現(xiàn)狀,為業(yè)務(wù)監(jiān)控樹立了標準。
● 流量 :業(yè)務(wù)在單位時間內(nèi)的調(diào)用量,如:服務(wù)的QPS、每秒訂單筆數(shù)等。
● 耗時 :業(yè)務(wù)的具體處理時長,需區(qū)分成功耗時和失敗耗時。
● 錯誤 :調(diào)用出錯數(shù)量、成功率、錯誤碼。
● 飽和度 :應(yīng)用已使用資源的占比。
由于飽和度更多反應(yīng)的是應(yīng)用的層面情況,所以業(yè)務(wù)監(jiān)控使用流量、耗時、錯誤這三個指標就能很好的回答“業(yè)務(wù)”是否健康的問題,在“業(yè)務(wù)全鏈路監(jiān)控”中每個業(yè)務(wù)活動和系統(tǒng)服務(wù)都會標配這三個監(jiān)控指標。
除了黃金指標以外,還可以根據(jù)各自業(yè)務(wù)的不同特點,定義各種分維度的輔助指標,比如:按不同的業(yè)務(wù)身份,按商家、按門店分,不同的錯誤碼等等,用于進一步細化和定位
業(yè)務(wù)維度傳統(tǒng)的“總量”指標已經(jīng)不能滿足中臺、盒馬這樣的業(yè)務(wù)監(jiān)控需求了,通過可擴展的業(yè)務(wù)維度實現(xiàn)對業(yè)務(wù)身份、商家、門店的精細化監(jiān)控。像“交易”這樣的中臺業(yè)務(wù)會被幾十個業(yè)務(wù)方調(diào)用,總量沒有異常并不代表具體的業(yè)務(wù)方?jīng)]有問題,而是需要監(jiān)控每一個業(yè)務(wù)方各自的調(diào)用情況,只要有一個出現(xiàn)異常就要預警。
橫向業(yè)務(wù)維度:業(yè)務(wù)全鏈路監(jiān)控提供了“橫向業(yè)務(wù)維度”功能,能夠方便的配置“業(yè)務(wù)身份”、“商家”、“門店”等特定的業(yè)務(wù)維度,可以對一個業(yè)務(wù)域中所有的“業(yè)務(wù)活動”和“系統(tǒng)服務(wù)”按一個維度過濾,比如可以對交易鏈路按“盒馬”這個業(yè)務(wù)身份過濾,從而在鏈路上看到的是盒馬的交易調(diào)用情況。
配置化埋點監(jiān)控SDK使用AOP切面技術(shù)實現(xiàn)了配置化埋點能力,業(yè)務(wù)系統(tǒng)引入監(jiān)控SDK后,通過簡單的一個配置文件即可完成監(jiān)控埋點,自動完成數(shù)據(jù)的攔截、計算、上報,與業(yè)務(wù)代碼完全解耦。
鏈路自動生成自動生成應(yīng)用核心鏈路、黃金指標、業(yè)務(wù)維度大盤,無需用戶配置,用戶還可以通過可視化編輯頁面對鏈路進行調(diào)整。
智能基線預警通過機器學習快速預測指標的合理范圍,一旦超出邊界就會自動觸發(fā)報警,無需配置閾值。
智能基線預警已經(jīng)在業(yè)務(wù)自定義監(jiān)控中得到了驗證(已經(jīng)有超過1200指標接入),準確率和召回率相對于人工配置都有大幅提高,現(xiàn)在我們將該技術(shù)引入“業(yè)務(wù)全鏈路監(jiān)控”,實現(xiàn)對業(yè)務(wù)活動的智能異常檢測,全程無人參與。
實戰(zhàn)實戰(zhàn)1-交易全局鏈路
交易域的全局業(yè)務(wù)鏈路,鏈路中列出交易的關(guān)鍵“業(yè)務(wù)活動”,省略了每個業(yè)務(wù)活動的“系統(tǒng)服務(wù)”等細節(jié),主要用于全鏈路壓測,大促投屏等需要關(guān)注全局狀態(tài)的業(yè)務(wù)場景,已在6.18大促中得到實際應(yīng)用。
實戰(zhàn)2-交易核心鏈路
交易是整個電商的核心,我們通過“鏈路自動生成”能力生成了核心業(yè)務(wù)鏈路,其中綠色節(jié)點為“業(yè)務(wù)活動”,黃色節(jié)點為“業(yè)務(wù)活動”依賴的“系統(tǒng)服務(wù)”。
通過業(yè)務(wù)鏈路可以很方便了解交易活動的運行狀況,一旦業(yè)務(wù)活動出現(xiàn)問題也可以更加直觀的發(fā)現(xiàn)與下游依賴的關(guān)系。
實戰(zhàn)3-POS服務(wù)端鏈路
POS是整個新零售場景線下支付場景的交易核心,下線支付場景對交易系統(tǒng)提出更加嚴格的可靠性要求,通過POS業(yè)務(wù)鏈路可以很好的監(jiān)控POS交易各環(huán)節(jié)的運行情況,及時發(fā)現(xiàn)交易異常。
同時POS鏈路添加了“商家”、“門店”的業(yè)務(wù)維度,可以實時切換“盒馬”,“大潤發(fā)”等不同商家的POS交易情況,實現(xiàn)針對每個商家精細化監(jiān)控。
本文作者:勁節(jié)
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19795.html
摘要:北京時間月日月日,由和中國國際人才交流基金會聯(lián)合主辦的第七屆全球軟件案例研究峰會簡稱在北京國家會議中心圓滿落幕。本屆峰會,來自阿里美團百度平安銀行等企業(yè)的講師分別從企業(yè)轉(zhuǎn)型及研發(fā)效能方面分享敏捷和的實踐細節(jié)和操作經(jīng)驗。 北京時間11月30日-12月3日,由msup和中國國際人才交流基金會聯(lián)合主辦的第七屆全球軟件案例研究峰會(簡稱:TOP100summit)在北京國家會議中心圓滿落幕。T...
摘要:演講中,李俊華介紹了螞蟻金服數(shù)據(jù)架構(gòu)體系的免疫系統(tǒng)數(shù)據(jù)質(zhì)量治理體系,此外還著重介紹了數(shù)據(jù)質(zhì)量實施的相關(guān)內(nèi)容,以及螞蟻的數(shù)據(jù)質(zhì)量治理實踐與所面對的實際挑戰(zhàn)。 摘要:以數(shù)字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會于2019年1月4日上海如期舉辦。金融智能專場分論壇上,螞蟻金服數(shù)據(jù)平臺部高級數(shù)據(jù)技術(shù)專家李俊華做了主題為《螞...
摘要:今天,阿里數(shù)據(jù)庫事業(yè)部研究員張瑞,將為你講述雙數(shù)據(jù)庫技術(shù)不為人知的故事。這十年,阿里巴巴數(shù)據(jù)庫團隊一直有一個使命推動中國數(shù)據(jù)庫技術(shù)變革。 第十個雙11即將來臨之際,阿里技術(shù)推出《十年牧碼記》系列,邀請參與歷年雙11備戰(zhàn)的核心技術(shù)大牛,一起回顧阿里技術(shù)的變遷。 今天,阿里數(shù)據(jù)庫事業(yè)部研究員張瑞,將為你講述雙11數(shù)據(jù)庫技術(shù)不為人知的故事。在零點交易數(shù)字一次次提升的背后,既是數(shù)據(jù)庫技術(shù)的一次...
閱讀 1224·2023-04-26 00:47
閱讀 3580·2021-11-16 11:53
閱讀 804·2021-10-08 10:05
閱讀 2752·2021-09-22 15:19
閱讀 2987·2019-08-30 15:55
閱讀 2763·2019-08-29 16:55
閱讀 2933·2019-08-29 15:20
閱讀 1120·2019-08-23 16:13