混合云環(huán)境運(yùn)維手段治理方案
點(diǎn)擊上方“IT那活兒”公眾號(hào),關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?!隨著IT云區(qū)域中心的不斷拓展,在響應(yīng)“集中化”、“降本增效”發(fā)展戰(zhàn)略的同時(shí),基于多云環(huán)境的物理雙中心架構(gòu)也帶來(lái)了混合云架構(gòu)下的運(yùn)維難題。
為保證核心系統(tǒng)平穩(wěn)無(wú)中斷遷移和運(yùn)行在混合云架構(gòu)上,高效拉通異構(gòu)云環(huán)境下的的部署、監(jiān)控、故障處理等運(yùn)維能力,需統(tǒng)一構(gòu)建PaaS平臺(tái)運(yùn)維接口、日志和指標(biāo)統(tǒng)一采集功能以及運(yùn)維數(shù)據(jù)匯聚展現(xiàn)功能。
混合云架構(gòu)下的運(yùn)維困難來(lái)源于對(duì)于異構(gòu)云的分別運(yùn)維管理。無(wú)論是系統(tǒng)問(wèn)題的定位,還是發(fā)現(xiàn)問(wèn)題后的運(yùn)維保障手段,都比運(yùn)維單純一套云平臺(tái)要更加復(fù)雜,其中異構(gòu)云的運(yùn)維手段的割裂也是限制了運(yùn)維效率提升的重要原因。為了保證核心系統(tǒng)能盡量平穩(wěn)無(wú)中斷遷移和運(yùn)行在混合云架構(gòu)上,保障業(yè)務(wù)系統(tǒng)在部署、監(jiān)控、故障處理等方面的運(yùn)維支撐效率,我們將混合云運(yùn)維能力建設(shè)要達(dá)到的目標(biāo)明確為:異常事件快速發(fā)現(xiàn),影響范圍快速分析,業(yè)務(wù)快速恢復(fù)。如何實(shí)現(xiàn)這個(gè)目標(biāo)呢?發(fā)生異常要能在1分鐘內(nèi)發(fā)現(xiàn)。這個(gè)主要依靠對(duì)多種云環(huán)境內(nèi)的各類運(yùn)維數(shù)據(jù)實(shí)時(shí)采集,通過(guò)實(shí)時(shí)計(jì)算能力進(jìn)行數(shù)據(jù)的格式化處理、建立多維數(shù)據(jù)之間的關(guān)聯(lián),并基于事件識(shí)別判斷能力進(jìn)行監(jiān)控和告警輸出。這個(gè)能力將通過(guò)建設(shè)統(tǒng)一的運(yùn)維數(shù)據(jù)管理和運(yùn)維數(shù)據(jù)分析能力來(lái)實(shí)現(xiàn)。5分鐘內(nèi)分析確定事件的影響范圍。分析重點(diǎn)是定界,而不是定位。以往在發(fā)生故障時(shí),我們都是要定位到問(wèn)題原因后才能做相應(yīng)的故障恢復(fù)操作,但這個(gè)定位往往是最難,也是最耗時(shí)的。用戶在等待系統(tǒng)恢復(fù)的過(guò)程中焦慮是在指數(shù)級(jí)增長(zhǎng)的。并且在混合云的架構(gòu)下,發(fā)生異常時(shí)定位問(wèn)題的難度更大,因此我們的目標(biāo)不是要在在最短時(shí)間內(nèi)定位到發(fā)生異常的問(wèn)題點(diǎn),而是要快速分析出問(wèn)題的影響范圍。我們將影響范圍以平面來(lái)進(jìn)行定義。以往我們建立的主備策略、災(zāi)備環(huán)境或者雙中心環(huán)境往往是最大平面的維度,難以支撐小范圍的故障。畢竟切換的面越大,整體業(yè)務(wù)中斷的風(fēng)險(xiǎn)也越大,評(píng)估下來(lái)因?yàn)閱蝹€(gè)業(yè)務(wù)無(wú)法使用或者單個(gè)模塊無(wú)法使用切換整個(gè)中心或啟用災(zāi)備環(huán)境是不現(xiàn)實(shí)的,也是得不償失的。我們根據(jù)實(shí)際經(jīng)驗(yàn)得到的方案是將業(yè)務(wù)系統(tǒng)劃分為更微小平面維度,例如業(yè)務(wù)維度、應(yīng)用維度、模塊維度、網(wǎng)絡(luò)維度等等。
當(dāng)發(fā)生異常時(shí),通過(guò)分析快速確定問(wèn)題影響的最小粒度平面。我們將這些不同維度平面的高可用方案以策略的形式進(jìn)行定義,并納入智能切換策略管理。智能切換策略管理針對(duì)各維度平面的保障方案,包括負(fù)載流量的分流、灰度平面切換、業(yè)務(wù)的限流、熔斷策略等等,這些策略的執(zhí)行可能包含一個(gè)或多個(gè)自動(dòng)化運(yùn)維流程的序列執(zhí)行,而這些自動(dòng)化的運(yùn)維流程需要在運(yùn)維流程管理中進(jìn)行預(yù)置。以上的運(yùn)維事件發(fā)生和處置過(guò)程,都應(yīng)該在演練及應(yīng)急保障管理中制定演練計(jì)劃,通過(guò)反復(fù)的日常演練來(lái)推動(dòng)運(yùn)維過(guò)程和運(yùn)維操作能力的優(yōu)化。當(dāng)生產(chǎn)系統(tǒng)真實(shí)出現(xiàn)異常事件時(shí),基于上述平臺(tái)的全流程自動(dòng)化能力,將異?;謴?fù)時(shí)間壓縮到10分鐘以內(nèi)。通過(guò)建立這樣一個(gè)以快速恢復(fù)系統(tǒng)為目標(biāo)的混合云智慧運(yùn)維能力平臺(tái),來(lái)保障部署在混合云上的各業(yè)務(wù)系統(tǒng)模塊能維持正常運(yùn)行,提供業(yè)務(wù)支撐。根據(jù)上述的建設(shè)思路,我們整理出該統(tǒng)一的運(yùn)維能力平臺(tái)的功能架構(gòu)和技術(shù)架構(gòu)如下所示:
1. 功能架構(gòu)
在實(shí)現(xiàn)對(duì)多個(gè)異構(gòu)云的運(yùn)維能力原子化的基礎(chǔ)上,構(gòu)建運(yùn)維數(shù)據(jù)管理、運(yùn)維流程管理來(lái)對(duì)接異構(gòu)云的運(yùn)維數(shù)據(jù)納管能力和運(yùn)維操作能力;以及通過(guò)運(yùn)維數(shù)據(jù)分析模塊來(lái)實(shí)現(xiàn)對(duì)混合云的各類運(yùn)維事件的統(tǒng)一分析管理;為了支撐對(duì)各種不同類型運(yùn)維事件的快速響應(yīng)能力,增加智能切換策略管理和演練及應(yīng)急保障管理來(lái)形成與運(yùn)維操作的對(duì)接。同時(shí),在云化遷移的過(guò)程中,運(yùn)維場(chǎng)景將面臨目標(biāo)部署環(huán)境經(jīng)常變動(dòng)的難題,為了滿足對(duì)異構(gòu)云上不同運(yùn)維場(chǎng)景建設(shè)的時(shí)效性,還將引入低代碼運(yùn)維場(chǎng)景構(gòu)建管理能力,通過(guò)低代碼開(kāi)發(fā)方式快速支撐運(yùn)維場(chǎng)景建設(shè)。2. 技術(shù)架構(gòu)
其中針對(duì)混合云產(chǎn)生的運(yùn)維數(shù)據(jù)量巨大的難點(diǎn)問(wèn)題,考慮以Redis、MySQL、Elasticsearch、HBASE多種存儲(chǔ)組件協(xié)同的方式來(lái)實(shí)現(xiàn)運(yùn)維數(shù)據(jù)的分級(jí)分類存儲(chǔ)。運(yùn)維數(shù)據(jù)從采集到最終入庫(kù)存放的處理流程如下所示:1. 運(yùn)維能力原子化
能力原子化包括對(duì)異構(gòu)云的運(yùn)維操作和運(yùn)維數(shù)據(jù)獲取能力做接口化,形成統(tǒng)一的可調(diào)用的能力接口。通過(guò)云上提供的大數(shù)據(jù)組件對(duì)接(例如將數(shù)據(jù)吐到kafka-topic的方式),或通過(guò)容器內(nèi)部署的agent、腳本、或遠(yuǎn)程jdbc連接等方式來(lái)獲取。運(yùn)維操作能力主要通過(guò)對(duì)k8s容器管理、組件管理等接口進(jìn)行封裝,實(shí)現(xiàn)對(duì)容器及容器內(nèi)應(yīng)用組件的運(yùn)維操作管理。在云平臺(tái)能力不滿足需求的情況下,還將引入其他開(kāi)源的采集組件、執(zhí)行組件,結(jié)合本地運(yùn)維開(kāi)發(fā)腳本,共同形成原子能力層。圖片來(lái)源于網(wǎng)絡(luò)
運(yùn)維數(shù)據(jù)包括:
- 集團(tuán)XXX云:租戶內(nèi)的資源數(shù)據(jù)、業(yè)務(wù)模塊部署組件性能指標(biāo)數(shù)據(jù)、業(yè)務(wù)模塊應(yīng)用日志數(shù)據(jù)、業(yè)務(wù)鏈路數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)存儲(chǔ)組件數(shù)據(jù)等,通過(guò)對(duì)接平臺(tái)大數(shù)據(jù)組件、業(yè)務(wù)應(yīng)用吐出到Kafka-topic管道、日志文件采集等方式輸出到本平臺(tái)。
- 本地XXX云:包括本地云和裸金屬部署環(huán)境的資源數(shù)據(jù)、主機(jī)或容器內(nèi)組件性能指標(biāo)數(shù)據(jù)、業(yè)務(wù)應(yīng)用日志數(shù)據(jù)、業(yè)務(wù)鏈路數(shù)據(jù)等,通過(guò)在原有運(yùn)維數(shù)據(jù)采集獲取通道上將運(yùn)維數(shù)據(jù)做轉(zhuǎn)發(fā),實(shí)現(xiàn)輸出到本平臺(tái)。
運(yùn)維操作包括:
- 集團(tuán)XXX云:包括對(duì)云平臺(tái)的命令操作、任務(wù)管理、啟停服務(wù)管理、軟件操作管理、配置庫(kù)管理、文件管理等。將這些云平臺(tái)能力統(tǒng)一封裝為可調(diào)用接口,通過(guò)本平臺(tái)的調(diào)用傳參來(lái)實(shí)現(xiàn)運(yùn)維操作管理。
- 本地XXX云:包括對(duì)省內(nèi)的云平臺(tái)的自動(dòng)化運(yùn)維場(chǎng)景程序、自動(dòng)化腳本、CMDB資源管理、文件管理、應(yīng)用發(fā)布管理等能力封裝為可調(diào)用接口,通過(guò)本平臺(tái)的調(diào)用傳參來(lái)實(shí)現(xiàn)對(duì)本地云環(huán)境的運(yùn)維操作管理。
2. 運(yùn)維數(shù)據(jù)管理
支持對(duì)任意運(yùn)維數(shù)據(jù)的接入納管,實(shí)現(xiàn)對(duì)異構(gòu)云的可觀測(cè)性能力建設(shè)。支持對(duì)性能指標(biāo)類的時(shí)序數(shù)據(jù)、日志類非結(jié)構(gòu)化數(shù)據(jù)、還有業(yè)務(wù)鏈路數(shù)據(jù)的統(tǒng)一匯聚納管到同一平臺(tái),并構(gòu)建基于流批一體計(jì)算框架的數(shù)據(jù)加工處理以及數(shù)據(jù)關(guān)聯(lián)能力,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的秒級(jí)指標(biāo)生成以及多條件規(guī)則判斷能力。資源數(shù)據(jù)是運(yùn)維數(shù)據(jù)的關(guān)聯(lián)基礎(chǔ),運(yùn)維數(shù)據(jù)管理模塊實(shí)現(xiàn)從異構(gòu)云平臺(tái)定時(shí)同步,將資源數(shù)據(jù)統(tǒng)一接入平臺(tái)的資源池。圖片來(lái)源于網(wǎng)絡(luò)
支持對(duì)海量數(shù)據(jù)按不同的使用場(chǎng)景的分類存儲(chǔ)管理,制定不同數(shù)據(jù)類型的存儲(chǔ)周期管理,并按規(guī)則進(jìn)行數(shù)據(jù)備份和清理。
數(shù)據(jù)檢索工具支持對(duì)關(guān)系型數(shù)據(jù)、時(shí)序數(shù)據(jù)、key-value數(shù)據(jù)的檢索展現(xiàn),能在不同類型的數(shù)據(jù)對(duì)象之間實(shí)現(xiàn)關(guān)聯(lián)檢索。例如根據(jù)數(shù)據(jù)庫(kù)中查詢到的業(yè)務(wù)訂單數(shù)據(jù),自動(dòng)按此作為關(guān)鍵字查詢?nèi)罩緮?shù)據(jù)、鏈路數(shù)據(jù)返回報(bào)錯(cuò)信息或鏈路數(shù)據(jù)。在該模塊的實(shí)時(shí)計(jì)算框架中需要實(shí)現(xiàn)以下類型的數(shù)據(jù)加工處理規(guī)則或邏輯判斷規(guī)則:數(shù)據(jù)處理類
結(jié)構(gòu)化數(shù)據(jù)的二次加工、屬性項(xiàng)新增、數(shù)值轉(zhuǎn)換等;非結(jié)構(gòu)化數(shù)據(jù)提取生成結(jié)構(gòu)化數(shù)據(jù)。- 簡(jiǎn)單指標(biāo)計(jì)算(最值計(jì)算、均值計(jì)算、分類統(tǒng)計(jì)等);復(fù)合指標(biāo)計(jì)算(對(duì)已生成指標(biāo)或告警的二次統(tǒng)計(jì)計(jì)算);關(guān)聯(lián)指標(biāo)計(jì)算(實(shí)現(xiàn)對(duì)兩個(gè)或兩個(gè)以上指標(biāo)做關(guān)聯(lián)生成新的指標(biāo));加工指標(biāo)計(jì)算(對(duì)指標(biāo)的二次加工,如數(shù)值轉(zhuǎn)換,key值轉(zhuǎn)換,key值新增等)。
- 閾值規(guī)則(固定閾值比對(duì)判斷);同比環(huán)比規(guī)則(與歷史同期數(shù)據(jù)或時(shí)序前列數(shù)據(jù)的比對(duì)判斷);動(dòng)態(tài)基線比對(duì)規(guī)則(以歷史數(shù)據(jù)根據(jù)配置規(guī)則生成動(dòng)態(tài)基線);指標(biāo)未生成規(guī)則(有基線數(shù)據(jù),無(wú)實(shí)時(shí)數(shù)據(jù)時(shí)產(chǎn)生)。
3. 運(yùn)維數(shù)據(jù)分析
運(yùn)維數(shù)據(jù)的分析的對(duì)象不光是系統(tǒng)故障,還包括網(wǎng)絡(luò)攻擊、內(nèi)外部用戶的行為異常、應(yīng)用發(fā)布動(dòng)作帶來(lái)的系統(tǒng)變化(例如業(yè)務(wù)影響、性能影響等等)、還有網(wǎng)絡(luò)上的異常(比如閃斷、連接風(fēng)暴、負(fù)載不均衡、數(shù)據(jù)不同步等),另外還有長(zhǎng)期的業(yè)務(wù)容量發(fā)展趨勢(shì)變化,都屬于事件分析的范疇。這也對(duì)數(shù)據(jù)分析管理功能模塊提出了很高的建設(shè)要求,要能對(duì)實(shí)時(shí)的各類運(yùn)維數(shù)據(jù)做分析,也要能對(duì)運(yùn)維數(shù)據(jù)的長(zhǎng)期變化趨勢(shì)做分析,對(duì)各類事件建立判斷規(guī)則模型。運(yùn)維數(shù)據(jù)分析包括前臺(tái)的事件管理及后臺(tái)的事件分析過(guò)程。1)前臺(tái)事件管理包含以下幾個(gè)子模塊
- 事件樣本庫(kù):存放歷史事件發(fā)生時(shí)各類運(yùn)維數(shù)據(jù)的樣本,用于提取事件判定規(guī)則(指標(biāo)閾值規(guī)則、動(dòng)態(tài)基線規(guī)則、時(shí)間范圍規(guī)則、特定業(yè)務(wù)環(huán)境規(guī)則等)。
- 事件模型管理:支持對(duì)各類運(yùn)維事件的定義及分類管理。包含了對(duì)事件的歷史樣本、事件判斷的識(shí)別規(guī)則、事件觸發(fā)的執(zhí)行策略的管理。
- 識(shí)別規(guī)則管理:包含對(duì)事件發(fā)生時(shí)的一個(gè)或多個(gè)指標(biāo)閾值的定義,或定義事件多個(gè)指標(biāo)項(xiàng)的動(dòng)態(tài)基線,并建立基于動(dòng)態(tài)基線的事件識(shí)別判斷規(guī)則。
- 事件策略管理:定義事件發(fā)生時(shí)的觸發(fā)動(dòng)作,包括但不限于對(duì)配置派單接口、告警短信接口、事件接收角色等策略的管理。
2)后臺(tái)的事件分析包括三個(gè)處理步驟
- 第一步是數(shù)據(jù)接入,建立事件分析需要接入的數(shù)據(jù)源(數(shù)據(jù)流)。
- 第二步是模型匹配,將需要判斷的數(shù)據(jù)流與已建立的事件分析規(guī)則模型進(jìn)行匹配,滿足條件則觸發(fā)事件。
- 第三步是策略執(zhí)行,根據(jù)事件定義的策略執(zhí)行告警輸出、工單派發(fā)等動(dòng)作。
4. 運(yùn)維流程管理
在將異構(gòu)云平臺(tái)、自定義腳本、開(kāi)源工具的能力進(jìn)行接口化納管后,應(yīng)用運(yùn)維流程管理的能力管理、腳本管理、工具管理實(shí)現(xiàn)注冊(cè)管理。該模塊中的后臺(tái)流程引擎實(shí)現(xiàn)對(duì)配置的靜態(tài)運(yùn)維操作流程加載,支持通過(guò)前臺(tái)界面配置定時(shí)任務(wù)、手工觸發(fā),或通過(guò)后臺(tái)的接口調(diào)用,來(lái)觸發(fā)運(yùn)維流程的啟停操作。在運(yùn)維流程執(zhí)行過(guò)程中,引擎支持對(duì)節(jié)點(diǎn)的串行執(zhí)行或并行執(zhí)行,支持帶條件判斷的多分支執(zhí)行,也支持對(duì)多個(gè)執(zhí)行分支的并流判斷。流程引擎支持人工節(jié)點(diǎn)。由人工通過(guò)表單輸入?yún)?shù)來(lái)執(zhí)行后續(xù)節(jié)點(diǎn),也支持人工審核節(jié)點(diǎn)來(lái)觸發(fā)高風(fēng)險(xiǎn)運(yùn)維操作自動(dòng)執(zhí)行。流程引擎可通過(guò)調(diào)用接口節(jié)點(diǎn)執(zhí)行異構(gòu)云或其它開(kāi)源工具的運(yùn)維操作能力,也支持通過(guò)執(zhí)行配置的自定義腳本來(lái)執(zhí)行更加靈活的運(yùn)維操作動(dòng)作。運(yùn)維流程執(zhí)行過(guò)程中每個(gè)節(jié)點(diǎn)的執(zhí)行日志數(shù)據(jù)、執(zhí)行結(jié)果數(shù)據(jù)、執(zhí)行耗時(shí)數(shù)據(jù)都通過(guò)采集并統(tǒng)一存儲(chǔ),為后續(xù)追溯運(yùn)維現(xiàn)場(chǎng)提供數(shù)據(jù)支持,也為運(yùn)維操作的優(yōu)化提供分析依據(jù)。模塊前臺(tái)提供流程管理,支持對(duì)流程的增刪查改等操作,并可通過(guò)復(fù)制、導(dǎo)出、導(dǎo)入等功能實(shí)現(xiàn)運(yùn)維流程的快速構(gòu)建。流程編輯器支持對(duì)運(yùn)維自動(dòng)化流程的可視化編排。編輯器中包含各類能力接口組件、自定義腳本組件、人工審核組件、條件判斷組件、分流組件、并流組件,可通過(guò)托拉拽方式編排運(yùn)維動(dòng)作的執(zhí)行過(guò)程。5. 智能切換策略管理
該管理模塊納管業(yè)務(wù)系統(tǒng)各模塊在各個(gè)維度的平面級(jí)運(yùn)維保障動(dòng)作,包括快速切換、限流、降級(jí)、熔斷等等。是對(duì)多個(gè)運(yùn)維操作流程面向事件場(chǎng)景的封裝。以各維度平面為單元對(duì)應(yīng)用架構(gòu)梳理,實(shí)現(xiàn)更小粒度的管理單元,并明確管理單元的高可用方案。通過(guò)構(gòu)建多維度平面級(jí)保障策略中心,在應(yīng)用發(fā)布、應(yīng)急切換、故障自愈等場(chǎng)景中,提供不影響業(yè)務(wù)的的自動(dòng)化處置方案。這個(gè)能力需要依賴對(duì)于應(yīng)用系統(tǒng)在各個(gè)平面維度的梳理,制定當(dāng)某個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)出現(xiàn)異常時(shí)的切換策略。在這個(gè)過(guò)程中就涉及到引流,切換負(fù)載,自動(dòng)擴(kuò)容,動(dòng)態(tài)修改參數(shù)等處置動(dòng)作,以及處理時(shí)序,這都屬于平面切換策略的范疇。該功能模塊包含切換場(chǎng)景管理、切換策略制定、切換執(zhí)行管理、運(yùn)維流程對(duì)接等前后臺(tái)功能子模塊。
- 切換場(chǎng)景管理確定不同類型主題的場(chǎng)景分類,分別納管業(yè)務(wù)故障、系統(tǒng)故障、環(huán)境故障、應(yīng)用發(fā)布、環(huán)境割接、網(wǎng)絡(luò)攻擊等實(shí)際可能影響業(yè)務(wù)的場(chǎng)景。制定各維度的平面在場(chǎng)景中的高可用切換方案。
- 切換策略制定面向切換場(chǎng)景管理中的各方案,通過(guò)可視化拖拉拽的方式提供對(duì)多個(gè)運(yùn)維流程的時(shí)序編排和依賴控制。
- 切換執(zhí)行管理實(shí)現(xiàn)對(duì)切換動(dòng)作的前臺(tái)白屏化操作能力。并建立平面切換過(guò)程的可觀測(cè)性和質(zhì)量、效率管理。
- 運(yùn)維流程對(duì)接是切換執(zhí)行管理的后臺(tái)模塊,將前臺(tái)配置的策略及執(zhí)行動(dòng)作與運(yùn)維流程管理模塊中配置的流程動(dòng)作對(duì)接,并獲取流程的執(zhí)行過(guò)程數(shù)據(jù)和反饋結(jié)果信息。
6. 演練及應(yīng)急保障管理
通過(guò)建設(shè)日常演練及應(yīng)急保障管理模塊,在該模塊中構(gòu)建運(yùn)維大腦,實(shí)現(xiàn)運(yùn)維數(shù)據(jù)分析管理與平面切換策略管理的對(duì)接能力,建立運(yùn)維事件與切換場(chǎng)景的關(guān)聯(lián),完成運(yùn)維場(chǎng)景全流程的閉環(huán)。并通過(guò)定期演練,對(duì)演練結(jié)果進(jìn)行評(píng)估并做出相應(yīng)的優(yōu)化改進(jìn),以確保各類事件或故障發(fā)生時(shí),系統(tǒng)恢復(fù)計(jì)劃持續(xù)可用。圖片來(lái)源于網(wǎng)絡(luò)
應(yīng)急預(yù)案管理模塊支持配置各類運(yùn)維分析結(jié)果事件與切換場(chǎng)景策略的執(zhí)行關(guān)系。不同類型的事件,如果造成同樣的業(yè)務(wù)影響,其所對(duì)應(yīng)的平面切換策略也會(huì)是相同的。通過(guò)該子模塊建立運(yùn)維數(shù)據(jù)分析模塊的事件策略管理與平面切換策略管理模塊的切換場(chǎng)景管理的關(guān)聯(lián)。運(yùn)維大腦作為后臺(tái)應(yīng)用部署。它接收實(shí)時(shí)運(yùn)維數(shù)據(jù)分析輸出的事件信息,在運(yùn)維大腦中根據(jù)在應(yīng)急預(yù)案管理中關(guān)聯(lián)的切換場(chǎng)景,執(zhí)行對(duì)切換執(zhí)行管理接口的調(diào)用,觸發(fā)運(yùn)維流程開(kāi)始。過(guò)程跟蹤管理實(shí)現(xiàn)對(duì)事件產(chǎn)生到切換場(chǎng)景執(zhí)行的全過(guò)程跟蹤管理。支持對(duì)事件自動(dòng)觸發(fā)切換場(chǎng)景的手動(dòng)重新執(zhí)行或修改當(dāng)次執(zhí)行策略觸發(fā)。支持對(duì)歷史運(yùn)維切換動(dòng)作實(shí)例的查看和追溯,為優(yōu)化運(yùn)維執(zhí)行流程提供歷史數(shù)據(jù)依據(jù)。演練計(jì)劃管理支持制定運(yùn)維場(chǎng)景的演練計(jì)劃,并在計(jì)劃時(shí)間實(shí)現(xiàn)對(duì)模擬事件的數(shù)據(jù)觸發(fā),以此來(lái)驗(yàn)證運(yùn)維流程方案的可靠性和平面切換動(dòng)作的快速準(zhǔn)確性。演練計(jì)劃管理支持與外部審批流程系統(tǒng)對(duì)接,形成自動(dòng)化運(yùn)維管理中日常應(yīng)急演練的閉環(huán)管理。7. 低代碼運(yùn)維場(chǎng)景構(gòu)建管理
建設(shè)低代碼構(gòu)建能力,在將云平臺(tái)工具的能力原子化基礎(chǔ)上,形成運(yùn)維能力庫(kù)。應(yīng)用低代碼方式實(shí)現(xiàn)運(yùn)維場(chǎng)景的交互配置、操作流程配置等功能等實(shí)現(xiàn)對(duì)各類運(yùn)維場(chǎng)景的前臺(tái)操作支撐。這些不同運(yùn)維操作場(chǎng)景將在運(yùn)維應(yīng)用市場(chǎng)中以小程序形式提供給運(yùn)維人員使用。圖片來(lái)源于網(wǎng)絡(luò)
該模塊主要是解決運(yùn)維場(chǎng)景定制化的效率問(wèn)題。在面臨同時(shí)運(yùn)維多個(gè)云環(huán)境的情況下,運(yùn)維場(chǎng)景開(kāi)發(fā)構(gòu)建時(shí)效性要求高,特別是和特定業(yè)務(wù)時(shí)段相關(guān)的,例如特定的促銷時(shí)期的運(yùn)維場(chǎng)景,如果按正常定制化開(kāi)發(fā)的流程周期太長(zhǎng),難以滿足運(yùn)維工作的需要。還有一些比較靈活的報(bào)表、儀表盤或其他可視化場(chǎng)景,如果應(yīng)用低代碼的方式快速構(gòu)建,能更快更好的滿足使用方面的需求。應(yīng)用低代碼運(yùn)維場(chǎng)景構(gòu)建能力,實(shí)現(xiàn)數(shù)據(jù)分析的場(chǎng)景固化。對(duì)日常運(yùn)維中的數(shù)據(jù)獲取、數(shù)據(jù)加工、指標(biāo)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)判斷等數(shù)據(jù)應(yīng)用流程固化,將日常分析需要使用的運(yùn)維數(shù)據(jù)以儀表盤、報(bào)表、拓?fù)鋱D等形式做可視化展現(xiàn)。這些場(chǎng)景的固化也是知識(shí)沉淀的過(guò)程,可以提升我們分析問(wèn)題時(shí)的效率,避免在多種異構(gòu)云的運(yùn)維管理平臺(tái)界面之間跳轉(zhuǎn)的時(shí)間損耗。運(yùn)維場(chǎng)景構(gòu)建管理作為低代碼運(yùn)維場(chǎng)景的管理入口,實(shí)現(xiàn)對(duì)運(yùn)維場(chǎng)景實(shí)例的統(tǒng)一管理功能。支持對(duì)運(yùn)維場(chǎng)景的增刪查改及發(fā)布、下線、復(fù)制、導(dǎo)入、導(dǎo)出等操作,滿足對(duì)構(gòu)建運(yùn)維場(chǎng)景過(guò)程的管理需求。運(yùn)維場(chǎng)景設(shè)計(jì)器:提供拖拽式應(yīng)用交互場(chǎng)景構(gòu)建,借助所見(jiàn)即所得設(shè)計(jì)能力,應(yīng)對(duì)靈活多變的應(yīng)用場(chǎng)景需求,縮短運(yùn)維場(chǎng)景定制開(kāi)發(fā)周期,提升運(yùn)維類應(yīng)用的開(kāi)發(fā)質(zhì)量。可視化組件庫(kù)提供對(duì)運(yùn)維場(chǎng)景設(shè)計(jì)器的組件支撐,滿足運(yùn)維所需的各類可視化場(chǎng)景以拖拉拽組件的形式進(jìn)行構(gòu)建。組件庫(kù)包括但不限于:
組件支持配置可視化樣式及綁定數(shù)據(jù)源,并支持通過(guò)變量參數(shù)來(lái)實(shí)現(xiàn)對(duì)復(fù)雜運(yùn)維場(chǎng)景的構(gòu)建需求。另外組件之間支持通過(guò)變量傳參方式形成聯(lián)動(dòng)或自動(dòng)刷新。運(yùn)維能力庫(kù)提供對(duì)運(yùn)維場(chǎng)景設(shè)計(jì)器的能力支撐。在低代碼運(yùn)維場(chǎng)景構(gòu)建過(guò)程中,涉及到需要對(duì)多個(gè)異構(gòu)云進(jìn)行操作的動(dòng)作,或?qū)﹂_(kāi)源工具、自定義腳本的使用,都將在對(duì)運(yùn)維能力做原子化改造后以運(yùn)維能力庫(kù)的形式統(tǒng)一管理,并提供給設(shè)計(jì)器選擇使用。在運(yùn)維流程管理中定義的運(yùn)維流程也將以接口調(diào)用形式提供給低代碼平臺(tái)來(lái)構(gòu)建人工分析+自動(dòng)化操作執(zhí)行的完整運(yùn)維場(chǎng)景。
通過(guò)低代碼或定制化方式開(kāi)發(fā)實(shí)現(xiàn)的運(yùn)維場(chǎng)景,最終以運(yùn)維應(yīng)用市場(chǎng)的形式向其他運(yùn)維人員、管理人員、業(yè)務(wù)人員提供運(yùn)維支撐服務(wù)。運(yùn)維應(yīng)用市場(chǎng)中的應(yīng)用支持權(quán)限劃分管理,可對(duì)不同使用角色賦權(quán),也將通過(guò)對(duì)接資源權(quán)限管控來(lái)限制不同使用者的操作范圍,避免誤操作風(fēng)險(xiǎn)。通過(guò)該運(yùn)維能力平臺(tái)的構(gòu)建,拉通多云環(huán)境的運(yùn)維管理,統(tǒng)一構(gòu)建包含異構(gòu)云的PaaS平臺(tái)運(yùn)維能力,實(shí)現(xiàn)混合云架構(gòu)下的1分鐘發(fā)現(xiàn)、5分鐘定位、10分鐘恢復(fù)的系統(tǒng)高可用保障目標(biāo)。
在平臺(tái)中引入基于流批一體的通用計(jì)算框架,實(shí)現(xiàn)對(duì)多云環(huán)境產(chǎn)生的各類日志數(shù)據(jù)、指標(biāo)數(shù)據(jù)、鏈路數(shù)據(jù)的統(tǒng)一采集接入、統(tǒng)一處理平臺(tái)、統(tǒng)一數(shù)據(jù)存儲(chǔ),并建立多維度類型的數(shù)據(jù)關(guān)聯(lián),面向運(yùn)維事件構(gòu)建數(shù)據(jù)分析能力。做到對(duì)運(yùn)維事件的1分鐘內(nèi)快速發(fā)現(xiàn)。在運(yùn)維事件分析方面,除了建立事件規(guī)則與策略規(guī)則的對(duì)應(yīng)關(guān)系,還通過(guò)低代碼平臺(tái)構(gòu)建一系列輔助運(yùn)維分析場(chǎng)景,在事件發(fā)生的5分鐘內(nèi),確定事件的影響范圍及業(yè)務(wù)保障策略。在將云環(huán)境的運(yùn)維能力實(shí)現(xiàn)原子化改造的基礎(chǔ)上,構(gòu)建的統(tǒng)一運(yùn)維編排調(diào)度能力,實(shí)現(xiàn)一套平臺(tái)同時(shí)運(yùn)維混合多云。運(yùn)維操作通過(guò)平面切換策略,與運(yùn)維團(tuán)隊(duì)的日常演練和應(yīng)急保障形成對(duì)接,結(jié)合低代碼構(gòu)建的運(yùn)維操作場(chǎng)景的應(yīng)用,真正做到閑時(shí)練兵,戰(zhàn)時(shí)殺敵,實(shí)現(xiàn)系統(tǒng)故障發(fā)生時(shí)的10分鐘內(nèi)快速恢復(fù)業(yè)務(wù)的目標(biāo)。本文作者:李秋霖(上海新炬王翦團(tuán)隊(duì))
本文來(lái)源:“IT那活兒”公眾號(hào)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/129399.html