摘要:為了掌握你的告警事件響應時間,在你已經開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。
這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的使用工具進行優化以上指標。
以 MTTA 為指導原則MTTA 是衡量響應一個告警事件的關鍵性指標。為了掌握你的告警事件響應時間,在你已經開始處理告警時,強烈建議及時響應(認領),例如通過移動端、微信、頁面、移動 APP 等方式及時認領。特別是如果有多人運維、并且設置了升級處理的策略,該實踐會非常有用,你可以知道現在是誰在處理,處理進展怎樣,你就不用擔心告警沒通知到位或者是沒有處理了。
大多數優秀的運維團隊,往往會將 MTTA 作為最關鍵的指標之一,因為這是可控和可操作的。有故障時,我們很難控制最終的恢復時間,畢竟涉及問題較多;但是至少可以保證響應及時率。優秀的運維告警平臺很容易就能夠能夠跟蹤整個團隊的 MTTA ,包括現狀、歷史趨勢,團隊是否可以達到響應標準。
可能有同學會質疑,因為大家經常是第一時間就開始處理告警,往往忽略掉響應(認領),平時如果多個人協作同學坐一起,會吼一句「放著我來!」就能搞定,需要這么復雜么。
沒有數據記錄,就沒有優化基礎。比如如果人員不集中的話,或者是事情多了,就容易溝通不暢或遺漏,使用工具能夠避免該問題。
很多告警工具需要同學們在 PC 上登錄到告警系統去認領一下(甚至撥 VPN 訪問內網),確實很麻煩。這一點國外 PagerDuty 做的很棒,在短信、電話、移動 APP 都可以很容易確認/認領; OneAlert 在微信端可以認領和關閉。移動化和快捷是實踐 MTTA 的重要保障。
解決問題需要記錄我們強烈建議及時更新記錄告警的解決時間,當解決告警或者是告警自動恢復后,及時在告警系統上記錄/更新告警的狀態為關閉或者是恢復。例如使用 PagerDuty 、 VictorOps 、或者國內 OneAlert 時,可以人工記錄告警關閉。并且如果使用 API 或者其他工具集成方式,會自動化同步監控工具的告警狀態。
謹慎使用超時時間不少監控工具都具備自動升級規則,一般會支持告警自動關閉,即如果長時間沒有關閉/恢復告警,告警系統會自動關閉掉,該參數會影響到最終的 MTTR 。
如果你沒有形成解決故障后,及時更新告警平臺上告警狀態的習慣,那么超時自動關閉時間能夠避免該問題。PagerDuty 的服務和 OneAlert 的應用都支持超時自動關閉時間設置,一般是30分鐘-4小時。如果使用超時自動關閉,那么可能會在數據統計周報中影響到最終 MTTR,統計數據會比實際更長,這一點不是很利于團隊執行效率優化,需要謹慎使用。
抖動告警(flapping alert)抖動告警(flapping alert)是指告警觸發后,即刻恢復,之后又觸發并恢復,反復多次。抖動告警的原因大多是監控指標在閾值范圍附近頻繁抖動。抖動告警會引發 MTTA 和 MTTR 數據異常,通常表現為大量的告警數量,但是很小的 MTTA 和 MTTR 值,甚至沒有 MTTA。因為告警還沒有來得及響應(認領)就已經被自動關閉了。
還有一點,非常重要的是抖動告警往往會引發告警疲勞,即大量無需處理的告警出現,會增加運維人員負擔,往往會忽略掉重要告警。所以非常有必要通過周報分析的方式識別出哪些抖動告警,大部分情況下可以通過優化閾值方式優化。如可參考 Nagios flapping 設置。
小結上一篇《運維不容錯過的4個關鍵指標》和這篇文章,分享了國外PagerDuty、VictorOps和國內 OneAlert 的一些核心設計理念,希望對大家有些幫助。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7942.html
摘要:數據中心操作系統以和等新一代創業公司為代表,開始提出數據中心操作系統的概念。數據中心操作系統與開發方有一個非常清晰和低成本的接入接口,完全省去了運維這個角色寫膠水腳本的必要性,從而徹底顛覆這個崗位。 崗位價值有: 權限縮小 提供操作安全的保險服務 提供操作的可擴展性 提供業務和資源能見度 屏蔽資源的部署細節 靜態資源調平 動態資源調平 故障處理和善后 權限縮小 通過配置文件修改...
摘要:靈活查詢,聚合分組并存除開單純的聚合和分組,還支持聚合和分組的復合查詢。所以,與會聚合為一條曲線,而和的關系則是分組的關系。當然,的功能在未來,還遠遠不止這些,高效運維的時代才剛剛開啟。 運維 2.0 時代 運維 2.0 是指,從技術運維升級為服務運維,向公司提供可依賴的專業服務。運維 2.0 強調服務交付能力,而不是技術能力,需求可依賴、懂業務、服務化的專業運維。 為了了解運維 2....
摘要:還有那個極具極客范兒的監控閉路電視的硬盤空間也是用儀表盤展示數據的,具體代碼可以看上項目。對了還有業務層面的實現業務響應速度監控,監控的響應時間,什么監控數據,應用數據,儀表盤統統搞的定。 Cloud Insight 第13次新品發布會現在開始,首先非常感謝大家前來看我們的新功能發布會,下面我先給大家介紹一下新功能,之后有什么問題大家盡管問?。 新功能 Cloud Insight 發布...
摘要:,是開發和運維的組合,代表一種文化運動或實踐,旨在促進軟件交付和基礎設施變更軟件開發人員和運維技術人員之間的合作和溝通。預計年,將成為一項優勢策略得到全面的普及與實踐。而且隨著新軟件和工具以及技術的使用,這一勢頭有望增長。 DevOps,是開發(Development)和運維(Operations)的組合,代表一種文化、運動或實踐,旨在促進軟件交付和基礎設施變更軟件開發人員(Dev)和...
閱讀 2980·2021-11-08 13:20
閱讀 1042·2021-09-22 15:20
閱讀 673·2019-08-30 15:53
閱讀 1976·2019-08-30 15:43
閱讀 1292·2019-08-29 17:21
閱讀 546·2019-08-29 12:15
閱讀 2389·2019-08-28 17:51
閱讀 3155·2019-08-26 13:26