摘要:告警關(guān)聯(lián)唯一使監(jiān)控和報警都步入正軌的好辦法,就是通過告警關(guān)聯(lián)。企業(yè)如果適應(yīng)了告警關(guān)聯(lián),信息告警的圖表盤上確實能減少很多壓力。
對于許多 IT 和運維團隊來說,Nagios 既是一個福音也是一個詛咒。一方面,Naigos 在 IT 應(yīng)用的工作領(lǐng)域中,給予了你可以實時查看告警數(shù)據(jù)的可能性;但是另一方面,Nagios 也能夠生成超級多的告警,對于任何一個運維人員或是運維團隊來說都是 hold 不住的。
由于告警浪潮的原因,我們收件箱時常會爆滿,移動電話也會被逼調(diào)成靜音狀態(tài)。更令人沮喪的是,這些告警只不過僅僅是噪音而已。
Nagios 所欠缺的就是一個智能的管理系統(tǒng),可以在噪音背景中,幫助運維人員挑選出真正的有意義的告警。
當(dāng)然,說起來容易做起來難。
在上一篇文章中,我們討論了為什么 Naigos 起初會生成如此之多的告警,并且很少是需要實際執(zhí)行的。
那么現(xiàn)在,讓我們來討論下該如何把告警智能化。
唯一使監(jiān)控和報警都步入正軌的好辦法,就是通過告警關(guān)聯(lián)。如果成百上千個告警都潛在的指向著同一個根本問題「當(dāng)然情況也常常如此」,我們需要的就是一種能夠瞬間查找到關(guān)聯(lián)這些告警的方法,這才是真正的問題所在。
以下這個例子,可以很好的理解告警關(guān)聯(lián),并告訴你如何提升應(yīng)用監(jiān)控。
例如一個 MySOL 集群,這里面一些主機的頁面上有著很高的錯誤率,而其余一些只是發(fā)出低內(nèi)存的警告。此時你的 Nagios 圖表盤在30分鐘里,會接受到不止20個獨特的告警,這其實看起來沒有太大的意義。你的電子郵件收件箱看起來就像一個垃圾桶,并且當(dāng)你離開辦公室以后,你口袋里的移動電話還會嗡嗡的響。
我們可以用一個正確的方式和一個錯誤的方式來分別處理這些告警。錯誤的方式就是將所有這些告警都作為單一的獨立信息,而不是把這些警告看做是一個完整事件的代表。這樣當(dāng)告警洪潮來臨的時候,我們根本無法尋找到這個發(fā)起者。
而正確的方法則是,透過圖表盤的數(shù)據(jù)來看這些報警關(guān)聯(lián)的特征,整條告警潮流可能都會被組合在一起。所有這些集群的頁面錯誤告警都將被聚合,指出真正的根源所在,并且會一直在我們的掌控中,即使被告警浪潮淹沒也不怕。
除了沒有關(guān)聯(lián)性質(zhì)的「比如在 MySQL 節(jié)點上的一個存儲問題」事件,大部分的告警都可以被整合收集在一起。我們可以輕易的歸類這些告警信息,并跟其他的類似事件劃分開。這樣在一個告警洪流中,被湮滅的將會是其他無意義的告警了。
告警關(guān)聯(lián)是一個分組的方法,有著高度相關(guān)聯(lián)的一系列告警信息,就會被分為一個高級事件。
還有其他方法可以對抗告警洪潮嗎?有是有,但它們都很無用。
一個通常被用于企業(yè)的方法,就是告警過濾。監(jiān)控工程師自己配置的圖表盤,僅局限于少量的警報,指定為高安全性的警報。可預(yù)計的到,這樣的圖表盤將比一個完整的圖表盤會大大的減少告警噪音。
但是,這里有三個關(guān)于告警過濾的問題不容忽視。首先,它在你的操作可視化上創(chuàng)造了一個盲點,這樣會使問題癌變,因為通常情況下,低程度的告警是高程度告警的前提。例如,一個 CPU 負(fù)載事件可能很快就會演變成一個全面的故障。
通過忽視掉低程度的問題,你強迫自己進入一個只操作高程度告警的反應(yīng)模式。此時你已經(jīng)背離了告警監(jiān)控的初衷了———接收告警的目的是在他們急劇上升之前就能夠解決掉潛在的問題。然而,告警過濾經(jīng)常是完全相反地,因為低程度的事件會被積極的開除的,等到潛在的威脅已經(jīng)影響到了用戶以后,風(fēng)險報警才會對團隊做出響應(yīng)。
第二個問題是關(guān)于過濾本身的,過濾后圖表盤上的信息會變更得非常的簡單且難以捉摸。以上面 MySQL 為例,在你的高嚴(yán)重報表的儀表盤中,要了解到所有的頁面故障率是不現(xiàn)實的。因此,當(dāng)你消除掉低內(nèi)存的告警后,你的肩上依然有可能背負(fù)著其余的有效告警。
最后也是最主要的問題,就是這種過濾的設(shè)定只能鎖定已知的問題。如果一個新的高風(fēng)險事件出現(xiàn),將會被過濾器無情的回避忽視掉,從而無法被歸類到既定的圖表盤中去查看與處理。
相比之下,告警關(guān)聯(lián)可以使你很好的抵抗告警洪潮,也不會丟失問題的可見性。企業(yè)如果適應(yīng)了告警關(guān)聯(lián),信息告警的圖表盤上確實能減少很多壓力。
在 Onealert 中,我們開發(fā)了一個基于云端的分布式現(xiàn)代化告警關(guān)聯(lián)性平臺,并且我們還優(yōu)化了與 Nagios 等一系列開源監(jiān)控工具的集成。
Onealert 能夠集成你的 Nagios 告警,它會用一個智能算法,來處理和關(guān)聯(lián)這些告警。整個 Onealert 圖表盤是一個基于云端的應(yīng)用服務(wù),代表著所有 Nagios 告警,可以有效地組合成高層次的事件。
高效精準(zhǔn): Onealert 的算法能夠減少你99%的告警負(fù)荷,同時保持高精度性。
自定義配置:Onealert 允許你為特定的告警事件配置自定義規(guī)則,避免遺漏。
一站式關(guān)聯(lián):除了 Nagios,Onealert 在其他監(jiān)控工具中也可以完美的結(jié)合,比如 Zabbix,監(jiān)控寶,阿里云等。
然而你也不必要完全相信我的話,咱們可以嘗試著自己安裝下 Onealert,學(xué)習(xí)更簡單的生活,使你的工作也在無窮無盡的告警中變得更有意義。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7939.html
摘要:自動化監(jiān)控這里我需要問兩個重要的問題為什么洪水警戒會一直發(fā)生并且為什么會愈演愈烈問題的根源其實是基于告警監(jiān)控的積極一面自動化。所以,我們對配置好閾值,并把這項艱巨的工作委派給它。開發(fā)人員通過吸收客戶的反饋指導(dǎo),會選擇短平快的項目。 如果你受困于 Nagios 的告警洪潮中不能自拔,那么這兩篇連載博客就是為你而生的。讓我們來詳細的闡述下這個問題! showImg(https://segm...
摘要:如何有效處理緊急事件驅(qū)動的工作,成為特別是運維主管運維工作的關(guān)鍵。通知到位和及時響應(yīng)。機器學(xué)習(xí)領(lǐng)域是未來的重要發(fā)展方向,目前我們還在摸索中。機器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會依賴于外部團隊部門外或公司外。 編者按]本文作者為陳伯龍,云告警平臺[OneAlert創(chuàng)始人,著《云計算與OpenStack》,在IT運營管理、云計算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:如何有效處理緊急事件驅(qū)動的工作,成為特別是運維主管運維工作的關(guān)鍵。通知到位和及時響應(yīng)。機器學(xué)習(xí)領(lǐng)域是未來的重要發(fā)展方向,目前我們還在摸索中。機器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會依賴于外部團隊部門外或公司外。 編者按]本文作者為陳伯龍,云告警平臺[OneAlert創(chuàng)始人,著《云計算與OpenStack》,在IT運營管理、云計算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:或參考集成安裝文檔通過微信報警提供腳本命令插件,通過新增用戶通知的方式,調(diào)用命令將告警通知發(fā)送至云告警平臺,根據(jù)通知策略,分派和通知到用戶,提供微信短信電話和郵件方式。 引言 Nagios 作為業(yè)界非常強大的一款開源監(jiān)視系統(tǒng)。 監(jiān)控網(wǎng)絡(luò)服務(wù)(SMTP、POP3、HTTP、NNTP、PING 等); 監(jiān)控主機資源(處理器負(fù)荷、磁盤利用率等); 簡單地插件設(shè)計使得用戶可以方便地擴展自己服...
摘要:本文主要分為三個部分,將介紹監(jiān)控系統(tǒng)的歷史流派及如何選型,希望對讀者能有所幫助。圖監(jiān)控系統(tǒng)發(fā)展歷史早期的監(jiān)控系統(tǒng)互聯(lián)網(wǎng)發(fā)展早期的監(jiān)控系統(tǒng),主要是指基于簡單網(wǎng)絡(luò)管理協(xié)議的網(wǎng)絡(luò)監(jiān)控和系統(tǒng)主要指操作系統(tǒng)監(jiān)控。 本文作者 劉俊微博平臺監(jiān)控技術(shù)負(fù)責(zé)人,負(fù)責(zé)微博平臺、PC微博大規(guī)模監(jiān)控系統(tǒng)的建設(shè),主要關(guān)注實時大數(shù)據(jù)、運維自動化、智能化方向,2014年加入微博,之前曾在新浪、搜狐等公司從事運維監(jiān)控方面的工...
閱讀 3674·2021-09-02 15:11
閱讀 4619·2021-08-16 10:47
閱讀 1573·2019-08-29 18:35
閱讀 3053·2019-08-28 17:54
閱讀 2858·2019-08-26 11:37
閱讀 1512·2019-08-23 16:51
閱讀 1820·2019-08-23 14:36
閱讀 1816·2019-08-23 14:21