摘要:自動化監控這里我需要問兩個重要的問題為什么洪水警戒會一直發生并且為什么會愈演愈烈問題的根源其實是基于告警監控的積極一面自動化。所以,我們對配置好閾值,并把這項艱巨的工作委派給它。開發人員通過吸收客戶的反饋指導,會選擇短平快的項目。
如果你受困于 Nagios 的告警洪潮中不能自拔,那么這兩篇連載博客就是為你而生的。讓我們來詳細的闡述下這個問題!
運維人員都有著獨立的監控工具,因此會經常受到 Nagios 告警吵鬧的影響。很多運維人員對 Nagios 都是愛恨交加的,Nagios 給了你實時的可見性,可以了解你的 IT 基礎設施的內部運作。用 Naigos,你可以辨認出哪一臺主機內存不足,哪臺服務器會占用太多 CPU 周期,哪一個應用由于訪問時間太長而跳轉離開。你也能夠足夠早的得到告警信息,在他們影響最終用戶之前解決掉問題,最大限度的讓 Nagios 為你而戰。
然而這些都是理論上的,不難發現,Nagios 最終導致的問題跟它解決掉的問題其實是一樣多的。讓我們退一小步來講,Nagios 實際上并不會引起問題,只是它會使運維團隊鑒別出真正的問題時更加困難。舉個例子,當小孩子哭鬧時,并不一定是真的做錯了什么,他們只是想被關注,或是因為他們經驗有限,無法處理一件微不足道的小事,而在他們看來這卻是一個大大的問題,所以會使勁兒的哭。作為父母,我們知道摔傷的膝蓋只需要一個創可貼,但在疼痛來臨的那一刻,你的孩子會認為他可能永遠無法再走路了。
處理 Nagios 告警就像哄一個哭泣的孩子一樣,從外觀上看,我們并沒有什么好的方法能夠輕松區分一個摔傷的膝蓋和一個折斷的腿。因為 Nagios(實際上也是大多數監控系統的通?。┑拿恳粋€告警都看起來像即將到來的重大問題,又或者只是一個平常的小事而已。因此即便父母近乎一瞬間就會知道,他們手上有一個亟需處理的問題需要解決,但關鍵是我們并不能區分這鱷魚的眼淚是真是假。
這里我需要問兩個重要的問題:為什么洪水警戒會一直發生?并且為什么會愈演愈烈?
問題的根源其實是基于告警監控的積極一面:自動化。沒有任何一個運維人員,甚至是整個運維團隊,能夠手動解析成千上萬個數據,用來查明問題。沒有人會要求運營團隊時刻盯著圖表去指出隨時出現的問題所在。
所以,我們對 Nagios 配置好閾值,并把這項艱巨的工作委派給它。然后 Nagios 會通過我們設定好的所有的監控去尋找超過閾值的事件,并向我們報告。
說到這里,發現問題了嗎?
純自動化終歸不如人工智能,窗戶打開了,新鮮空氣伴隨著蒼蠅蚊子都會進來。最終的結果會比你想象的直接得多:設定的這種配置,會把我們埋葬在浪潮般的告警洪流中,這就是 Nagios 所做的事情。
那么如何解決這個左右為難的問題呢?首先我們先列出問題點都有哪些:
1、無法辨認
現代的應用已經不再是單多帶帶立的個體了,它不再依賴于一個強大的服務器,相反它可以從防火墻、服務器直接上升到云層共享,它可能依賴于數十、甚至成百上千個服務器支持著。所以當應用程序遇到問題時,我們得到的是數以百計的警報,并且往往都指向同一個緣由,即使它們看起來像一個多帶帶的問題。
2、關聯性
在過去的十年中,單一的應用之間因為許多共同的服務而彼此互通著,這一問題將隨著時間的推移而變得更加明顯,越來越多的開發者會創造更多的應用程序。這使得公司發展的很快,而對應的擴展性,關聯穩定性和可維護性卻日趨上演成了主角。
這也就意味著,一個單一的問題可能會影響到多個服務器,在一個服務器上的問題,也可能會逐步升級到鄰近的應用層面,逐漸從幾十個服務器中創造一系列告警。
然而,哪一個服務器是根源?在一個巨大的告警洪流中,它是不可能區分出來的。
3、快節奏的時代
在這個快節奏的時代,工程師團隊必須調整他們的目標與頂層的業務相結合。這種轉變意味著,我們現在會越來越少的看到長達幾年之久的,在學術上非常靚麗的研發。開發人員通過吸收客戶的反饋指導,會選擇短平快的項目。不幸的是,這影響了我們保持準確和最新監控配置的能力。當我們完成配置的閾值和分類的時候,我們的應用已經變了。隨著時間的推移,我們積累了大量無意義的監測或者過時的閾值數據。
然后,你能夠區分出這些遺留的噪音哪些是應該被忽視的,哪些是可以制止的,哪些又是會導致宕機的亟需待解決的問題嗎?
的確,配置實時的監控閾值是一項非常重要的工作,但不幸的是,我們的監控告警系統壓根兒跟不上時代的變遷。
Onealert 智能告警監控可以把你的 Nagios 告警關聯到任一高層事件,因此你能更快的辨認出關聯性的問題,而不是人工去涉足數以千計的 Nagios 告警洪流,你現在能夠以統一的標準來檢閱它們,清晰的從噪音中分離出有意義的信號。這就是運維團隊所需要的辨認關鍵性信息的能力,關聯告警的能力,跟上快節奏時代的能力。
離開 Onealert 會讓你受到威脅,配置錯誤,宕機等一系列問題,因為真正的解決方案已經埋葬在了告警浪潮之中。
敬請期待下一節,我將更深入的探討,通過 Onealert 告警信息關聯,如何智能的添加進你的 Naigos 告警中。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7940.html
摘要:音視頻音視頻隨著互聯網的發展,對音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對性能要求都比較高,那現階段的前端再音視頻領域都能做些什么呢。 @(音視頻)[Audio|Video|MSE] 音視頻隨著互聯網的發展,對音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對性能要求都比較高,那現階段的前端再音視頻領域都能做些什么呢。 [TOC] 音頻或視頻的播放 htm...
摘要:測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經比較緊張的測試開發關系雪上加霜。將按照嚴重程度進行分級管理。 測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。開發的工作就是按照PM的設計將產品最終造出來,而測試則是在開發已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發很不爽,其實不但是開發,每個人都不喜歡自己的勞動成果別別人挑毛病。...
摘要:測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經比較緊張的測試開發關系雪上加霜。將按照嚴重程度進行分級管理。 測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。開發的工作就是按照PM的設計將產品最終造出來,而測試則是在開發已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發很不爽,其實不但是開發,每個人都不喜歡自己的勞動成果別別人挑毛病。...
摘要:測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經比較緊張的測試開發關系雪上加霜。將按照嚴重程度進行分級管理。 測試和開發可以說是前世的一對宿孽,今世的一對兒冤家。開發的工作就是按照PM的設計將產品最終造出來,而測試則是在開發已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發很不爽,其實不但是開發,每個人都不喜歡自己的勞動成果別別人挑毛病。...
閱讀 825·2021-10-13 09:39
閱讀 3703·2021-10-12 10:12
閱讀 1757·2021-08-13 15:07
閱讀 1015·2019-08-29 15:31
閱讀 2890·2019-08-26 13:25
閱讀 1783·2019-08-23 18:38
閱讀 1886·2019-08-23 18:25
閱讀 1862·2019-08-23 17:20