摘要:報警阻塞,發送效率低下這種情況下,報警是根據用戶一個個用戶發送。效果極大的簡化了報警配置,僅配置了兩個。發送效率提高,對于一個報警,無論發送人數多少,都只需要觸發執行一次腳本。
通常zabbix告警主要可以通過三種方式
1. 自帶的直接調用消息接口服務 2. 執行自定義腳本發送消息 3. 通過send remote commend 的方式通過執行腳本發送
2和3的本質都只通過zabbix的action去調用執行服務器上的腳本來發送,報警信息通過在執行腳本后帶參數傳進去。
這個流程很容易跑通, 也非常的簡單可靠。 但是,規模稍大報警量一多,問題立馬就顯現出來了。
* 報警阻塞,發送效率低下 * 這種情況下, 報警是根據用戶一個個用戶發送。 也就是說, 如果這個報警有十個收件人,那要分到觸發十次發送腳本來實現發送。 * 并且這個發送還是線性的不是多線程的, 要等上一個發送完了, 再接著發送下一個。報警稍微多一點或者收件人稍微多一點, 這個報警的延遲就很大了。 * 風暴控制 * 網絡抖動是個大坑, 通過proxy的可以通過依賴來實現一定的風暴控制, 但是直接通過服務器監控的就很難做了 * 一旦風暴, 很難退出。 如果sever到某個直連的idc 間網絡一抖動, 觸發大量報警,只能等action 執行完 * action 維護麻煩, 這種模式下, 報警匹配發送給誰有 action來決定,有多少種組合就會有多少個action, 會導致 action的數量很多維護起來相當麻煩 * 報警配置維度單一: 例如 業務dba 僅只想接受業務相關報警, 不想接受機器層面的報警, 看似簡單的需求配置起來會很麻煩甚至難以實現 * 報警信息單一: 比如要給報警內容里加上一個負責人,方便escalation后直接聯系直接負責人都挺麻煩。
為了解決以上問題, 我設計了smail 1.0來解決
smail 有規則解析和風暴控制兩個模塊組成
規則引擎: * 規則引擎直接定了一個規則語法, 主要實現支持從 設備名字和觸發器名字兩個維度來匹配報警, 對于符合匹配規則的報警則發給對應規則的收件人, 匹配規則支持正則: * 匹配規則支持正則表達式 * 判斷故障級別, 根據級別確認發送短信微信還是郵件
風暴控制: * 風暴控制通過報警發送數量計數,對單位時間內發送數量超過一定數量則觸發風暴控制, 停止發送報警。
效果:
1. 極大的簡化了報警配置, 僅配置了兩個action。 規則引擎直接使用yaml 配置文件和正則配置方法, 對于 python棧的維護人來非常順手。 2. 發送效率提高,對于一個報警, 無論發送人數多少, 都只需要觸發執行一次腳本。 3. 報警的可追溯,日志詳細的記錄了報警的發送情況 4. 同時,對報警也加入了更多的信息, 更加方便接受者判斷
這時報警郵件就變成了這個樣子
可是依舊存在的問題:
1. 發送效率依舊不高, 通過 os.fork action 依舊要等執行完后再執行下一個未能實現異步。 2. 通過簡單計數的風暴控制機制基本沒用
2.0 版:
主要以解決發送效果為目標。 主要是引入異步任務隊列來實現發送的異步,分離action 觸發腳本加快 action的執行速度。
實際動手過程中發現, 如果要引入mp或者 celery這樣的 task queue會新增兩個damon,這樣反而增加了復雜度。
后面直接使用了下圖這樣的簡單粗暴的方法來實現
triggers action 執行的腳本直接插入的zabbix mysql (多帶帶建了一張表);然后通過crontab定時讀取(一分鐘)mysql獲取報警。
風暴控制通過判斷這一分鐘里的報警同類的條數來判斷
效果:
1. 極大的提高了action的執行效率, 實際應用過程中, 即使出現報警風暴, 發送依舊沒有什么問題。 2. 因為action的執行效率的提高, 風暴控制有了一定的效果。
TODO:
1. 報警信息跟cmdb里的信息關系, 實現無配置或者少量配置 2. 更有效的風暴控制方式
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/38059.html
摘要:微信的使用問題,第一要建個通信錄,找到正確的組,第二,應用中心的創建并使用,第三,設置中分組要創建坑,解決掉就是路,解決不了還是坑。 各位看官,我是orange小菜,初來扎道,不足之處還請指教,sharing make happy ?。?! 1.我先把我的代碼甩出來,供大家參考一下,挺丑的,別介意哦! #!/usr/bin/python import requests import ...
摘要:微信的使用問題,第一要建個通信錄,找到正確的組,第二,應用中心的創建并使用,第三,設置中分組要創建坑,解決掉就是路,解決不了還是坑。 各位看官,我是orange小菜,初來扎道,不足之處還請指教,sharing make happy !??! 1.我先把我的代碼甩出來,供大家參考一下,挺丑的,別介意哦! #!/usr/bin/python import requests import ...
摘要:微信報警參考文檔獲取獲取發送消息獲取用戶失敗會將消息發送給部門的人,可以查看部門修改,多個部門用分割發送報警消息傳過來的第一個參數傳過來的第二個參數傳過來的第三個參數調用類綁定企業微信的和應用的調用實例化的類的發送信息功能,其 微信報警 #!/usr/bin/python # -- coding:utf-8 -- 參考文檔: 1、https://work.weixin...
閱讀 2793·2021-09-23 11:44
閱讀 1681·2021-09-13 10:24
閱讀 2629·2021-09-08 09:36
閱讀 1238·2019-08-30 15:54
閱讀 2258·2019-08-30 13:54
閱讀 3317·2019-08-30 10:57
閱讀 1856·2019-08-29 18:43
閱讀 3622·2019-08-29 15:10