摘要:也有幸和全球說運維負責人李云偉先生進行一次深入溝通。面臨挑戰全球說的應用主要是在線系統和移動為主。是北京科技有限公司旗下產品,中國首個模式的,集成國內外主流監控支撐系統,實現一個平臺上集中處理所有事件,提升可靠性。
客戶背景
「全球說」 Talkmate,是北京酷語時代教育科技有限公司(酷語科技)旗下產品,酷語科技是一家誕生于中國的語言技術公司,致力于為全球用戶提供一個全新的多語言學習和社交網絡平臺 。
全球說是典型的快速發展初創企業,心懷理想,恰如其創始人溫榮輝提到:
全球說希望帶給用戶的是文化、朋友和旅游的快樂,而不是讓用戶為了學習語言去學習語言。我們希望能把所有語言囊括進來,容納世界各地的人。我們想成為一家「社會企業」。
豐滿理想需要團隊和 IT 系統的支撐,特別是全球說的用戶群全球化特征, IT 支撐還是非常重要的。 OneAlert 也有幸和全球說運維負責人李云偉先生進行一次深入溝通。
面臨挑戰全球說的 IT 應用主要是在線系統和移動 APP 為主。
Web 網站
移動 APP
調用 PHP 研發,提供相關 API
常見的中間件 MongoDB , Memcache 等
服務器規模: 20 臺左右(隨業務增長不斷增加),分布式部署(國際服務器)。
使用流行的開源監控工具 Zabbix 。
全球說雖然作為初創公司,但是 IT 系統是五臟俱全,具備隨著業務增長快速擴展的特性,同時運營支撐壓力不小。
李云偉先生面臨運維挑戰是:
運維人員比較少的情況下如何在手機上能夠快速獲知當前 IT 告警,方便及時處理告警?
使用 Zabbix 的原有告警存在以下問題:
郵件通知需要搭建郵件服務,配置相對復雜,而且郵件的接收存在較大延遲。
沒有短信通知,需要對接短信網關,需要開發,目前人力資源緊張,耗時耗力。
為什么會選擇 OneAlert ?
OneAlert 是目前國內領先的 SaaS 云告警,簡單快捷接入,無需復雜配置,或者開發介入,節省人力和成本。
OneAlert 提供的解決方案部署簡單:目前已經支持國內外主流10多種工具告警接入,包括阿里云、騰訊云、VMWare 等云平臺,以及 OneAPM、監控寶、Solarwinds、Zabbix、Nagios、Open-Falcon 等監控工具 。基本上僅需要5-10分鐘即可以完成配置。
通知必達:提供了微信、短信、郵件、電話、移動 APP、網頁等6個渠道發送告警通知,實現告警通知必達。
移動化:微信已成為我們日常生活和工作標配,OneAlert 讓告警事件在拇指尖就可以完成確認處理。
通知升級:個人可設置幾種渠道的通知方法,如告警發生后即刻微信/郵件/APP 通知,1分鐘后告警無響應,則電話通知。基本上哪怕是大半夜在睡覺,也可以叫醒。如果手機停機?沒問題,自動升級提醒其他同學,直到有人響應告警為止。
客戶反饋更快響應,提升業務可靠性。拿著手機就可以處理所有告警,所有信息都通過手機推送過來,特別是微信的信息很全。
通知升級能夠不遺漏告警,平時微信通知,但是短信和電話避免告警被遺漏。
全球說運維負責人李云偉先生說:
因為使用開源的監控軟件,可以很容易的編寫各類監控插件,報警的及時性就成為我們的迫切需求,OneAlert 云告警讓我們的報警系統有了及時準確的報警保障,讓我們可以有更多的時間完善其他運維系統,特別是最近推出的電話報警,更是能夠保證每一個重要的報警都能夠通知到人,沒有遺漏,這個服務我要點100個贊。
OneAlert 是北京|5814788f931161e2ec1ae7ed970a76055|科技有限公司旗下產品,中國首個 SaaS 模式的|5814788f931161e2ec1ae7ed970a76056|,集成國內外主流監控/支撐系統,實現一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7929.html
摘要:平均解決事件解決時間是衡量業務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結致力減少告警數量及時響應如果不能及時響應,能夠升級處理,最終提升解決時間,個核心關鍵指標是運維支撐工作非常關鍵的指標。 很難說,生活在這個數據大爆炸的時代對運維同學是福還是禍。靈活的監控系統、開放 API 和易用的數據可視化資源可以將任何想要的數據圖表化地顯示出來,但是,過多的數據容...
摘要:前言告警將重要信息發送給運維或者其他相關人,及時發現并且處理問題。在所有開源監控軟件里面,的告警方式無疑是最棒的。在發生告警之后立即發送郵件和微信消息給用戶,分鐘后還未確認,那么發送短信,分鐘還未確認則打電話給用戶。 1. 前言 告警將重要信息發送給運維「或者其他相關人」,及時發現并且處理問題。在所有開源監控軟件里面,Zabbix 的告警方式無疑是最棒的。告警的方式各式各樣,從 Ema...
摘要:或參考集成安裝文檔通過微信報警提供腳本命令插件,通過新增用戶通知的方式,調用命令將告警通知發送至云告警平臺,根據通知策略,分派和通知到用戶,提供微信短信電話和郵件方式。 引言 Nagios 作為業界非常強大的一款開源監視系統。 監控網絡服務(SMTP、POP3、HTTP、NNTP、PING 等); 監控主機資源(處理器負荷、磁盤利用率等); 簡單地插件設計使得用戶可以方便地擴展自己服...
摘要:為了掌握你的告警事件響應時間,在你已經開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。 這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的...
摘要:解決突發事故意味著什么通常認為解決突發事故是積極舉措。以平均恢復前時間為評估手段可能會掩飾警示,將紅燈變為安全的綠燈。迅速解決突發事故是否總是最佳選擇在領域,僅評估影響業務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。 在團隊紛紛談起工作效率的時候,對運維工作者,他們通常喜歡用「故障的平均解決時間」來衡量團隊的工作效率。然而這往往是不正確的。一個迅速解決大量突發事故的團隊十分高效,而實際...
閱讀 1662·2019-08-30 15:55
閱讀 983·2019-08-30 15:44
閱讀 874·2019-08-30 10:48
閱讀 2048·2019-08-29 13:42
閱讀 3192·2019-08-29 11:16
閱讀 1273·2019-08-29 11:09
閱讀 2061·2019-08-26 11:46
閱讀 622·2019-08-26 11:44