摘要:靈活查詢,聚合分組并存除開單純的聚合和分組,還支持聚合和分組的復合查詢。所以,與會聚合為一條曲線,而和的關系則是分組的關系。當然,的功能在未來,還遠遠不止這些,高效運維的時代才剛剛開啟。
運維 2.0 時代
運維 2.0 是指,從技術運維升級為服務運維,向公司提供可依賴的專業服務。運維 2.0 強調服務交付能力,而不是技術能力,需求可依賴、懂業務、服務化的專業運維。
為了了解運維 2.0 時代的監控方式,我們不妨從以前的監控手段說起。首先來了解一下 Zabbix ,通過 Zabbix 能夠監視各種網絡參數,保證服務器系統的安全運營;并提供靈活的通知機制以讓系統管理員快速定位和解決存在的各種問題。但時代在推進,如今 Zabbix 的功能真的就能滿足廣大開發者們么?
如果你是阿里云的用戶,或者使用過 Zabbix,你將明顯感受到一個痛點:沒有辦法對數據做聚合,只能挨個查看主機的性能指標,更不用說有管理的功能了。
如上圖,Zabbix 只提供單臺 Host 的 Disk 使用量。如果 3 臺主機,同屬于一個組 Mi-Kafka,就沒法知道這個組總體 Disk 使用量了。
因此,就算線上系統發生了故障,要在短期內知道,到底是哪個模塊的哪個部分出了什么樣的問題,所需要的經驗和時長都是巨大的。
而 OpenTSDB 和 StatsD 的出現改變了現狀。
OpenTSDB 是什么呢,一個開源監控系統,可以從大規模的集群(包括集群中的網絡設備、操作系統、應用程序)中獲取相應的 Metrics 同時進行存儲、索引以及服務,從而使得這些數據更容易讓人理解。
集群監控如今越來越多的企業開始使用混合云模式,來建設數據中心。私有云和公有云,以及集群系統,讓監控工作變得異常復雜。所以,以下幾個方面在運維監控中顯得尤為重要:
性能指標的采集的輕量化;
性能指標能夠集中在一個平臺進行管理和可視化;
能夠對性能指標進行靈活的組合和計算。
打個簡單的比方,一家廣告監控平臺購買 AWS 的 50 臺 EC2 來進行數據的采集,而數據分析則是本地的 10 臺服務器來支持。
如果還在使用傳統運維工具 Zabbix,這時候就會遇到一個問題,AWS 控制臺可以看到這 50 臺的監控指標。也就意味著,運維工程師需要使用 Zabbix 和 AWS 控制臺來同時管理監控數據。
同時關注多集群中多個節點的運行情況,以及需要查看不同中間件的指標來發現問題,或者想要通過 Zabbix 集成短信報警渠道,這些讓運維工作變得不堪重負。
而在非常早期的時候,淘寶團隊就引入了 OpenTSDB 來輔助他們的運維監控。
隨后的幾年,云計算和 SaaS 的興起,國外也出現了多種采用 StatsD 和 OpenTSDB 的開源工具搭建的 SaaS 服務:Boundary、CopperEgg、Datadog 等等。
他們都不約而同地采用了同一種產品邏輯,也是 Cloud Insight 的產品邏輯————時間序列數據庫的邏輯。
任何的性能指標,都作為時間序列數據被采集和處理;
任何的 Host 等歸屬于性能指標的屬性,都作為指標的標簽信息。
而在產品邏輯上,則表現為:
Cloud Insight運維 2.0 時代有一款有趣的監控產品——Cloud Insight,它支持多種操作系統、云主機、數據庫和中間件的監控,通過標簽,對基礎設施進行有效地管理,讓您輕松應對復雜的基礎設施架構。來幫助所有的 IT 公司,減少在系統監控上的人力和時間成本投入,讓運維工作變得更加高效、簡單。
視角決定高度,在此基礎之上,Cloud Insight 還能夠對數據指標進行聚合、分組、過濾、管理、計算;并提供團隊協作功能,共同管理數據和報警事件。所以,Cloud Insight 也是一個數據管理平臺,幫助企業內部加強溝通和協作,填補部門間、人員間、技能間的溝通鴻溝。
Cloud Insight 通過 3 個步驟深入操作系統、數據庫、中間件,以及未來通過 Developer API 對接進來的所有 Metric 進行處理:
Cloud Insight Agent 采集并處理 Metric;
在平臺服務儀表盤和自定義儀表盤中,提供 Metric 聚合、分組、統計運算、基本數學運算等操作;
針對操作的結果,提供曲線圖、柱狀圖等多樣化的展現形式。
Cloud Insight 的神奇功能自定義儀表盤
數據聚合
遙想 2015 年 8 月 17 日,Cloud Insight 還在梳理功能原型,暢想 Cloud Insight 存在的意義,而一轉眼,我們已經實現了很有意思的功能:
自定義儀表盤
Cloud Insight 已經可以自定義儀表盤了,除了在數據展現上清晰直觀,它還擁有一個炫酷的本事:隨意拖拽。
使用標簽來實現數據聚合&分組
在 Beta v 0.2.1 中,我們實現了數據的聚合和分組。沿襲了 OpenTSDB 的查詢方式:用一種類 SQL 的方式來查詢指標。
具體操作可以訪問 Cloud Insight 文檔中心 ? Metric 查詢。
Cloud Insight 還支持類似 SQL 的 group_by 查詢語法。這個在查看多個磁盤分區的容量和Docker 中不同 Container 的性能消耗時都是非常有用的。
例子舉例,如果我們想要看每個 host 的 CPU 空閑率:
avg: system.cpu.idle {} by {host}
此時,第一個 {FromTag} 缺省代表從所有 Metrics 中查詢數據。如圖所示,得到以下圖表:
在實際的測試環境中,由于我們有 6 臺測試主機,所以會得到如下的曲線。并且,當鼠標懸停至曲線時,下方的懸停窗口會分別顯示 6 臺主機的 system.cpu.idle。
靈活查詢,聚合&分組并存除開單純的聚合和分組,Cloud Insight 還支持聚合和分組的復合查詢。如:
avg: system.cpu.idle {} by {owner}
此時,雖然有 3 個 host,但是分組是以 owner 來進行的。所以,A 與 B 會聚合為一條曲線,而 C 和 A&B 的關系則是分組的關系。
當然,Cloud Insight 的功能在未來,還遠遠不止這些,高效運維的時代才剛剛開啟。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/7947.html
摘要:而今,我們就已經實現了這樣的功能使用標簽來實現數據的聚合和分組。數據聚合和分組在中,我們實現了數據的聚合和分組。指所需聚合的的查詢條件。所以,與會聚合為一條曲線,而和的關系是分組的關系。 遙想 2015 年 8 月 17 日,Cloud Insight 還在梳理功能原型,暢想 Cloud Insight 存在的意義:為什么阿里云用戶需要使用 Cloud Insight 來加強管理。 而...
摘要:應用的研發上線運維運營形成閉環,順利完成從對內服務到公共平臺的升級。從功能角度,只能支持靜態方式設置反向代理,然后,而平臺有服務對應的后端服務和端口是有動態調整需求。架構上是基礎組件需要進行升級,數據訪問層日志監控系統等。 介紹 ? ? ? ?MaxLeap早期是一家研發、運營移動應用和手機游戲公司,發展過程中積累了很多通用組件。這些組件很大程度幫公司在移動研發過程中節省了時間和成本,...
摘要:華為云華為云在云原生這場游戲中,最具競爭力的玩家之一。年,金山云在云原生領域推出了三款重磅產品星曜裸金屬服務器云服務器和云盤。在線上智博會上,浪潮云發布了經過全新迭代升級的浪潮云,進一步提升平臺云原生服務能力。面對數字時代復雜系統的不確定性,傳統的 IT 應用架構研發交付周期長、維護成本高、創新升級難,煙囪式架構,開放性差、組件復用度低,這些都成為了企業業務快速增長的瓶頸。而云原生以其敏捷、...
摘要:月日,首期沙龍海量運維實踐大曝光在騰訊大廈圓滿舉行。六總結相關文章騰訊云運維干貨沙龍海量運維實踐大曝光二騰訊云運維干貨沙龍海量運維實踐大曝光三沙龍下載地址 作者丨郭智文:騰訊高級工程師,手機QQ運維負責人。多年來,對移動互聯網應用的接入質量度量、優化有豐富的實踐經驗,專注于業務架構優化、彈性伸縮、運營服務管理、幫助產品打造極致的技術基礎和質量口碑。 12月16日,首期沙龍海量運維實踐大...
閱讀 856·2019-08-30 15:54
閱讀 3322·2019-08-29 15:33
閱讀 2707·2019-08-29 13:48
閱讀 1229·2019-08-26 18:26
閱讀 3339·2019-08-26 13:55
閱讀 1491·2019-08-26 10:45
閱讀 1174·2019-08-26 10:19
閱讀 312·2019-08-26 10:16