摘要:只有當超時故障扇區(qū)等明確故障項出現后,兩者關聯(lián)才確診硬盤故障,否則只是隔離觀察,不報修。如果存在進程住時間超過分鐘,我們認為這個硬盤故障的影響面已擴大到了整機,需要進行重啟消除影響。
隨著阿里大數據產品業(yè)務的增長,服務器數量不斷增多,IT運維壓力也成比例增大。各種軟、硬件故障而造成的業(yè)務中斷,成為穩(wěn)定性影響的重要因素之一。本文詳細解讀阿里如何實現硬件故障預測、服務器自動下線、服務自愈以及集群的自平衡重建,真正在影響業(yè)務之前實現硬件故障自動閉環(huán)策略,對于常見的硬件故障無需人工干預即可自動閉環(huán)解決。
1.背景1.1.面臨挑戰(zhàn)
對于承載阿里巴巴集團95%數據存儲及計算的離線計算平臺MaxCompute,隨著業(yè)務增長,服務器規(guī)模已達到數十萬臺,而離線作業(yè)的特性導致硬件故障不容易在軟件層面被發(fā)現,同時集團統(tǒng)一的硬件報障閾值常常會遺漏一些對應用有影響的硬件故障,對于每一起漏報,都對集群的穩(wěn)定性構成極大的挑戰(zhàn)。
針對挑戰(zhàn),我們面對兩個問題:硬件故障的及時發(fā)現與故障機的業(yè)務遷移。下面我們會圍繞這兩個問題進行分析,并詳細介紹落地的自動化硬件自愈平臺——DAM。在介紹之前我們先了解下飛天操作系統(tǒng)的應用管理體系——天基(Tianji)。
1.2.天基應用管理
MaxCompute是構建在阿里數據中心操作系統(tǒng)——飛天(Apsara)之上,飛天的所有應用均由天基管理。天基是一套自動化數據中心管理系統(tǒng),管理數據中心中的硬件生命周期與各類靜態(tài)資源(程序、配置、操作系統(tǒng)鏡像、數據等)。而我們的硬件自愈體系正是與天基緊密結合,利用天基的Healing機制構建面向復雜業(yè)務的硬件故障發(fā)現、自愈維修閉環(huán)體系。
透過天基,我們可以將各種物理機的指令(重啟、重裝、維修)下發(fā),天基會將其翻譯給這臺物理機上每個應用,由應用根據自身業(yè)務特性及自愈場景決策如何響應指令。
2.硬件故障發(fā)現2.1.如何發(fā)現
我們所關注的硬件問題主要包含:硬盤、內存、CPU、網卡電源等,下面列舉對于常見硬件問題發(fā)現的一些手段和主要工具:
在所有硬件故障中,硬盤故障占比50%以上,下面分析一下最常見的一類故障:硬盤媒介故障。通常這個問題表象就是文件讀寫失敗/卡住/慢。但讀寫問題卻不一定是媒介故障產生,所以我們有必要說明一下媒介故障的在各層的表象。
a. 系統(tǒng)日志報錯是指在/var/log/messages中能夠找到類似下面這樣的報錯
Sep 3 13:43:22 host1.a1 kernel: : [14809594.557970] sd 6:0:11:0: [sdl] Sense Key : Medium Error [current]
Sep 3 20:39:56 host1.a1 kernel: : [61959097.553029] Buffer I/O error on device sdi1, logical block 796203507
b. tsar io指標變化是指rs/ws/await/svctm/util等這些指標的變化或突變,由于報錯期間會引起讀寫的停頓,所以通常會體現在iostat上,繼而被采集到tsar中。
在tsar io指標中,存在這樣一條規(guī)則讓我們區(qū)分硬盤工作是否正常 qps=ws+rs<100 & util>90,假如沒有大規(guī)模的kernel問題,這種情況一般都是硬盤故障引起的。
c. 系統(tǒng)指標變化通常也由于io變化引起,比如D住引起load升高等。
d. smart值跳變具體是指197(Current_Pending_Sector)/5(Reallocated_Sector_Ct)的跳變。這兩個值和讀寫異常的關系是:
媒介讀寫異常后,在smart上能觀察到197(pending) +1,表明有一個扇區(qū)待確認。
隨后在硬盤空閑的時候,他會對這個197(pending)中攢的各種待確認扇區(qū)做確認,如果讀寫通過了,則197(pending) -1,如果讀寫不通過則 197(pending)-1 且 5(reallocate)+1。
總結下來,在整條報錯鏈路中,只觀察一個階段是不夠的,需要多個階段綜合分析來證明硬件問題。由于我們可以嚴格證明媒介故障,我們也可以反向推導,當存在未知問題的時候能迅速地區(qū)分出是軟件還是硬件問題。
上述的工具是結合運維經驗和故障場景沉淀出來,同時我們也深知單純的一個發(fā)現源是遠遠不夠的,因此我們也引入了其他的硬件故障發(fā)現源,將多種檢查手段結合到一起來最終確診硬件故障。
2.2.如何收斂
上一章節(jié)提到的很多工具和路徑用來發(fā)現硬件故障,但并不是每次發(fā)現都一定報故障,我們進行硬件問題收斂的時候,保持了下面幾個原則:
指標盡可能與應用/業(yè)務無關:有些應用指標和硬件故障相關性大,但只上監(jiān)控,不作為硬件問題的發(fā)現來源。 舉一個例子,當io util大于90%的時候硬盤特別繁忙,但不代表硬盤就存在問題,可能只是存在讀寫熱點。我們只認為io util>90且iops<30 超過10分鐘的硬盤可能存在硬件問題。
采集敏感,收斂謹慎:對于可能的硬件故障特征都進行采集,但最終自動收斂分析的時候,大多數采集項只做參考,不作為報修依據。 還是上一個硬盤io util的例子,如果單純出現io util>90且iops<30的情況,我們不會自動報修硬盤,因為kernel問題也可能會出現這個情況。只有當 smartctl超時/故障扇區(qū) 等明確故障項出現后,兩者關聯(lián)才確診硬盤故障,否則只是隔離觀察,不報修。
2.3.覆蓋率
以某生產集群,在20xx年x月的IDC工單為例,硬件故障及工單統(tǒng)計如下:
去除帶外故障的問題,我們的硬件故障發(fā)現占比為97.6%。
3.硬件故障自愈3.1 自愈流程
針對每臺機器的硬件問題,我們會開一個自動輪轉工單來跟進,當前存在兩套自愈流程:【帶應用維修流程】和【無應用維修流程】,前者針對的是可熱拔插的硬盤故障,后者是針對余下所有的整機維修硬件故障。
在我們的自動化流程中,有幾個比較巧妙的設計:
a. 無盤診斷
對于宕機的機器而言,無法進無盤(ramos)才開【無故宕機】維修工單,這樣能夠大量地減少誤報,減少服務臺同學負擔。
無盤中的壓測可以完全消除當前版本的kernel或軟件的影響,真實地判斷出硬件是否存在性能問題。
b. 影響面判斷/影響升級
對于帶應用的維修,我們也會進行進程是否D住的判斷。如果存在進程D住時間超過10分鐘,我們認為這個硬盤故障的影響面已擴大到了整機,需要進行重啟消除影響。
在重啟的時候如果出現了無法啟動的情況,也無需進行人工干預,直接進行影響升級,【帶應用維修流程】直接升級成【無應用維修流程】。
c. 未知問題自動化兜底
在運行過程中,會出現一些機器宕機后可以進無盤,但壓測也無法發(fā)現任何硬件問題,這個時候就只能讓機器再進行一次裝機,有小部分的機器確實在裝機過程中,發(fā)現了硬件問題繼而被修復了。
d. 宕機分析
整個流程巧妙的設計,使得我們在處理硬件故障的時候,同時具備了宕機分析的能力。
不過整機流程還以解決問題為主導向,宕機分析只是副產品。
同時,我們也自動引入了集團的宕機診斷結果進行分析,達到了1+1>2的效果。
3.2.流程統(tǒng)計分析
如果是同樣的硬件問題反復觸發(fā)自愈,那么在流程工單的統(tǒng)計,能夠發(fā)現問題。例如聯(lián)想RD640的虛擬串口問題,在還未定位出根因前,我們就通過統(tǒng)計發(fā)現了:同個機型的機器存在反復宕機自愈的情況,即使機器重裝之后,問題也還是會出現。接下來我們就隔離了這批機器,保障集群穩(wěn)定的同時,為調查爭取時間。
3.3.業(yè)務關聯(lián)誤區(qū)
事實上,有了上面這套完整的自愈體系之后,某些業(yè)務上/kernel上/軟件上需要處理的問題,也可以進入這個自愈體系,然后走未知問題這個分支。其實硬件自愈解決業(yè)務問題,有點飲鴆止渴,容易使越來越多還沒想清楚的問題,嘗試通過這種方式來解決兜底。
當前我們逐步地移除對于非硬件問題的處理,回歸面向硬件自愈的場景(面向軟件的通用自愈也有系統(tǒng)在承載,這類場景與業(yè)務的耦合性較大,無法面向集團通用化),這樣也更利于軟硬件問題分類和未知問題發(fā)現。
4.架構演進4.1.云化
最初版本的自愈架構是在每個集群的控制機上實現,因為一開始時候運維同學也是在控制機上處理各種問題。但隨著自動化地不斷深入,發(fā)現這樣的架構嚴重阻礙了數據的開放。于是我們采用中心化架構進行了一次重構,但中心化架構又會遇到海量數據的處理問題,單純幾個服務端根本處理不過來。
因此我們對系統(tǒng)進一步進行分布式服務化的重構,以支撐海量業(yè)務場景,將架構中的各個模塊進行拆解,引入了 阿里云日志服務(sls)/阿里云流計算(blink)/阿里云分析數據庫(ads) 三大神器,將各個采集分析任務由云產品分擔,服務端只留最核心的硬件故障分析和決策功能。
下面是DAM1與DAM3的架構對比
4.2.數據化
隨著自愈體系的不斷深入,各階段的數據也有了穩(wěn)定的產出,針對這些數據的更高維分析,能讓我們發(fā)現更多有價值且明確的信息。同時,我們也將高維的分析結果進行降維,采用健康分給每臺機器打標。通過健康分,運維的同學可以快速知曉單臺機器、某個機柜、某個集群的硬件情況。
4.3.服務化
基于對全鏈路數據的掌控,我們將整個故障自愈體系,作為一個硬件全生命周期標準化服務,提供給不同的產品線。基于對決策的充分抽象,自愈體系提供各類感知閾值,支持不同產品線的定制,形成適合個性化的全生命周期服務。
5.故障自愈閉環(huán)體系在AIOps的感知、決策、執(zhí)行閉環(huán)體系中,軟件/硬件的故障自愈是最常見的應用場景,行業(yè)中大家也都選擇故障自愈作為首個AIOps落地點。在我們看來,提供一套通用的故障自愈閉環(huán)體系是實現AIOps、乃至NoOps(無人值守運維)的基石,應對海量系統(tǒng)運維,智能自愈閉環(huán)體系尤為重要。
5.1.必要性
在一個復雜的分布式系統(tǒng)中,各種架構間不可避免地會出現運行上的沖突,而這些沖突的本質就在于信息不對稱。而信息不對稱的原因是,每種分布式軟件架構在設計都是內斂閉環(huán)的。現在,通過各種機制各種運維工具,可以抹平這些沖突,然而這種方式就像是在打補丁,伴隨著架構的不斷升級,補丁似乎一直都打不完,而且越打越多。因此,我們有必要將這個行為抽象成自愈這樣一個行為,在架構層面顯式地聲明這個行為,讓各軟件參與到自愈的整個流程中,將原本的沖突通過這種方式轉化為協(xié)同。
當前我們圍繞運維場景中最大的沖突點:硬件與軟件沖突,進行架構和產品設計,通過自愈的方式提升復雜的分布式系統(tǒng)的整體魯棒性。
5.2.普適性
透過大量機器的硬件自愈輪轉,我們發(fā)現:
被納入自愈體系的運維工具的副作用逐漸降低(由于大量地使用運維工具,運維工具中的操作逐漸趨于精細化)。
被納入自愈體系的人工運維行為也逐漸變成了自動化。
每種運維動作都有了穩(wěn)定的SLA承諾時間,不再是隨時可能運行報錯的運維腳本。
因此,自愈實際上是在復雜的分布式系統(tǒng)上,將運維自動化進行充分抽象后,再構筑一層閉環(huán)的架構,使得架構生態(tài)形成更大的協(xié)調統(tǒng)一。
本文作者:鐘炯恩
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術”,如需轉載請聯(lián)系原作者。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/11937.html
摘要:一個在內存中保存靜態(tài)索引的緩存機器可以接受從負載均衡池中摘除時長時間的網絡中斷。處理一次重啟需要主動替換一個沒有被同一次維護影響的服務器。主機可以被從負載均衡池中移除,數據可以存儲在磁盤上,服務器也可以在重啟后快速追平復制進度。 Making Facebook self-healing: Automating proactive rack maintenance 原文:https://...
摘要:華為云華為云在云原生這場游戲中,最具競爭力的玩家之一。年,金山云在云原生領域推出了三款重磅產品星曜裸金屬服務器云服務器和云盤。在線上智博會上,浪潮云發(fā)布了經過全新迭代升級的浪潮云,進一步提升平臺云原生服務能力。面對數字時代復雜系統(tǒng)的不確定性,傳統(tǒng)的 IT 應用架構研發(fā)交付周期長、維護成本高、創(chuàng)新升級難,煙囪式架構,開放性差、組件復用度低,這些都成為了企業(yè)業(yè)務快速增長的瓶頸。而云原生以其敏捷、...
閱讀 2170·2023-04-25 20:45
閱讀 1084·2021-09-22 15:13
閱讀 3648·2021-09-04 16:48
閱讀 2586·2019-08-30 15:53
閱讀 936·2019-08-30 15:44
閱讀 952·2019-08-30 15:43
閱讀 1010·2019-08-29 16:33
閱讀 3439·2019-08-29 13:08