摘要:而硬盤失效預(yù)測(cè)技術(shù),很大程度上可把這種非計(jì)劃性工作變?yōu)橛?jì)劃性工作,從而降低客戶的運(yùn)維成本。硬盤分為和兩大類,其失效預(yù)測(cè)技術(shù)也不同。在硬盤失效預(yù)測(cè)領(lǐng)域,我們用召回率和虛警率來衡量預(yù)測(cè)算法的結(jié)果。
背景
硬盤是存儲(chǔ)系統(tǒng)的最重要組件,其可靠性狀況在很大程度上影響了存儲(chǔ)系統(tǒng)的整體可靠性表現(xiàn)。雖然存儲(chǔ)系統(tǒng)使用了多種技術(shù)來處理硬盤失效,確保一定程度的硬盤失效不影響數(shù)據(jù)可靠性。但在實(shí)際生產(chǎn)環(huán)境中,多種因素(如腐蝕、震動(dòng)或硬盤批次缺陷等)仍可能導(dǎo)致雙盤甚至多盤同時(shí)或在短時(shí)間內(nèi)相繼失效,影響用戶數(shù)據(jù)安全。顯而易見,如果能預(yù)測(cè)硬盤失效的概率,并做提前預(yù)防,可大大提升用戶數(shù)據(jù)的可靠性。
同時(shí),當(dāng)硬盤失效后,運(yùn)維人員需要盡快執(zhí)行數(shù)據(jù)備份和換盤等操作。通常而言,這些操作屬于非計(jì)劃性工作,會(huì)顯著增加數(shù)據(jù)中心運(yùn)維人員的工作負(fù)擔(dān)。而硬盤失效預(yù)測(cè)技術(shù),很大程度上可把這種非計(jì)劃性工作變?yōu)橛?jì)劃性工作,從而降低客戶的運(yùn)維成本。
硬盤分為SSD和HDD兩大類,其失效預(yù)測(cè)技術(shù)也不同。SSD可通過擦寫次數(shù)進(jìn)行壽命預(yù)估,實(shí)現(xiàn)難度相對(duì)不高。而HDD的機(jī)械器件眾多,系統(tǒng)精密度高,其失效模型非常復(fù)雜,我們很難用簡(jiǎn)單的算法預(yù)測(cè)其失效概率。隨著人工智能技術(shù)的成熟,如何利用機(jī)器學(xué)習(xí)等技術(shù)對(duì)HDD進(jìn)行失效預(yù)測(cè),是存儲(chǔ)陣列可靠性領(lǐng)域的一個(gè)重要?jiǎng)?chuàng)新方向。
?
預(yù)測(cè)算法的衡量指標(biāo)
在進(jìn)入算法設(shè)計(jì)前,我們需要首先定義一個(gè)算法的衡量指標(biāo)。在硬盤失效預(yù)測(cè)領(lǐng)域,我們用召回率(Recall)和虛警率(FAR:False Alarm Rate)來衡量預(yù)測(cè)算法的結(jié)果。其中,召回率是指算法識(shí)別出的失效硬盤占所有失效硬盤的百分比;而虛警率指失效預(yù)測(cè)算法識(shí)別出錯(cuò)的百分比。顯而易見,過低的虛警率(當(dāng)我們把判定失效硬盤的條件設(shè)置得很嚴(yán)格時(shí))將導(dǎo)致召回率降低(從而影響預(yù)測(cè)算法的有效性);而高的虛警率,將導(dǎo)致召回率的錯(cuò)誤增高(從另一方面也影響算法的有效性)。
一個(gè)好的算法,需要在召回率和虛警率之間做取舍。當(dāng)不同的廠商或者用戶有不同的傾向時(shí),預(yù)測(cè)模型的選擇也會(huì)有較大的差別。基于多年的存儲(chǔ)行業(yè)經(jīng)驗(yàn),我們定義了如下標(biāo)準(zhǔn):就多數(shù)用戶的使用場(chǎng)景而言,我們需要使得預(yù)測(cè)模型在虛警率盡量低(小于0.5%)的情況下召回率大于等于70%。
?
SATAHDD失效預(yù)測(cè)的實(shí)現(xiàn)原理
定義了硬盤失效預(yù)測(cè)的衡量指標(biāo)后,可以真正討論一下如何找到滿足指標(biāo)的預(yù)測(cè)模型。以SATA盤為例,其生產(chǎn)廠商會(huì)提供SMART (Self-Monitoring Analysisand Reporting Technology)信息,這些信息可以表征硬盤的運(yùn)行狀態(tài):如SMART 187反映了不能用ECC(Error-correcting code)糾正的讀請(qǐng)求計(jì)數(shù),當(dāng)這個(gè)值大于0時(shí),硬盤則有可能出現(xiàn)了問題,需要更換。其它的SMART特征,如SMART 5(重分配扇區(qū)計(jì)數(shù))、SMART 188(命令超時(shí))等也都是表征硬盤可能失效的重要指標(biāo)[1]。在[2]中展示了SMART 187與硬盤失效率的一張關(guān)系圖(該圖源自于Backblaze),如下所示。
SMART 187指標(biāo)與硬盤年失效率(AFR)的關(guān)系
可以看出,SMART 187確實(shí)在很大程度上與硬盤失效成相關(guān)性,當(dāng)SMART 187高于35時(shí),硬盤失效率上漲很多。所以,有理由相信,通過分析和利用硬盤的SMART數(shù)據(jù),我們有可能訓(xùn)練出滿足評(píng)價(jià)指標(biāo)的SATA HDD失效預(yù)測(cè)模型。
?
如何訓(xùn)練模型?
雖然SMART 5 和 SMART 187等指標(biāo)對(duì)于SATA HDD的失效預(yù)測(cè)非常重要,但是基于HDD失效模式的復(fù)雜度,僅僅用這幾個(gè)指標(biāo)(機(jī)器學(xué)習(xí)中稱為特征-Feature)訓(xùn)練的模型是不能夠滿足要求的,所以我們需要選取盡可能多的特征來訓(xùn)練模型。但由于維度詛咒(Curse of Dimensionality,指選擇的特征過多反而會(huì)導(dǎo)致模型失效),我們不可能將所有的SMART特征值都作為模型輸入來訓(xùn)練模型,特別是SMART特征值中包括原始值和歸一化值等不同緯度的特征時(shí)。
另外,SMART屬性中并不是所有值都與硬盤失效有關(guān),甚至有些值與硬盤失效的關(guān)系跟人們的預(yù)計(jì)并不相符,例如下圖:
SMART 12與硬盤年失效率的關(guān)系
該圖仍來自[2],其中SMART 12代表硬盤上電次數(shù),與直覺相反的是,它的值與硬盤失效率并沒有正相關(guān)性。因?yàn)镾MART 12非常大的時(shí)候,硬盤失效率反而下降了。
所以,如何合理選擇合理的特征,并且有可能對(duì)這些特征進(jìn)行組合、轉(zhuǎn)換等操作生成新的特征以滿足模型訓(xùn)練的要求,這是硬盤失效預(yù)測(cè)模型訓(xùn)練的關(guān)鍵。下圖展示了當(dāng)特征選擇不恰當(dāng)時(shí)模型的輸出結(jié)果。可以看出在FAR為0.5%時(shí),Recall只有不到0.5,效果不甚理想:
一個(gè)特征選擇不恰當(dāng)?shù)哪P陀?xùn)練結(jié)果
在華為存儲(chǔ)實(shí)驗(yàn)室中,我們通過收集華為數(shù)據(jù)中心的大量硬盤信息,合理選擇了特征和算法,得到了如下模型的訓(xùn)練結(jié)果,可以看到,其效果已滿足我們對(duì)預(yù)測(cè)算法的目標(biāo)要求:
存儲(chǔ)實(shí)驗(yàn)室開發(fā)的硬盤失效預(yù)測(cè)模型效果
?
SAS HDD的失效預(yù)測(cè)
上文解釋了SATA HDD失效預(yù)測(cè)的原理,更進(jìn)一步的,我們還需要考慮如何預(yù)測(cè)SAS HDD的失效。SAS HDD的失效預(yù)測(cè)不能采用與SATA HDD相同的模型,除了在生產(chǎn)制造工藝等方面的不同外,一個(gè)主要原因是SAS接口并不能提供像SMART一樣的硬盤狀態(tài)特征。SAS HDD提供了所謂的SCSI Log Page,提供了諸如grown defect list、non-medium error、unrecovered read error、unrecovered write error和unrecovered verified error等信息,而這些信息很多是硬盤廠商檢查硬盤狀態(tài)后自己定義的結(jié)果。在模型訓(xùn)練過程中,我們發(fā)現(xiàn)這些值并不足以支撐足夠好的預(yù)測(cè)模型。因此,在SAS HDD的失效預(yù)測(cè)中,需要加入更詳細(xì)的診斷信息(如希捷的FARM:Field-Accessible Reliability Metrics Specification),以提供在SAS Log Page里缺失卻比較重要的硬盤特征,如SMART 7、SMART 188等等。因此在SAS HDD的失效預(yù)測(cè)中需要同時(shí)使用Log Page與FARM信息作為輸入數(shù)據(jù)特征。
?
華為eService系統(tǒng)的云端硬盤失效預(yù)測(cè)能力
可以看出,正確的選擇數(shù)據(jù)特征,使用合適的分類算法,合理的調(diào)節(jié)模型參數(shù)是一個(gè)成功的失效預(yù)測(cè)模型的關(guān)鍵。事實(shí)上,基于華為數(shù)據(jù)中心的海量機(jī)械盤數(shù)據(jù),華為存儲(chǔ)的云端智能運(yùn)維系統(tǒng)- eService已經(jīng)訓(xùn)練出HDD失效預(yù)測(cè)模型,并可以在近期提供云端的HDD失效預(yù)測(cè)能力。當(dāng)客戶數(shù)據(jù)中心硬盤狀態(tài)數(shù)據(jù)接入eService系統(tǒng),該系統(tǒng)會(huì)根據(jù)已有模型實(shí)時(shí)預(yù)測(cè)硬盤失效狀態(tài)并及時(shí)提醒客戶更換即將失效的硬盤,從而大幅提升客戶數(shù)據(jù)可靠性,降低運(yùn)維成本。
?
未來展望
雖然eService系統(tǒng)已經(jīng)提供HDD的失效預(yù)測(cè)的能力,但是這僅僅是開始。隨著接入eService的設(shè)備數(shù)量的上升,通過不斷優(yōu)化的訓(xùn)練過程,我們可以預(yù)期這個(gè)能力的較精確度會(huì)不斷提升,給用戶帶來更大的價(jià)值。
?
參考資料
[1]https://www.pcworld.com/article/3129275/hardware/these-5-smart-errors-help-you-predict-your-hard-drives-death.html
[2]https://www.computerworld.com/article/2846009/the-5-smart-stats-that-actually-predict-hard-drive-failure.html
歡迎加入本站公開興趣群軟件開發(fā)技術(shù)群
興趣范圍包括:Java,C/C++,Python,PHP,Ruby,shell等各種語言開發(fā)經(jīng)驗(yàn)交流,各種框架使用,外包項(xiàng)目機(jī)會(huì),學(xué)習(xí)、培訓(xùn)、跳槽等交流
QQ群:26931708
Hadoop源代碼研究群
興趣范圍包括:Hadoop源代碼解讀,改進(jìn),優(yōu)化,分布式系統(tǒng)場(chǎng)景定制,與Hadoop有關(guān)的各種開源項(xiàng)目,總之就是玩轉(zhuǎn)Hadoop
QQ群:288410967
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/3956.html
摘要:從那個(gè)時(shí)候開始,我就開始用一些機(jī)器學(xué)習(xí)人工智能的技術(shù)來解決的運(yùn)維問題了,有不少智能運(yùn)維的嘗試,并發(fā)表了不少先關(guān)論文和專利。而處理海量高速多樣的數(shù)據(jù)并產(chǎn)生高價(jià)值,正是機(jī)器學(xué)習(xí)的專長(zhǎng)。也就是說,采用機(jī)器學(xué)習(xí)技術(shù)是運(yùn)維的一個(gè)必然的走向。 大家上午好,非常榮幸,能有這個(gè)機(jī)會(huì),跟這么多的運(yùn)維人一起交流智能運(yùn)維。最近這兩年運(yùn)維里面有一個(gè)很火的一個(gè)詞叫做AIOps(智能運(yùn)維)。我本人是老運(yùn)維了,在2000...
摘要:一大數(shù)據(jù)平臺(tái)介紹大數(shù)據(jù)平臺(tái)架構(gòu)演變?nèi)鐖D所示魅族大數(shù)據(jù)平臺(tái)架構(gòu)演變歷程年底,我們開始實(shí)踐大數(shù)據(jù),并部署了測(cè)試集群。因此,大數(shù)據(jù)運(yùn)維的目標(biāo)是以解決運(yùn)維復(fù)雜度的自動(dòng)化為首要目標(biāo)。大數(shù)據(jù)運(yùn)維存在的問題大數(shù)據(jù)運(yùn)維存在的問題包括部署及運(yùn)維復(fù)雜。 一、大數(shù)據(jù)平臺(tái)介紹 1.1大數(shù)據(jù)平臺(tái)架構(gòu)演變 ?showImg(https://segmentfault.com/img/bVWDPj?w=1024&h=...
閱讀 1472·2021-09-30 09:57
閱讀 1481·2021-09-09 09:33
閱讀 2249·2021-09-04 16:40
閱讀 1812·2021-09-01 10:50
閱讀 3259·2021-09-01 10:31
閱讀 2552·2019-08-30 15:56
閱讀 2983·2019-08-30 15:44
閱讀 3485·2019-08-29 17:29