北京2023年10月31日 /美通社/ -- 當今數(shù)字化時代,信息技術扮演著企業(yè)和組織運營的關鍵角色。然而,隨著IT環(huán)境不斷復雜化和數(shù)據(jù)量激增,傳統(tǒng)的運維管理方法已經(jīng)無法滿足日益增長的需求。為應對這一挑戰(zhàn),智能運維(Artificial intelligence for IT operations,簡稱AIOPS)應運而生。
AIOPS融合了人工智能、自動化和數(shù)據(jù)分析等技術,旨在優(yōu)化IT運維的效率、可靠性和可用性。在AIOPS的范疇內(nèi),硬盤驅動器(HDD)故障預測是其中一個至關重要的組成部分。在數(shù)字化時代,數(shù)據(jù)被譽為“新時代的石油”,HDD作為數(shù)據(jù)存儲的基礎設備,在數(shù)據(jù)中心、服務器和個人計算機中廣泛使用,扮演著關鍵角色。然而其敏感、精確、結構復雜的特性往往也使得某些故障難以避免。因此,通過AIOPS來實現(xiàn)HDD故障預測,避免數(shù)據(jù)丟失、業(yè)務中斷、維護成本上升,從而保障數(shù)據(jù)可用性和系統(tǒng)穩(wěn)定性,逐漸成為保障業(yè)務正常運轉的重要手段。
為什么硬盤會出現(xiàn)故障?
由旋轉磁盤和漂浮在其上方的讀/寫頭組合而成的硬盤驅動器盡管結構復雜,但它們已經(jīng)證明了自己作為數(shù)據(jù)載體的價值。然而,引起機械硬盤發(fā)生故障的原因有多種:首先,如高溫、濕度、機械磨損、讀寫操作頻率等,這些因素之間的相互作用使得故障模式變得更為復雜,大大提高了預測難度。其次,溫度、振動、讀寫速度、錯誤率等多樣性HDD性能數(shù)據(jù)在規(guī)模龐大的數(shù)據(jù)存儲環(huán)境中對進行有效利用和分析,無疑也是一個挑戰(zhàn)。
傳統(tǒng)的故障預測方法主要基于固定的閾值和經(jīng)驗判斷,存在明顯的限制:傳統(tǒng)方法只能在故障已經(jīng)發(fā)生或接近發(fā)生時才采取行動,無法預測性地防止故障;基于閾值的警報往往容易誤報,因為某些參數(shù)可能因正常使用而產(chǎn)生波動;傳統(tǒng)方法通常需要大量的人工干預,增加管理成本。相比之下,智能算法的引入為HDD故障預測帶來諸多可能性,利用大數(shù)據(jù)和機器學習技術,其強大的學習和自適應能力可以更好地利用和分析這些多樣化的數(shù)據(jù),從海量的硬盤驅動器數(shù)據(jù)中提取有價值的信息,進而更加準確地進行故障預測。
HDD故障預測解決方案
方案主要包含兩部分:模型離線訓練以及實時監(jiān)測和警報。首先通過離線訓練得到可用的預測模型,然后將模型運用到實際生產(chǎn)環(huán)境中進行實時故障預測。
模型離線訓練整體流程如圖1所示。模型所需數(shù)據(jù)為S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監(jiān)測、分析及報告技術,即一種自動的硬盤狀態(tài)檢測與預警系統(tǒng)和規(guī)范)數(shù)據(jù),主要指硬盤運行過程中的指標值。在數(shù)據(jù)預處理階段,由于并非所有原始屬性都是機器學習模型的可用特征,因此需要先去除冗余和不相關的特征并選擇與預測結果相關的特征,然后對于空缺的數(shù)據(jù)進行向前補全。同時,故障盤最后兩周的樣本均為潛在故障樣本(預示著該硬盤可能隨時會發(fā)生故障),即需要將最后兩周的樣本設置為故障盤樣本標簽。最后,二維數(shù)據(jù)類圖構建則是將時間作為第二維度(SMART屬性作為第一維度),使用滑動窗口的方式,構建出二維數(shù)據(jù)圖,如圖2所示。經(jīng)過此階段處理能夠保持SMART數(shù)據(jù)的時間局部性,有利于磁盤故障預測。最后將得到的數(shù)據(jù)進行數(shù)據(jù)劃分,分別組成訓練集、驗證集和測試集用于模型訓練和評估。
在故障預測模型訓練過程中(圖3中虛線框所示),只使用健康硬盤的樣本。編碼器GE用來對原始輸入圖片x進行編碼,得到圖片特征z,解碼器GD對編碼后的圖片特征z`進行解碼。得到重構圖片x`。為檢測異常,添加一個編碼器E來學習重構樣本x`的特征表示z`。對于原始樣本x和生成圖片x`,交由判別網(wǎng)絡D來判別真?zhèn)?,這樣,在判別網(wǎng)絡進行更新時,判別網(wǎng)絡的判別能力會得到提升。
在模型預測過程中(圖3中實線框所示),無判別網(wǎng)絡,只利用生成網(wǎng)絡。將硬盤當前的二維SMART數(shù)據(jù)類圖作為輸入,經(jīng)過模型中生成網(wǎng)絡的處理,得到輸入類圖的特征表示z和生成網(wǎng)絡的特征表示z`。其預測原理是,利用z和z`之間的差異來衡量樣本生成的有效性,且兩者差異越小,樣本生成越好。因此,兩者的L2范式A(X)=||z-z`||2被用于衡量樣本的異常度,即當值大于某一閾值時,表示樣本異常,即該硬盤將發(fā)生故障。其背后原因是,在訓練過程中只利用和學習健康硬盤樣本的分布,則使得健康硬盤樣本的差異更小,即z和z`的差距更小。在預測時,如果輸入樣本來自故障硬盤,則會因為故障樣本偏離健康樣本的分布,導致z和z`差異更顯著。
模型每次迭代訓練使用AUC(Area Under Curve,接受者操作特征曲線下面積)區(qū)域預測效果最好的模型參數(shù)進行保存并供后續(xù)預測使用。模型訓練完成后使用準確率對模型的性能進行評估,經(jīng)評估模型的預測準確性可達99%。
當模型訓練完成后將HDD故障預測引擎順利整合到多設備管理軟件InView端,允許實時采集硬盤SMART數(shù)據(jù),并利用模型進行在線推理預測未來兩周內(nèi)硬盤發(fā)生故障可能性(如圖4所示)。當系統(tǒng)檢測到硬盤出現(xiàn)故障風險立即觸發(fā)告警機制,及時通知用戶進行換盤處理。此機制不僅能夠確保數(shù)據(jù)的安全可靠性,還提高了硬盤驅動器的整體性能和維護效率,強力保障了業(yè)務的連續(xù)性和數(shù)據(jù)管理的穩(wěn)定性。
通過AIOPS技術,浪潮信息HDD磁盤故障預測解決方案不僅實現(xiàn)了業(yè)界領先的預測準確性,還成功整合預測引擎和實時監(jiān)測系統(tǒng),能夠在故障風險出現(xiàn)時采取及時的措施,保護數(shù)據(jù)的安全和業(yè)務的連續(xù)性。
未來,將繼續(xù)優(yōu)化和拓展HDD磁盤故障預測能力:
面對生成式AI掀起的變革浪潮,5G、AI大語言模型、自動駕駛等各類新技術融合,大容量HDD依然是企業(yè)級數(shù)據(jù)中心、云服務提供商以及超大規(guī)模云業(yè)務領域的首選,浪潮信息將繼續(xù)秉承“極致存儲,智慧有數(shù)”的理念,基于自身技術優(yōu)勢不斷創(chuàng)新,持續(xù)推動該領域的技術發(fā)展,以可靠高效的一體式解決方案守護企業(yè)數(shù)據(jù)安全,助力千行百業(yè)數(shù)字化轉型。