北京2022年12月13日 /美通社/ -- 存儲系統(tǒng)是由控制器、背板、結(jié)構(gòu)件、硬盤、內(nèi)存等部件構(gòu)成的多個子系統(tǒng)組成,其中任何單一元器件故障都可能導(dǎo)致存儲系統(tǒng)出現(xiàn)問題。因此,系統(tǒng)可靠運行的基礎(chǔ),離不開元器件、部件以及整個控制系統(tǒng)的可靠性設(shè)計。浪潮存儲從系統(tǒng)級開發(fā)、電路板級開發(fā)、部件引入、生產(chǎn)加工等多個環(huán)節(jié)來保障系統(tǒng)的可靠性及穩(wěn)定性。
系統(tǒng)級可靠性設(shè)計
在存儲系統(tǒng)中,許多元器件發(fā)生故障是由于系統(tǒng)設(shè)計不合理或元器件使用不當(dāng)所造成的,并不是元件本身存在缺陷。浪潮存儲系統(tǒng)級可靠性設(shè)計包含:可靠性模型建立及評估、冗余設(shè)計、容錯設(shè)計、故障隔離(失效分析)、熱設(shè)計、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference,電磁兼容性/電磁干擾)設(shè)計、安規(guī)設(shè)計、環(huán)境及結(jié)構(gòu)設(shè)計等。
其一,控制器單元冗余設(shè)計。關(guān)鍵元器件增加完全相同功能的備用通道,保障該部分出現(xiàn)故障時不影響系統(tǒng)正常運行。比如雙BIOS設(shè)計,當(dāng)BIOS由于Flash芯片故障或者升級失敗損壞時,可由備用BIOS接管,從而避免無法開機(jī)??刂破魅哂嘣O(shè)計以犧牲成本為代價,但存儲系統(tǒng)設(shè)計首要考慮因素應(yīng)是其可靠性。
其二,控制單元掉電保護(hù)。存儲系統(tǒng)增加BBU電池(Battery Back-Up)來抵抗電網(wǎng)瞬間斷電或電壓突降等突發(fā)因素,軟件系統(tǒng)將掉電信號定義為最高級別中斷,使控制單元能及時對掉電做出反應(yīng),防止數(shù)據(jù)丟失,確保業(yè)務(wù)的連續(xù)性。
其三,結(jié)構(gòu)設(shè)計。結(jié)構(gòu)可靠性設(shè)計是硬件可靠性設(shè)計的重要階段。結(jié)構(gòu)設(shè)計時,首先應(yīng)注意元器件及部件的安裝方式,其次是控制系統(tǒng)工作環(huán)境的條件(如通風(fēng)、除濕、防塵等)。
其四,噪聲抑制。存儲系統(tǒng)主要通過如下方式對噪聲進(jìn)行抑制:首先,選擇高效率雙馬達(dá)風(fēng)扇,優(yōu)化系統(tǒng)散熱所需風(fēng)扇轉(zhuǎn)速;其次,優(yōu)化節(jié)點導(dǎo)風(fēng)罩設(shè)計,降低單節(jié)點流阻;再次,系統(tǒng)風(fēng)扇調(diào)控導(dǎo)入PID控制,降低低負(fù)載時系統(tǒng)風(fēng)扇轉(zhuǎn)速;最后,通過散熱器優(yōu)化、風(fēng)道布局優(yōu)化及系統(tǒng)流阻優(yōu)化改善散熱效果,從而降低正常工作負(fù)載下設(shè)備噪聲。
其五,散熱設(shè)計。存儲系統(tǒng)通過對系統(tǒng)布局進(jìn)行風(fēng)道劃分,一般分為:Memory風(fēng)道、CPU風(fēng)道、節(jié)點風(fēng)道,各風(fēng)道之間利用機(jī)箱布局的結(jié)構(gòu)件實現(xiàn)風(fēng)道的串聯(lián)或并聯(lián)。風(fēng)機(jī)散熱風(fēng)量通過系統(tǒng)風(fēng)扇加速后,進(jìn)入并聯(lián)的節(jié)點風(fēng)道,從節(jié)點尾部的開孔結(jié)構(gòu)排出,從而保障系統(tǒng)的穩(wěn)定運行。
其六,系統(tǒng)日志收集。存儲系統(tǒng)會在一定的時間周期內(nèi)收集系統(tǒng)的信息,并自動創(chuàng)建可以查看的文件。當(dāng)存儲出現(xiàn)故障時,可以通過日志快速定位到出問題的部件。
電路板開發(fā)可靠性設(shè)計
存儲研發(fā)團(tuán)隊在設(shè)計過程中,正確使用各種型號的元器件或集成電路,提高硬件可靠性是不可忽視的重要因素。
一是電路設(shè)計。據(jù)統(tǒng)計,影響存儲系統(tǒng)可靠性的因素約45%來自系統(tǒng)設(shè)計。為了保證系統(tǒng)的可靠性,在電路設(shè)計時應(yīng)考慮最極端的情況。單板設(shè)計應(yīng)考慮所有元件的公差,并取其最不利的數(shù)值核算電路每一個規(guī)定的特性。如果這一組參數(shù)值能保證電路正常工作,那么在公差范圍內(nèi)的其他所有元件值都能使電路可靠地工作。在設(shè)計電路時,開發(fā)人員還會對單板元器件進(jìn)行降額分析,對重要元器件給出熱應(yīng)力、電應(yīng)力的降額情況,并根據(jù)以往器件失效分析(FEMA)的經(jīng)驗,對容易損壞的集成電路、關(guān)鍵元器件進(jìn)行優(yōu)化設(shè)計。
二是元器件選擇。在確定元器件參數(shù)之后,還要確定元器件的型號,這主要取決于電路所允許的公差范圍。由于制造工藝所限,有些元器件參數(shù)的公差范圍可能較大,如電容器電容量等。此外,元器件的額定工作條件包括多個方面(如電流、電壓、頻率、機(jī)械參數(shù)以及環(huán)境溫度等),設(shè)計時要考慮參數(shù)裕量,并確保運行在工作條件范圍內(nèi)。
三是電氣性能。元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等能力,在使用時要注意元器件的電氣性能,不能超限使用。
四是SI(signal integrity信號完整性)仿真設(shè)計。伴隨著信號頻率的提升,在存儲系統(tǒng)上分析和發(fā)現(xiàn)信號完整性問題并有效解決是非常復(fù)雜的。存儲系統(tǒng)借助EDA(Electronic Design Automation,電子設(shè)計自動化)工具,對電路的參數(shù)進(jìn)行仿真分析,提前發(fā)現(xiàn)問題,從而縮短研發(fā)周期,降低研發(fā)成本。
五是生產(chǎn)工藝。由于工藝原因引起的故障通常很難定位排查,一個焊點的虛焊很可能導(dǎo)致整個系統(tǒng)在工作過程中出現(xiàn)不穩(wěn)定現(xiàn)象。因此,設(shè)計印制電路板時應(yīng)考慮元器件的布局、引線的走向、引線的分類排序等。
六是硬件測試。浪潮存儲研發(fā)團(tuán)隊引入價值上百萬的高端測試設(shè)備,其中包含50G高端示波器、50G高帶寬硬件鏈路誤碼儀以及相關(guān)治具。存儲硬件研發(fā)團(tuán)隊制定了全覆蓋、無遺漏的信號測試規(guī)范,并進(jìn)一步加強加固驗證測試。其中包括板卡間熱插拔、固件反復(fù)升級驗證、單/雙控故障,板間信號動態(tài)測試,低溫啟動、高溫壓力測試,加強驗證SI鏈路可靠性測試。
部件引入確保可靠性設(shè)計
硬盤作為存儲介質(zhì)的中堅力量,保證機(jī)械硬盤的安全性和可靠性成為存儲研發(fā)部件團(tuán)隊的重中之重。浪潮存儲研發(fā)團(tuán)隊通過與硬盤廠商的技術(shù)分享搭配自己的專利技術(shù),形成了一套包括磁盤的加密、協(xié)議層的定制以及寫緩存的關(guān)閉等技術(shù)的定制方案。配合Raid技術(shù)更好地保證了客戶對數(shù)據(jù)安全性的要求,開發(fā)出了一套獨有的篩盤方案和篩盤設(shè)備來滿足金融等行業(yè)用戶的需求。
針對存儲設(shè)備,浪潮存儲研發(fā)團(tuán)隊開發(fā)了多控制器系統(tǒng),配合鎖盤技術(shù)、硬盤定制化以及Raid技術(shù),實現(xiàn)了硬盤高速讀寫的需求和安全性、可靠性的完美結(jié)合。硬盤經(jīng)過引入測試、兼容性測試、篩盤測試、老化測試等層層把控為存儲設(shè)備打造堅實底座。
生產(chǎn)制造保障可靠性
生產(chǎn)制造是產(chǎn)品生命周期中重要一環(huán),通過批量生產(chǎn)和用戶反饋有助于發(fā)現(xiàn)更多前期設(shè)計遺漏和缺陷,及時維護(hù)查缺補漏。
浪潮存儲在生產(chǎn)線引入了用于測試存儲產(chǎn)品在不同溫度條件下是否可以正常穩(wěn)定運行的溫循房,環(huán)境溫度可以根據(jù)需求隨時調(diào)整,加速缺陷部件的故障復(fù)現(xiàn),從而降低產(chǎn)品到貨即損(DOA)的情況。同時,提出增加極限場景測試和模擬客戶實際使用場景的長穩(wěn)壓力測試等生產(chǎn)模式,提高存儲產(chǎn)品穩(wěn)定性和可靠性。
高端存儲產(chǎn)品必須保證極致穩(wěn)定,設(shè)備生產(chǎn)完畢后先進(jìn)行7至14天的長穩(wěn)測試,測試用例中模擬客戶實際業(yè)務(wù)場景,采用客戶常見的數(shù)據(jù)類型進(jìn)行壓力測試,觀察測試過程中存儲設(shè)備是否有告警和異常,將一切不穩(wěn)定因素攔截在生產(chǎn)階段,保證設(shè)備交付后的穩(wěn)定、可靠運行。
近年來,浪潮存儲持續(xù)加大研發(fā)投入和創(chuàng)新,致力于打造安全、可靠、經(jīng)濟(jì)、高效的數(shù)據(jù)存儲底座,不斷追求“極致穩(wěn)定”,為數(shù)據(jù)存儲保駕護(hù)航,服務(wù)各行各業(yè)。