北京2022年6月28日 /美通社/ -- 隨著企業(yè)數(shù)字化轉(zhuǎn)型的快速發(fā)展,數(shù)據(jù)呈現(xiàn)爆發(fā)增長(zhǎng)趨勢(shì),大數(shù)據(jù)、云計(jì)算、AI等新興技術(shù)的發(fā)展使得數(shù)據(jù)來(lái)源和結(jié)構(gòu)變得更加復(fù)雜多樣,基于數(shù)據(jù)的智慧應(yīng)用不斷涌現(xiàn),帶來(lái)了對(duì)數(shù)據(jù)存儲(chǔ)質(zhì)量、傳輸速度等性能需求的提升。固態(tài)硬盤(pán)憑借著高性能及其價(jià)格的持續(xù)優(yōu)化、綠色節(jié)能的特點(diǎn),成為了IT核心基礎(chǔ)設(shè)施重要選擇,滿(mǎn)足數(shù)字經(jīng)濟(jì)時(shí)代對(duì)高性能、高可靠、容量、綠色節(jié)能的需求。NAND Flash作為SSD閃存盤(pán)的基礎(chǔ)單元,就像是超市內(nèi)部的貨架,其可靠性是存儲(chǔ)系統(tǒng)、數(shù)據(jù)中心穩(wěn)定可靠的基礎(chǔ)保證,浪潮存儲(chǔ)堅(jiān)持科技創(chuàng)新與工匠精神,結(jié)合用戶(hù)的場(chǎng)景要求,針對(duì)NAND Flash可靠性測(cè)試進(jìn)行了全方位的探索和創(chuàng)新,不斷打磨優(yōu)化確保SSD的高可靠性。
提升NAND可靠性 需要闖過(guò)“三關(guān)”
浪潮存儲(chǔ)基于大量的NAND測(cè)試數(shù)據(jù),在反復(fù)探索和實(shí)踐推理過(guò)程中發(fā)現(xiàn)了企業(yè)級(jí)固體硬盤(pán)普遍面臨三個(gè)挑戰(zhàn):
首先,NAND特性會(huì)影響數(shù)據(jù)的可靠性。例如NAND中未寫(xiě)滿(mǎn)數(shù)據(jù)的塊因數(shù)據(jù)保存能力低會(huì)導(dǎo)致RBER ( Raw Bit Error Rate,原始比特錯(cuò)誤率)升高,經(jīng)過(guò)大規(guī)模NAND測(cè)試和數(shù)據(jù)分析,量化不同階段影響程度,可以制定出最優(yōu)方法去減少影響并提升固體硬盤(pán)的可靠性。
其次是默認(rèn)讀電壓未能最佳適配N(xiāo)AND特性不能滿(mǎn)足QoS(Quality of Service,服務(wù)質(zhì)量)要求。大量實(shí)際業(yè)務(wù)讀寫(xiě)場(chǎng)景中5K P/E(Program/Erase,寫(xiě)入/擦除)下數(shù)據(jù)保存能力達(dá)到90天時(shí)就嚴(yán)重超出了LDPC(Low Density Parity Check Code,低密度奇偶校驗(yàn))糾錯(cuò)能力,所以NAND測(cè)試需給出最優(yōu)電壓來(lái)滿(mǎn)足服務(wù)質(zhì)量要求;
第三是NAND廠商提供的Read Retry表如果不夠精細(xì),不經(jīng)實(shí)際測(cè)試校驗(yàn)檢測(cè)使用會(huì)影響產(chǎn)品的服務(wù)質(zhì)量。
全面NAND Flash測(cè)試為產(chǎn)品優(yōu)化提供精準(zhǔn)數(shù)據(jù)
浪潮存儲(chǔ)的研發(fā)團(tuán)隊(duì)在研究分析全球主流NAND Flash所有特性后,針對(duì)NAND Flash測(cè)試分析制定了測(cè)試流程,并研發(fā)了一款測(cè)試分析儀,能給為產(chǎn)品的優(yōu)化提供詳細(xì)數(shù)據(jù),提升SSD的可靠性。
第一步是原廠屬性核驗(yàn),主要核驗(yàn)原廠所提供的Timing、壞塊等原廠屬性數(shù)據(jù)的一致性和偏差閾值;第二步是NAND Flash特性極值摸底挖掘,主要是摸底First Read、最優(yōu)讀取電壓等屬性的極值;第三步是最優(yōu)讀電壓的驗(yàn)證和優(yōu)化以及LLR Table(Log likelihood ratio table,對(duì)數(shù)似然比表)的生成,考慮到同型號(hào)不同批NAND也存在部分細(xì)微差異,對(duì)同一型號(hào)每一批次NAND Flash都要進(jìn)行充分驗(yàn)證以保證測(cè)試數(shù)據(jù)的準(zhǔn)確性,為了更加全面準(zhǔn)確的獲取測(cè)試結(jié)果,浪潮存儲(chǔ)自主研發(fā)了NAND Prober HX9000測(cè)試分析儀。
NAND基礎(chǔ)屬性核驗(yàn)
在NAND基礎(chǔ)屬性測(cè)試方面,主要關(guān)注Timing時(shí)序、壞塊分布和功耗測(cè)試Power Consumption等測(cè)試項(xiàng)目。其中Timing測(cè)試中會(huì)在不同條件下測(cè)試讀、寫(xiě)和擦,例如在不同PE、不同溫度、不同位置獲取最優(yōu)的Timing值給固件性能調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù);壞塊測(cè)試主要關(guān)注壞塊分布和壞塊率,為固件元數(shù)據(jù)設(shè)計(jì)以及性能一致性設(shè)計(jì)提供數(shù)據(jù);功耗測(cè)試針對(duì)讀寫(xiě)擦,包含Single、Mulit-plane操作,獲取平均功耗和峰值功耗,峰值功耗是平均功耗的2~3倍,單個(gè)峰值持續(xù)時(shí)間微秒級(jí)別, 硬件需要針對(duì)電源及噪聲做設(shè)計(jì),固件可以限制并發(fā),避免大量峰值功耗涌現(xiàn)。
NAND特性極值挖掘
NAND基礎(chǔ)特性測(cè)試包含首次讀、未寫(xiě)滿(mǎn)塊、空擦除、最優(yōu)讀電壓、LLR table等方面內(nèi)容,浪潮存儲(chǔ)正是基于對(duì)這些基礎(chǔ)特性的極值的探索,持續(xù)優(yōu)化產(chǎn)品,提升固體硬盤(pán)的可靠性。
在First Read方面的優(yōu)化,是考慮閃存顆粒中短時(shí)間不讀的數(shù)據(jù)塊(Block),第一次讀取時(shí)會(huì)存在BER(Bit Error Rate,比特誤碼率)會(huì)比較高的狀況,周期刷新可以有效的預(yù)防此類(lèi)問(wèn)題、通過(guò)測(cè)試驗(yàn)證不同溫度下的刷新周期和專(zhuān)用命令和pSLC dummy(portion Single Level Cell,部分單層存儲(chǔ)單元)命令有效性,刷新優(yōu)化不同型號(hào)NAND周期。
塊(Block)是NAND Flash中可的擦除的最小單位,由若干個(gè)可以讀寫(xiě)數(shù)據(jù)的頁(yè)(Page)組成,這也意味著有些塊中會(huì)出現(xiàn)只有部分頁(yè)寫(xiě)滿(mǎn)了數(shù)據(jù),但是系統(tǒng)為了保存這些頁(yè)內(nèi)的數(shù)據(jù)未對(duì)整個(gè)塊就行擦除,就出現(xiàn)了未寫(xiě)滿(mǎn)的塊(Open Block), 在固件使用過(guò)程中不可避免。
相比寫(xiě)滿(mǎn)數(shù)據(jù)的塊(Close Block),未寫(xiě)滿(mǎn)塊的數(shù)據(jù)保存能力會(huì)降低。此部分測(cè)試的目標(biāo)就是要對(duì)不同寫(xiě)入量數(shù)據(jù)塊進(jìn)行不斷的寫(xiě)入和擦除,在不同情況下測(cè)試讀干擾和數(shù)據(jù)保持能力對(duì)可靠性的影響,探索能夠保障數(shù)據(jù)塊最強(qiáng)保存能力的最優(yōu)讀電壓和最佳的空擦除次數(shù),為FW設(shè)計(jì)開(kāi)發(fā)優(yōu)化進(jìn)行指導(dǎo),從而實(shí)現(xiàn)NAND實(shí)現(xiàn)最高的可靠性。
獲取最優(yōu)讀電壓至關(guān)重要,因不準(zhǔn)確電壓會(huì)影響產(chǎn)品的性能吞吐量、QoS和UBER,主要有兩種方式可以獲取,一種是固定讀電壓離線(xiàn)獲取離線(xiàn)訓(xùn)練,F(xiàn)W使用相對(duì)簡(jiǎn)單,但對(duì)NAND一致性要求較高;另一種是動(dòng)態(tài)更新最優(yōu)讀電壓,F(xiàn)W要周期性找到最優(yōu)讀電壓,缺點(diǎn)是獲取過(guò)程中對(duì)Qos有影響,但通用性更好。根據(jù)不同型號(hào)的NAND一致性的實(shí)際數(shù)據(jù),可以選擇獲取最優(yōu)讀電壓的最佳方式。
參數(shù)表驗(yàn)證調(diào)優(yōu)
獲取最優(yōu)讀電壓參數(shù)后,仍需要進(jìn)行多輪的驗(yàn)證和優(yōu)化,包括基于實(shí)際NAND信道生產(chǎn)LLR table,LDPC 軟解碼的算法可以利用NAND Flash的數(shù)據(jù)和LLR table數(shù)據(jù)提升糾錯(cuò)能力和性能。LLR生成的主要過(guò)程是通過(guò)NAND測(cè)試儀器生成LLR相關(guān)數(shù)據(jù),再采用專(zhuān)用LLR工具生成LLR table,然后將LLR table放到LDPC仿真環(huán)境中驗(yàn)證和產(chǎn)品的調(diào)優(yōu)。
為了快速、準(zhǔn)確、批量化測(cè)試分析NAND Flash各類(lèi)特性,浪潮自主研發(fā)了高度模塊化的NAND Prober HX9000測(cè)試分析儀,支持SLC/MLC/TLC/QLC等多種存儲(chǔ)單元的閃存顆粒的NAND特性測(cè)試,具有高精準(zhǔn)、簡(jiǎn)潔易用的用戶(hù)界面,可以滿(mǎn)足進(jìn)行閃存介質(zhì)特性分析、穩(wěn)定性追蹤、壽命檢測(cè)、算法優(yōu)化和測(cè)試等應(yīng)用,為產(chǎn)品的優(yōu)化提升了準(zhǔn)確性和效率。
浪潮存儲(chǔ)采用了行業(yè)領(lǐng)先的智能高溫控制器和自主創(chuàng)新的P/E 塊讀寫(xiě)算法并行收集閃存介質(zhì)的實(shí)時(shí)狀態(tài),支持NAND介質(zhì)High Level、Low Level指令集,圖形化界面,全方位監(jiān)測(cè)介質(zhì)實(shí)時(shí)狀態(tài),通過(guò)開(kāi)放的API(Application Programming Interface,應(yīng)用程序接口)接口,為用戶(hù)提供自定義的介質(zhì)特性控制、監(jiān)測(cè)和狀態(tài)數(shù)據(jù)收集服務(wù),設(shè)備購(gòu)置和擁有成本有效的進(jìn)行了降低,通過(guò)使用NAND測(cè)試分析儀,提升了閃存主控芯片的設(shè)計(jì)、性能優(yōu)化、介質(zhì)壽命管控效率,有效提升主控芯片特性、優(yōu)化SSD整盤(pán)性能和可靠性,同時(shí)可以用于存儲(chǔ)介質(zhì)的新特性和新材料研究,支撐對(duì)傳統(tǒng)介質(zhì)新特性和新介質(zhì)新特性的測(cè)試、收集和分析,為未來(lái)產(chǎn)品的開(kāi)發(fā)提供了重要支撐和保障。
可靠性提高30%以上
浪潮SSD通過(guò)嚴(yán)謹(jǐn)苛刻的測(cè)驗(yàn)優(yōu)化,產(chǎn)品的各項(xiàng)規(guī)格指標(biāo)已經(jīng)達(dá)到業(yè)界領(lǐng)先,再通過(guò)測(cè)試在不同PE、Retention、Read Disturb組合下去找最優(yōu)電壓,使得采用的NAND壽命和可靠性可以提高到30%以上,QoS水平可以達(dá)到99.99%,處于業(yè)內(nèi)領(lǐng)先水平,同時(shí)做到整個(gè)生命周期內(nèi)性能保持不變,用戶(hù)整體TCO降低20%以上。
浪潮在存儲(chǔ)基礎(chǔ)領(lǐng)域不斷下沉研發(fā)創(chuàng)新,將底層硬件關(guān)鍵核心部件技術(shù)與整機(jī)系統(tǒng)技術(shù)進(jìn)行結(jié)合,發(fā)揮閃存的高效、可靠、綠色的優(yōu)勢(shì),結(jié)合客戶(hù)應(yīng)用場(chǎng)景,以技術(shù)創(chuàng)新優(yōu)化產(chǎn)品方案助力關(guān)鍵行業(yè)實(shí)現(xiàn)突破應(yīng)用,全面釋放數(shù)據(jù)價(jià)值,加速數(shù)字化轉(zhuǎn)型。