omniture

為大模型專門優(yōu)化 浪潮信息發(fā)布分布式全閃存儲AS13000G7-N系列

2024-05-10 15:21 4018

北京2024年5月10日 /美通社/ -- 近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統(tǒng),搭載新一代數(shù)據(jù)加速引擎DataTurbo,通過盤控協(xié)同、GPU直訪存儲、全局一致性緩存等技術為AI大模型數(shù)據(jù)歸集、訓練、數(shù)據(jù)歸檔與管理等階段提供強大存儲支撐能力,助力用戶加速大模型系統(tǒng)的創(chuàng)新及應用落地。


化解大模型時代的存儲挑戰(zhàn) 構建堅實的數(shù)據(jù)存儲底座

大模型已經(jīng)成為驅(qū)動數(shù)字經(jīng)濟深度創(chuàng)新、引領企業(yè)業(yè)務變革、加速形成新質(zhì)生產(chǎn)力的重要動能,隨著大模型參數(shù)量和數(shù)據(jù)量的極速膨脹,多源異構數(shù)據(jù)的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一,用戶亟需構建更加高效的存儲底座。在數(shù)據(jù)準備階段,在規(guī)模大、來源廣泛、格式多樣的原始數(shù)據(jù)中,篩選和清洗出利用于訓練的高質(zhì)量數(shù)據(jù)常會耗費大量時間;在模型訓練階段,海量小文件數(shù)據(jù)加載、Checkpoint數(shù)據(jù)調(diào)用對IO處理效率提出嚴苛要求;模型訓練之后,多個數(shù)據(jù)資源池無法互通、海量冷數(shù)據(jù)歸檔帶來較高的數(shù)據(jù)管理復雜度。

作為率先在業(yè)界提出分布式融合存儲的廠商,浪潮信息聚焦行業(yè)客戶的大模型落地需求與核心痛點,基于NVMe SSD研發(fā)出高效適配和優(yōu)化的分布式全閃存儲AS13000G7-N系列。硬件方面,AS13000G7-N是一款2U24盤位的全閃存儲機型,搭載英特爾®至強®第四、第五代可擴展處理器,支持400 Gb 網(wǎng)卡,同時每盤位可配置15.36TB 大容量NVMe SSD。軟件方面,通過集群控制服務將N個節(jié)點聯(lián)成一套具有高擴展性的文件系統(tǒng);通過分布式元數(shù)據(jù)服務提升海量小文件讀寫性能;通過數(shù)控分離架構,實現(xiàn)東西向網(wǎng)絡優(yōu)化,降低IO訪問時延,提升單節(jié)點帶寬。在軟硬件協(xié)同創(chuàng)新下,AS13000G7-N充分滿足大模型應用在存儲性能和存儲容量方面的嚴苛需求。

具體來說,在數(shù)據(jù)準備階段,通過多協(xié)議融合互通技術,面對多份、多種協(xié)議的數(shù)據(jù),存儲底層僅保留一份數(shù)據(jù),實現(xiàn)數(shù)據(jù)共享免搬遷;在模型訓練階段,通過大小IO智能識別和緩存預讀技術快速保存和恢復checkpoint(檢查點)文件,實現(xiàn)TB級訓練數(shù)據(jù)Checkpoint讀取耗時從10分鐘縮短至10秒內(nèi),大幅提升訓練過程中數(shù)據(jù)加載速度;RDMA/RoCE網(wǎng)絡連接技術和數(shù)控分離架構的設計,實現(xiàn)東西向數(shù)據(jù)免轉(zhuǎn)發(fā),極限發(fā)揮大模型訓練中硬件網(wǎng)絡帶寬性能;基于盤控協(xié)同架構,網(wǎng)絡數(shù)據(jù)直通NVMe SSD,進一步提升單盤帶寬;在數(shù)據(jù)歸檔與管理階段,AS13000G7-N提供了多元異構存儲的統(tǒng)一納管能力,保障數(shù)據(jù)資產(chǎn)高效存儲與管理,大幅提升存儲資源的利用率且最大化數(shù)據(jù)基礎設施投資回報比。


DataTurbo數(shù)據(jù)加速引擎,全力保障大模型高效訓練

在大模型的數(shù)據(jù)應用全流程中,要想使訓練效率達到極致,減少不必要的資源浪費,訓練階段的數(shù)據(jù)讀寫性能成為重中之重。而想要提升算力利用率、降低模型訓練成本,必須要在數(shù)據(jù)存儲性能上進行創(chuàng)新。

AS13000G7-N系列具備強大的端到端性能優(yōu)化能力,這也是模型訓練階段最為核心的考量因素。浪潮信息基于計算和存儲協(xié)同的理念,依托自研分布式文件系統(tǒng)構建了新一代數(shù)據(jù)加速引擎DataTurbo,在緩存優(yōu)化、空間均衡、縮短GPU與存儲讀取路徑等方面進行了全面升級。"

  • 智能緩存優(yōu)化,保障大模型訓練速度與質(zhì)量

AS13000G7-N能夠通過對大小IO的智能識別,進行分類治理,小文件采取聚合的操作,大文件采取切片的操作,所有數(shù)據(jù)以大小均衡的模式保存到全局緩存中,實現(xiàn)小文件性能提升5倍,大文件性能提升10倍。在模型訓練中斷后,從Checkpoint恢復數(shù)據(jù)過程中,AS13000G7-N通過緩存預讀技術,提前識別數(shù)據(jù)的冷熱程度,加速了重復樣本數(shù)據(jù)的讀取,訓練加載速度提升10倍。無論是讀操作還是寫操作,AS13000G7-N采取了字節(jié)級(Byte)分布式鎖機制,粒度是主流并行文件系統(tǒng)鎖機制粒度的幾十分之一,確保多個節(jié)點訪問共享資源時能夠安全、有序地進行操作,從而保持訓練數(shù)據(jù)的強一致性和訓練質(zhì)量。

  • 智能空間均衡,高水位下性能無衰減

AS13000G7-N搭載了浪潮信息自主研發(fā)的分布式并行客戶端技術,相比通用私有客戶端,卸載了獨立的元數(shù)據(jù),實現(xiàn)了元數(shù)據(jù)和數(shù)據(jù)節(jié)點的高效統(tǒng)一部署,有效提升存儲的并發(fā)能力,充分利用訓練節(jié)點網(wǎng)卡的帶寬,讓GPU算力得到完全釋放。同時在存儲端,相較于業(yè)界主流的文件系統(tǒng)需要在磁盤之上構筑一層文件協(xié)議,AS13000G7-N能夠直接對裸盤的空間進行均衡排布,并在管理層面設計了智能空間預分技術,能夠結合用戶前端算力節(jié)點數(shù)量、訓練模型的數(shù)量,對存儲空間分配進一步進行智能策略預埋。這套組合拳能夠使AS13000G7-N在空間利用率達到95%高水位時,依然可以平穩(wěn)輸出強大的性能。在模型訓練的空間損耗上,AS13000G7-N相較傳統(tǒng)方案,將損耗率降低了85%左右,充分保護了客戶在大模型存儲上的投資。

  • GPU直通存儲,服務萬億參數(shù)大模型

當大模型參數(shù)在百億級別,GPU對存儲資源的調(diào)用效率往往差別不大。但隨著大模型從單模態(tài)走向多模態(tài),數(shù)據(jù)量指數(shù)型增長,訓練效率隨之要求更高。從數(shù)據(jù)層面來看,AS13000G7-N具備和GPU直通的能力,數(shù)據(jù)流不經(jīng)過客戶端緩存,直接到達存儲底層文件系統(tǒng),縮短GPU與存儲的讀取路徑,這項技術能夠使存儲讀寫帶寬翻倍,大模型訓練加載時間縮短50%。隨著萬卡萬億參數(shù)模型時代的到來,GPU直通存儲高效提升數(shù)據(jù)讀寫訪問的能力將是大模型訓練的標配。

通過上述技術創(chuàng)新,分布式全閃存儲AS13000G7-N憑借領先的性能和管理優(yōu)勢,能夠幫助用戶加速大模型的數(shù)據(jù)歸集、提升模型訓練效率、簡化海量異構數(shù)據(jù)的管理,從而推動業(yè)務智能化變革。浪潮信息將借助AS13000G7-N等存儲產(chǎn)品,與合作伙伴加快在場景化方案定制、市場拓展等方面的創(chuàng)新,助力用戶構筑人工智能時代最佳數(shù)據(jù)存儲底座。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection