KubeCon熱點報告：AIStation調度平臺實現(xiàn)RoCE網(wǎng)絡下大模型的高效穩(wěn)定訓練

浪潮信息

2023-10-16 15:31 3882

北京2023年10月16日 /美通社/ -- 近日，在KubeCon + CloudNativeCon + Open Source Summit China 2023大會（簡稱"開源技術峰會"）上，浪潮信息分享了"基于Kubernetes+RoCEv2構建大規(guī)模AI基礎設施與大模型訓練實踐"主題報告，介紹了浪潮信息在大模型開發(fā)過程中，尤其在大規(guī)模RoCE網(wǎng)絡的使用場景，如何通過AIStation人工智能算力調度平臺滿足大模型訓練的穩(wěn)定性和效率要求，實現(xiàn)高效長時間持續(xù)訓練。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金會、云原生計算基金會（CNCF）主辦的開源和云原生領域的旗艦盛會，在業(yè)界享有極高的聲譽，來自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術專家及行業(yè)領袖齊聚本屆大會，帶來最前沿的云原生相關技術成果和技術洞察。

大模型訓練遇RoCE網(wǎng)絡性能低、斷點難題

大模型是當前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術。但大模型訓練過程非常復雜，面臨諸多挑戰(zhàn)。

一方面，大模型訓練對通信的要求非常高。為了獲得最優(yōu)的訓練效果，單臺GPU服務器會搭載多張InfiniBand、ROCE等高性能網(wǎng)卡，為節(jié)點間通信提供高吞吐、低時延的服務。但不同的網(wǎng)絡方案各有優(yōu)劣，InfiniBand因性能優(yōu)異已被公認為大模型訓練的首選，但其成本較高；RoCE雖然成本較低，但在大規(guī)模的網(wǎng)絡環(huán)境下，其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓練對通信的要求，就要對集群網(wǎng)絡中的通信設備適配使用和網(wǎng)絡情況進行探索和設計。

另一方面，大模型訓練周期通常長達數(shù)月，集群計算效力低、故障頻發(fā)且處理復雜，會導致訓練中斷后不能及時恢復，從而降低大模型訓練的成功率，也會使得訓練成本居高不下。Meta在訓練Open Pre-trained Transformer (OPT)-175B大模型時，遇到的一大工程問題就是訓練不穩(wěn)定，Meta訓練日志顯示兩個星期內因硬件、基礎設施或實驗穩(wěn)定性問題重新啟動了40多次。

AIStation實現(xiàn)RoCE網(wǎng)絡下大模型高效穩(wěn)定訓練

針對大模型研發(fā)和應用各環(huán)節(jié)的諸多挑戰(zhàn)，浪潮信息發(fā)布了大模型智算軟件棧OGAI（Open GenAI Infra）——"元腦生智"，為大模型業(yè)務提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構組成，其中L2層AIStation針對大模型訓練中常見的"RoCE網(wǎng)絡性能和穩(wěn)定性低"、"訓練中斷"難題，提供了性能和兼容性俱佳的網(wǎng)絡方案和斷點續(xù)訓能力，為大模型訓練保駕護航。

1. 優(yōu)化RoCE網(wǎng)絡下的大模型訓練，提升網(wǎng)絡性能和穩(wěn)定性

AIStation能夠制定合理的作業(yè)執(zhí)行計劃，以最大限度地利用資源，滿足訓練任務的時延和吞吐需求。AIStation優(yōu)化調度系統(tǒng)性能，實現(xiàn)了上千POD極速啟動和環(huán)境就緒。尤其AIStation對大規(guī)模RoCE無損網(wǎng)絡下的大模型訓練也做了相應優(yōu)化，實測網(wǎng)絡性能穩(wěn)定性達到了業(yè)界較高水平。

AIStation通過PFC+ECN構建無損以太網(wǎng)絡，在交換機側控制方面，PFC在數(shù)據(jù)鏈路層基于報文-隊列優(yōu)先級，在交換機入口側進行擁塞控制，ECN在網(wǎng)絡層基于數(shù)據(jù)包頭中的標識位，在交換機出口側進行擁塞控制。主機容器側控制則為Kubernetes的Pod，基于Linux、OFED驅動進行擁塞控制。該方案資源使用靈活，且經(jīng)過多輪次的GPU分配與回收，解決了GPU分布的碎片化問題。

基于PFC+ECN構建無損以太網(wǎng)絡

在大模型訓練場景，AIStation通過Calico構建元數(shù)據(jù)交換網(wǎng)絡，基于物理RoCE網(wǎng)卡構建RDMA通訊網(wǎng)絡，并通過CNI和虛擬化插件實現(xiàn)IP分配，使POD內大模型訓練任務能夠充分利用NCCL的PXN等通信優(yōu)化特性，實現(xiàn)網(wǎng)絡的高效使用。

借助AIStation平臺，某大型商業(yè)銀行完成了主流大模型訓練框架，如DeepSpeed、Megatron-LM和大語言模型在RoCE網(wǎng)絡環(huán)境下的訓練，快速實現(xiàn)大模型的落地實踐。

2. 內置監(jiān)控系統(tǒng)和智能運維模塊，保障大模型穩(wěn)定訓練

健壯性與穩(wěn)定性是高效完成大模型訓練的必要條件。利用AIStation內置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運維模塊，可以快速定位芯片、網(wǎng)卡、通訊設備異?；蚬收?。同時對訓練任務進行暫停保持，再從熱備算力中進行自動彈性替換異常節(jié)點，最后利用健康節(jié)點進行快速checkpoint讀取，實現(xiàn)大模型斷點自動續(xù)訓。

大規(guī)模預訓練任務的異常處理和斷點續(xù)訓流程

3. 自動配置環(huán)境，快速構建大模型訓練任務

AIStation實現(xiàn)了計算、存儲、網(wǎng)絡等訓練環(huán)境的自動化配置，同時允許用戶自定義基本的超參數(shù)，只需簡單幾步，就能啟動大模型分布式訓練。并且，AIStation還集成了主流的大模型訓練框架，包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案，實現(xiàn)了秒級構建運行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務。調度系統(tǒng)根據(jù)分布式任務對GPU算力的需求，通過多種親和性調度策略，大大降低構建分布式訓練任務的技術門檻。

AIStation平臺在AI開發(fā)、應用部署和大模型工程實踐上積累了寶貴的經(jīng)驗和技術，幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現(xiàn)降本增效。在垂直行業(yè)領域，AIStation平臺幫助頭部金融客戶、生物制藥服務公司快速利用密集數(shù)據(jù)訓練、驗證大模型，大大降低大模型業(yè)務成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群，憑借領先的大規(guī)模分布式訓練支撐能力，榮獲2022 IDC"未來數(shù)字基礎架構領軍者"獎項。

浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領先的經(jīng)驗和積累，實現(xiàn)了端到端的優(yōu)化，是更適合大模型時代的AI算力調度平臺。未來AIStation進一步通過低代碼、標準化的大模型開發(fā)流程，以及低成本和高效的推理服務部署，幫助客戶快速實現(xiàn)大模型開發(fā)和落地，加速生成式AI發(fā)展。

消息來源：浪潮信息