北京2023年6月27日 /美通社/ -- 2023年6月25日,2023全球人工智能產(chǎn)品應用博覽會在蘇州開幕。浪潮信息智能業(yè)務生產(chǎn)創(chuàng)新平臺AIStation憑借領先的資源調(diào)度與平臺管理能力,有效提升大模型算力平臺使用效率,榮獲智博會核心獎項"產(chǎn)品金獎"。此次獲獎,不僅體現(xiàn)了AIStation在大模型算力與業(yè)務支撐方面的領先性,也體現(xiàn)了產(chǎn)業(yè)對大模型算力平臺效率的高度關注。
當前,以大模型為代表的生成式AI技術正在加速發(fā)展并革新各行業(yè)智能轉型路徑。生成式AI創(chuàng)新需要基于海量數(shù)據(jù)集,在擁有成百上千加速卡的AI服務器集群上對千億級參數(shù)的AI大模型進行分布式訓練。如何發(fā)揮大模型算力平臺效能、抑制性能損耗,以高效完成AI大模型的訓練部署,已成為AIGC時代的新挑戰(zhàn)。
作為專為人工智能開發(fā)和部署提供全流程支持的端到端平臺,AIStation能夠以強大的資源調(diào)度和管理能力助力客戶加速AI大模型開發(fā)與部署,通過對計算資源、數(shù)據(jù)資源、深度學習軟件棧資源進行統(tǒng)一管理,有效提升大模型AI算力集群的使用效率。
一站式管理、毫秒級調(diào)度,集群利用率達70%
大模型訓練需要構建包含計算、網(wǎng)絡、存儲、框架等在內(nèi)的系統(tǒng)性分布式訓練環(huán)境,傳統(tǒng)的分散化管理不僅門檻高、效率低,且缺少針對性優(yōu)化的整體調(diào)度系統(tǒng),導致大模型計算平臺的整體協(xié)同性較差,訓練算力效率低。
針對分布式訓練計算規(guī)模大、系統(tǒng)性強的特點,AIStation實現(xiàn)了異構算力集群的統(tǒng)一池化管理,通過自研分布式任務自適應系統(tǒng)將訓練底層的計算、存儲、網(wǎng)絡環(huán)境自動化配置,并提供自定義修改基本超參數(shù)功能。通過多種資源高效管理和調(diào)度策略,AIStation能實現(xiàn)萬卡集群的毫秒級調(diào)度,提升整體資源利用率到70%以上。
同時,AIStation集成主流的大模型訓練框架,依托容器化技術,能夠?qū)⑦\行環(huán)境、框架適配過程標準化、模塊化,支持秒級構建運行環(huán)境,保障AI開發(fā)和AI業(yè)務的高效運行。
瓶頸優(yōu)化、穩(wěn)健容錯,全流程加速大模型訓練
針對大規(guī)模分布式訓練過程中遇到的算力網(wǎng)絡搭建、數(shù)據(jù)加速、網(wǎng)絡通信優(yōu)化等瓶頸,AIStation通過鏡像分發(fā)加速、數(shù)據(jù)緩存加速、網(wǎng)絡拓撲調(diào)度、資源動態(tài)彈性伸縮等特性,在提高計算資源利用率的同時加速整個訓練過程。其中,AIStation通過數(shù)據(jù)緩存機制可讓模型訓練效率獲得200%-300%的提升,并能夠根據(jù)節(jié)點的數(shù)據(jù)緩存情況自動調(diào)度訓練任務,避免訓練數(shù)據(jù)重復下載,節(jié)省數(shù)據(jù)加載時間,與自研調(diào)度系統(tǒng)配合后,分布式訓練線性加速比能夠高達0.9,有效抑制多節(jié)點協(xié)同的性能損耗。
健壯性與穩(wěn)定性是目前高效完成大模型訓練的強要求。對此,AIStation通過提供全生命周期管理、故障容錯、集群監(jiān)控運維等一體化能力,能夠?qū)崿F(xiàn)訓練異常和故障的全面檢測和自動處理,有效縮短斷點續(xù)訓時間,降低復雜度,以持續(xù)穩(wěn)定的訓練降低大模型訓練成本和周期。
高效調(diào)用,釋放大模型應用價值
針對大模型訓練完成后的應用部署,AIStation實現(xiàn)訓練和推理的全打通,加快模型應用落地。針對大模型實際應用中的調(diào)用突發(fā)性,AIStation可根據(jù)推理服務資源需求的變化及時調(diào)整資源配給,根據(jù)實時業(yè)務的請求量實現(xiàn)秒級服務擴縮容,可支持百萬級高并發(fā)的大模型AI推理服務場景,服務響應平均延遲低于1ms,突發(fā)的訪問高峰的響應效率提升50%。
目前,AIStation已經(jīng)在2457億參數(shù)的"源"大模型訓練實踐中得到有效驗證,支撐 "源"大模型的訓練算力效率達44.8%,高于GPT-3的21.3%。同時,某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領先的大規(guī)模分布式訓練支撐能力,榮獲2022IDC"未來數(shù)字基礎架構領軍者"獎項。未來, AIStation平臺將持續(xù)為各行業(yè)的大模型開發(fā)與部署提供高效的算力平臺管理能力,加速AIGC技術迭代革新。