MLPerf全球AI基準(zhǔn)測試發(fā)榜，浪潮AI服務(wù)器斬獲半數(shù)冠軍

浪潮

2021-07-01 21:22 5557

美國東部時間6月30日，國際權(quán)威AI基準(zhǔn)測試MLPerf公布2021年最新榜單，在固定任務(wù)(Closed)賽道的全部8項(xiàng)模型訓(xùn)練任務(wù)中，浪潮獲得4項(xiàng)性能第一，斬獲半數(shù)冠軍。

北京2021年7月1日 /美通社/ -- 美國東部時間6月30日，國際權(quán)威AI基準(zhǔn)測試MLPerf?公布2021年最新榜單，在固定任務(wù)(Closed)賽道的全部8項(xiàng)模型訓(xùn)練任務(wù)中，浪潮獲得4項(xiàng)性能第一，斬獲半數(shù)冠軍。

MLPerf?由圖靈獎得主大衛(wèi)·帕特森(David?Patterson)聯(lián)合谷歌、斯坦福、哈佛大學(xué)等知名學(xué)術(shù)機(jī)構(gòu)發(fā)起成立，是影響力最廣的國際AI性能基準(zhǔn)評測。此次性能評測基于最新MLPerf? Training V1.0基準(zhǔn)，涵蓋了圖像分類(ResNet)、醫(yī)學(xué)影像分割(U-Net3D)、目標(biāo)物體檢測(SSD)、目標(biāo)物體檢測(Mask R-CNN)、語音識別(RNN-T)、自然語言理解(BERT)、智能推薦(DLRM)以及強(qiáng)化機(jī)器學(xué)習(xí)(Minigo)8類AI應(yīng)用場景，每類場景都包含固定任務(wù)(Closed)和開放優(yōu)化(Open)兩類性能競賽。

除浪潮外，Google、NVIDIA、Intel、DELL等12家廠商也參與了此次MLPerf?訓(xùn)練基準(zhǔn)測試，競爭十分激烈。最終，浪潮在固定任務(wù)(Closed)賽道的全部8項(xiàng)任務(wù)中，獲得圖像分類ResNet、自然語言理解BERT、目標(biāo)檢測SSD和智能推薦DLRM4項(xiàng)訓(xùn)練任務(wù)性能冠軍，其中，浪潮NF5688M6獲得ResNet、DLRM和SSD的單機(jī)訓(xùn)練性能第一，NF5488A5獲得BERT的單機(jī)訓(xùn)練性能桂冠。

憑借卓異的軟硬件系統(tǒng)優(yōu)化能力，浪潮將MLPerf?訓(xùn)練基準(zhǔn)的單機(jī)效率進(jìn)一步提升至新的高度。相比2020年MLPerf? Training v0.7榜單，浪潮刷新了圖像分類、自然語言理解、目標(biāo)檢測(SSD)和智能推薦4項(xiàng)任務(wù)的單機(jī)訓(xùn)練性能紀(jì)錄，將模型訓(xùn)練耗時分別縮短了17.95%、56.85%、18.61%和42.64%，凸顯出優(yōu)質(zhì)AI服務(wù)器在AI模型訓(xùn)練效率上的巨大價值。

浪潮在MLPerf?基準(zhǔn)評測中的出色表現(xiàn)，得益于在AI計(jì)算系統(tǒng)創(chuàng)新上卓越的系統(tǒng)設(shè)計(jì)能力和全棧優(yōu)化能力。在硬件層面，針對AI訓(xùn)練中常見的密集IO傳輸瓶頸，浪潮PCIe Retimer Free設(shè)計(jì)實(shí)現(xiàn)了CPU-GPU間通道免中繼高速互聯(lián)，大幅降低通信延遲，極大提升了AI訓(xùn)練效率；同時，針對高負(fù)載多GPU協(xié)同任務(wù)調(diào)度，對NUMA節(jié)點(diǎn)與GPU之間的數(shù)據(jù)傳輸進(jìn)行全面優(yōu)化和深度調(diào)校，確保訓(xùn)練任務(wù)中的數(shù)據(jù)IO無阻塞；此外，在散熱層面，針對目前業(yè)界功率最高的500W 80GB A100 GPU，浪潮率先開發(fā)的先進(jìn)片上液冷系統(tǒng)，確保GPU在全功率甚至超頻負(fù)載下依然穩(wěn)定工作，將AI計(jì)算系統(tǒng)的性能發(fā)揮到極致。

在不斷斬獲MLPerf?冠軍的同時，浪潮也把競賽過程中探索出的高效優(yōu)化方法回饋至MLPerf社區(qū)，推動AI技術(shù)的共同進(jìn)步。在MLPerf? Training v0.7中，浪潮開創(chuàng)性提出效率更高的ResNet收斂性優(yōu)化方案：在ImageNet數(shù)據(jù)集上，僅使用85%的迭代步數(shù)就達(dá)到了75.9%的目標(biāo)精度，該優(yōu)化方案將訓(xùn)練性能提升了15%。目前，該方案已被社區(qū)成員采納，并廣泛應(yīng)用到MLPerf? Training V1.0測試中，這也是此次ResNet任務(wù)成績得以大幅提升的重要原因。

自2020年至今，浪潮參與了MLPerf? training v0.7, Inference v0.7, Inference v1.0, training v1.0四次競賽。已經(jīng)累計(jì)斬獲41項(xiàng)冠軍。

浪潮是全球領(lǐng)先的AI計(jì)算廠商，AI服務(wù)器市場份額全球第一，在中國的市場份額已連續(xù)四年保持在50%以上。浪潮致力于AI計(jì)算平臺、資源平臺和算法平臺的研發(fā)創(chuàng)新，并通過元腦生態(tài)與AI領(lǐng)先企業(yè)共同推進(jìn)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化進(jìn)程。

消息來源：浪潮