北京2020年9月7日 /美通社/ -- 自計(jì)算機(jī)誕生之日起,科學(xué)和工程對計(jì)算性能的無限追求,一直在不斷沖擊和超越摩爾定律的想象。高性能計(jì)算資源特別是其計(jì)算能力的大小已經(jīng)成為衡量高校科學(xué)技術(shù)研究、產(chǎn)品研發(fā)實(shí)力、人才培養(yǎng)水平和持續(xù)創(chuàng)新能力的重要標(biāo)志。
中南大學(xué)是教育部直屬全國重點(diǎn)大學(xué)、國家“211工程”首批重點(diǎn)建設(shè)高校、國家“985工程”部省重點(diǎn)共建高水平大學(xué)和國家“2011計(jì)劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。
中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)作為一個(gè)硬件先進(jìn)、功能齊全、資源豐富,面向全校師生提供高性能計(jì)算服務(wù)的開放性公共服務(wù)基礎(chǔ)設(shè)施,不僅可以為學(xué)校的科學(xué)研究和工程計(jì)算提供計(jì)算力支撐,而且還參與了中國教育科研網(wǎng)格(ChinaGrid)二期的建設(shè)并成為其重要節(jié)點(diǎn)。
強(qiáng)強(qiáng)聯(lián)手,打造首個(gè)5萬核智算中心平臺(tái)
中南大學(xué)與浪潮強(qiáng)強(qiáng)聯(lián)手,共同打造國內(nèi)高校計(jì)算能力一流的高性能智算平臺(tái)。針對用戶需求和項(xiàng)目特點(diǎn),采用浪潮高密度AI微模塊數(shù)據(jù)中心解決方案,運(yùn)用多項(xiàng)業(yè)內(nèi)新技術(shù),搭建高度智能化高性能智算平臺(tái)。
整個(gè)平臺(tái)擁有1058個(gè)計(jì)算節(jié)點(diǎn),合計(jì)50896個(gè)計(jì)算核心。為滿足多元算力作業(yè)需求,智算中心集群采用CPU、GPU的混合計(jì)算環(huán)境,CPU理論計(jì)算能力可達(dá)4856萬億次,GPU理論計(jì)算能力可達(dá)788萬億次,整個(gè)計(jì)算集群聚合計(jì)算能力達(dá)到五千六百萬億次。
同時(shí)采用浪潮AIstation調(diào)度平臺(tái)對算力進(jìn)行高效調(diào)度,滿足算力資源的細(xì)粒度高效共享,整體資源利用效率可提升至80%;在算力聚合層面,配置100Gb高速IB計(jì)算網(wǎng)絡(luò)對算力集群進(jìn)行高效聚合,保證應(yīng)對大規(guī)模作業(yè)任務(wù)或AI訓(xùn)練模型場景的集群內(nèi)算力的高效聚合。
此外,為確保元數(shù)據(jù)訪問服務(wù)不間斷運(yùn)行,獨(dú)立配置雙熱備高性能I/O服務(wù)器節(jié)點(diǎn),通過成熟的HA軟件配置成高可用模式,任何一臺(tái)服務(wù)器出現(xiàn)故障(網(wǎng)絡(luò)通訊、操作系統(tǒng)、服務(wù)器硬件等)都會(huì)自動(dòng)切換到另一臺(tái)服務(wù)器,確保數(shù)據(jù)訪問服務(wù)不間斷運(yùn)行。
60KW冷量空調(diào),打破制冷瓶頸
通過對中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)建設(shè)場地進(jìn)行了詳細(xì)的實(shí)地勘察,為了最大化提升空間利用率,采用業(yè)內(nèi)技術(shù)領(lǐng)先的60KW高冷量列間空調(diào),相比傳統(tǒng)風(fēng)冷列間空調(diào)節(jié)省了7個(gè)標(biāo)準(zhǔn)IT機(jī)柜,有效提升了計(jì)算節(jié)點(diǎn)機(jī)柜的布置空間,計(jì)算資源相應(yīng)地提升約1.2倍。60KW冷量空調(diào)優(yōu)勢在于,一是冷量更高,約為傳統(tǒng)列間空調(diào)制冷量的1.5倍;二是能耗更低,使智算平臺(tái)PUE值整體降低約10%。
定制化布線系統(tǒng),集約高效
中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)采用了兩套浪潮AI微模塊。由于在進(jìn)行高性能計(jì)算時(shí),存在多個(gè)計(jì)算節(jié)點(diǎn)同時(shí)協(xié)同工作的應(yīng)用場景,要求兩個(gè)微模塊之間實(shí)現(xiàn)高速互聯(lián)。傳統(tǒng)的走線方式需要鋪設(shè)大量的IB(InfiniBand)線纜,增加了數(shù)據(jù)傳輸?shù)难訒r(shí),同時(shí),IB線纜造價(jià)昂貴,經(jīng)費(fèi)投入巨大。為滿足應(yīng)用的整體化需求,浪潮在兩個(gè)微模塊之間采用定制化過線橋架,優(yōu)化了IT機(jī)柜之間的布線。定制化橋架保證了系統(tǒng)整體美觀協(xié)調(diào),相對傳統(tǒng)布線方案減少IB線纜長度約20%,在有效節(jié)約投入的同時(shí),保證了高性能計(jì)算對高速計(jì)算網(wǎng)絡(luò)帶寬的需求。
AI智能監(jiān)控系統(tǒng),智算平臺(tái)的晴雨表
中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)有了可靠的硬件支撐還需要一個(gè)“大腦”對其進(jìn)行監(jiān)控和管理。微模塊監(jiān)控系統(tǒng)采用32寸觸控大屏,可運(yùn)行3D可視化管理系統(tǒng)。3D可視化系統(tǒng)運(yùn)用H5技術(shù),具備監(jiān)視面板、溫度云圖、資產(chǎn)查詢、空間查詢、功率查詢、AI智能巡檢等功能,有效降低了運(yùn)維人員的工作強(qiáng)度。在操作間還部署了機(jī)房運(yùn)維監(jiān)控大屏,通過監(jiān)控大屏和輔助顯示器對主機(jī)房和配電間設(shè)施的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控和顯示。AI智能監(jiān)控系統(tǒng)就像晴雨表,不僅可以實(shí)現(xiàn)數(shù)據(jù)的監(jiān)控,還可以通過日志數(shù)據(jù)的統(tǒng)計(jì)分析,預(yù)測可能發(fā)生的故障,極大地提高了平臺(tái)運(yùn)行的穩(wěn)定性。
系統(tǒng)自動(dòng)投影,運(yùn)行狀態(tài)一目了然
作為國內(nèi)高校計(jì)算能力一流的智算平臺(tái),中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)不僅提供強(qiáng)大的計(jì)算力及專業(yè)技術(shù)服務(wù),還是對外展示風(fēng)采的平臺(tái)。AI微模塊搭載監(jiān)控系統(tǒng)自動(dòng)投影技術(shù),在滑動(dòng)門上通過特殊屏幕呈現(xiàn)出清晰的投影效果,使觀眾仿佛置身于中南大學(xué)智算平臺(tái)之中,通過屏幕上投射的動(dòng)態(tài)影像,觀眾可以全方位感受到智算平臺(tái)所帶來的強(qiáng)烈震撼,一睹高性能計(jì)算公共服務(wù)平臺(tái)的風(fēng)采,彰顯中南大學(xué)的文化魅力,享受一場視覺盛宴。
中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)的建設(shè)與學(xué)?!爸腔壑心稀钡睦砟畈恢\而合。高密度部署、定制化設(shè)計(jì)以及AI智能監(jiān)控系統(tǒng)三大法寶為平臺(tái)的穩(wěn)定、持續(xù)和可靠運(yùn)行提供了強(qiáng)有力的保障。平臺(tái)將于2020年9月底建成并于10月份投入試運(yùn)行,我們相信,智算平臺(tái)的投入使用,必將極大地推動(dòng)中南大學(xué)科學(xué)研究的成果產(chǎn)出并進(jìn)一步促進(jìn)高水平人才的培養(yǎng)。