omniture

浪潮信息攜手中南大學(xué)打造高校智算平臺

2022-01-29 14:30 13398

北京2022年1月29日 /美通社/ -- 中南大學(xué)是教育部直屬全國重點大學(xué)、國家“211工程”首批重點建設(shè)高校、國家“985工程”部省重點共建高水平大學(xué)和國家“2011計劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。學(xué)?!半p一流”建設(shè)對算力的需求與日俱增,需要建設(shè)面向全校師生提供計算服務(wù)的開放性公共平臺,一方面為學(xué)校的基礎(chǔ)研究、前沿科學(xué)技術(shù)研究,以及促進科學(xué)探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進學(xué)校的人才培養(yǎng)以及學(xué)校改革發(fā)展的“四個轉(zhuǎn)型”夯實基礎(chǔ),以期在基礎(chǔ)研究和科技前沿領(lǐng)域有所突破,從而進一步提升學(xué)校整體科研水平。

強強聯(lián)手,打造高密度、低能耗5萬核智算平臺

中南大學(xué)與浪潮信息強強聯(lián)手,打造了高密度、低能耗、易管理的智算平臺,平臺共有上千臺設(shè)備,采用浪潮成熟穩(wěn)定的計算和人工智能服務(wù)器以及浪潮AI微模塊數(shù)據(jù)中心解決方案。在需要多數(shù)據(jù)計算的場景下,CPU會與內(nèi)存進行頻繁通信,浪潮信息NF5180服務(wù)器作為管理節(jié)點、登錄節(jié)點以及計算節(jié)點,在1U緊湊空間內(nèi)搭配兩顆處理器,12根16GB的DDR4內(nèi)存,極大限度地融合了各部件的優(yōu)勢,顯著提高了內(nèi)存帶寬,降低了內(nèi)存延遲,從而為每個CPU提供了訪問本地內(nèi)存資源的快速通道,相比傳統(tǒng)2U服務(wù)器極大提高了部署密度,節(jié)約數(shù)據(jù)中心空間一半以上。

高密度部署的計算集群,空間被極限壓縮,單位空間內(nèi)堆疊更多的存儲和計算單元,高密度的計算和數(shù)據(jù)傳輸伴隨著設(shè)備的散熱問題,如何破解服務(wù)器的大功耗、解決散熱問題成為解決方案需要考慮的重要問題,這既是對產(chǎn)品質(zhì)量的考驗,更是對浪潮信息技術(shù)團隊綜合能力的挑戰(zhàn)。浪潮NF5180導(dǎo)入無孔機箱,在機器堆疊場景下無需按照傳統(tǒng)機架部署的方式預(yù)留散熱空間,從而實現(xiàn)高密度部署需求;在通用計算場景下,單節(jié)點能耗將達到550W-800W,而在高強度高頻次計算的時候,單節(jié)點能耗達可到1000W-1300W,CPU幾乎滿載負荷,所以浪潮NF5180在機器內(nèi)部結(jié)構(gòu)設(shè)計上,采用更具性價比的高密極致EVAC散熱方案,消除散熱不均引起的性能瓶頸問題,優(yōu)化風(fēng)扇轉(zhuǎn)速,實現(xiàn)相同環(huán)境風(fēng)壓風(fēng)流的情況下,散熱能力提高30%;對風(fēng)扇進行調(diào)優(yōu)的同時導(dǎo)入蜂窩狀波導(dǎo)網(wǎng),對風(fēng)扇入風(fēng)處風(fēng)流做整流處理,提高了風(fēng)扇進風(fēng)口的流速并且減少了紊流的產(chǎn)生。浪潮信息工程師團隊通過在浪潮澎湃實驗室的大量仿真模擬實驗發(fā)現(xiàn),加大波導(dǎo)網(wǎng)厚度還可以進一步提高空氣壓力,產(chǎn)生平行穩(wěn)定且強勁的氣流,從而帶來更多的散熱收益,使得機械硬盤的RV性能提升10%,讓硬盤穩(wěn)定性更佳。

除了技術(shù)的創(chuàng)新,NF5180產(chǎn)品的穩(wěn)定性在中南大學(xué)智算平臺也得到了充分驗證,在試運行測試階段,模擬全部斷電的極端場景進行測試,斷電重啟后浪潮信息服務(wù)器設(shè)備全部點亮,沒有一臺出現(xiàn)故障,這完全得益于安全可靠的產(chǎn)品設(shè)計。浪潮NF5180從硬件、系統(tǒng)、固件等多個層面,多方位保障客戶的信息安全和資產(chǎn)安全。通過雙層電源防護設(shè)計,在PDU端及主板端增加保險裝置,防止功率過載時對主板及元器件造成損壞。同時NF5180還導(dǎo)入了AMT技術(shù),開機即對內(nèi)存進行更為細致的自檢,全面保障業(yè)務(wù)系統(tǒng)安全。在結(jié)構(gòu)設(shè)計上,機箱選擇了更好的鋼結(jié)構(gòu)材料,保障機箱不彎、不斷、不碎、不變形。為應(yīng)對嚴(yán)苛環(huán)境如跌落、振動帶來的形變等安全隱患,浪潮研發(fā)工程師在最新服務(wù)器底板上設(shè)計了一條“拱橋”,在不影響出風(fēng)散熱、機器運維的情況下對機箱結(jié)構(gòu)進行優(yōu)化、加固,大幅提升結(jié)構(gòu)強度,新的機箱通過了9級烈度抗震測試。

浪潮信息的服務(wù)器在出廠之前都要經(jīng)過浪潮澎湃實驗室科學(xué)、全面、嚴(yán)苛的測試驗證,浪潮澎湃實驗室下轄氣候環(huán)境、機械環(huán)境、結(jié)構(gòu)散熱、電磁兼容、系統(tǒng)驗證、精密測量、失效分析和數(shù)據(jù)中心共8大實驗室,包括40余項測試大類,共2000余項常規(guī)測試以及30余項極限測試。數(shù)字技術(shù)已全面應(yīng)用于實驗室的各個測試流程,實現(xiàn)了服務(wù)器從設(shè)計、生產(chǎn)到出廠的全流程數(shù)字化、智能化品控測試管理。在過去近30年中,為浪潮信息從中國服務(wù)器市場第一躍升至全球第二提供了重要的品質(zhì)保障。

自動化智能的精確納管,為運維減負 

中南大學(xué)智算平臺架構(gòu)先進、軟硬件完備、功能齊全,并可為用戶提供充沛的算力資源,滿足了學(xué)??蒲腥藛T大量的計算資源需求。但是,大量集中部署對管理和運維人員也提出了前所未有的挑戰(zhàn),傳統(tǒng)運維模式已難以實現(xiàn)對計算服務(wù)器集群算力的精細化管理、調(diào)度和科學(xué)合理分配計算資源,算力應(yīng)用處于黑箱模式,類似于盲人摸象,不清楚、不清晰,無法實現(xiàn)對計算集群快速且精準(zhǔn)的有效運維,也造成了運維人員的沉重負擔(dān)。面對如此窘境,浪潮信息采用ISPIM(Inspur Physical Infrastructure Manager)浪潮信息物理基礎(chǔ)設(shè)施管理平臺作為中南大學(xué)智算平臺的運維管理系統(tǒng),以“1+1+N高可用模式”,在5臺服務(wù)器上部署ISPIM系統(tǒng),主動采集頻率為45min,監(jiān)控指標(biāo)可達150W+,覆蓋智算平臺內(nèi)的所有設(shè)備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。


通過ISPIM提供標(biāo)準(zhǔn)的北向接口與CE(Cluster Engine)計算平臺對接,可獲取到集群計算節(jié)點中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負載等信息及計算節(jié)點狀態(tài),實現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動軟件Teye,可實現(xiàn)對設(shè)備帶內(nèi)性能指標(biāo)的秒級實時采集及歷史信息匯聚。同時ISPIM會基于AI算法,對采集到的所有設(shè)備的能耗、溫度、氣流、CUPS以及機房環(huán)境數(shù)據(jù)進行實時智能分析,推送能耗管理與優(yōu)化建議,通過可視化拓撲呈現(xiàn),3D建模展示數(shù)據(jù)中心內(nèi)機柜位置、功耗、溫度狀態(tài)信息,實現(xiàn)對整個數(shù)據(jù)中心的細粒度管理。

通過部署浪潮信息ISPIM系統(tǒng),中南大學(xué)智算平臺實現(xiàn)了集中自動化管理,大大減輕了運維負擔(dān),另一方面,通過對算力數(shù)據(jù)的精準(zhǔn)獲取、調(diào)度,使得算力的管控集中化、智能化,同時通過對平臺的監(jiān)測,實現(xiàn)能耗可查、可管、可控。運維人員通過ISPIM平臺可隨時隨地監(jiān)控整個平臺的運行狀態(tài),故障報警能夠以秒級的速度精準(zhǔn)定位,保障中南大學(xué)智算平臺的高效有序運轉(zhuǎn),節(jié)約了人力資源,運維效率大幅提升。

隨著整個社會數(shù)字化轉(zhuǎn)型進程的加快,科學(xué)技術(shù)成為第一生產(chǎn)力,算力作為核心動能,不斷為創(chuàng)新發(fā)展提供源動力,中南大學(xué)智算平臺將有效地促進中南大學(xué)科學(xué)研究水平的提升,進一步推動科研成果的不斷產(chǎn)出和拔尖創(chuàng)新人才的培養(yǎng),為學(xué)校的“雙一流”建設(shè)做出貢獻。浪潮信息攜手中南大學(xué)打造高校智算平臺,取得了很好的效果,實現(xiàn)了合作共贏,相互成就。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection