omniture

第六期開放計算技術(shù)沙龍成功舉行 產(chǎn)學研用共話網(wǎng)絡技術(shù)研究與實踐

2022-07-01 16:02 5768

北京2022年7月1日 /美通社/ -- 隨著數(shù)字經(jīng)濟的蓬勃發(fā)展和"東數(shù)西算"工程全面啟動,算力已成為新的生產(chǎn)力。計算場景的多元化、泛在化需要更高效的連接,云計算和一體化大數(shù)據(jù)中心的新型算力網(wǎng)絡體系將逐步構(gòu)建。網(wǎng)絡技術(shù)通過硬件重構(gòu)、開源開放,進入了發(fā)展的快車道,高性能網(wǎng)絡為廣域互聯(lián)、高效通信、數(shù)據(jù)共享、協(xié)同計算提供了堅實的支撐,有效推動了云計算、邊緣計算等網(wǎng)絡應用的發(fā)展,也助力了高性能和人工智能的蓬勃發(fā)展。

6月23日,由高效能服務器和存儲技術(shù)國家重點實驗室和開放計算中國社區(qū)聯(lián)合主辦的"網(wǎng)絡技術(shù)的研究與實踐"第六期開放計算技術(shù)沙龍在線上成功舉行,會議由高效能服務器和存儲技術(shù)國家重點實驗室首席研究員葉毓睿主持,匯集來自清華大學、華中科技大學、阿里云、電子云、浪潮網(wǎng)絡、NVIDIA、矩向科技等產(chǎn)學研用領域相關(guān)專家教授,圍繞高性能網(wǎng)絡互聯(lián)、智能網(wǎng)卡和DPU、開放網(wǎng)絡等話題,共同探討網(wǎng)絡技術(shù)的現(xiàn)狀與趨勢。

首先,主持人葉毓睿研究員在開場分享了高效能服務器和存儲技術(shù)國家重點實驗室最近的一些思考和觀點。他表示,如果說軟件定義的方向是一切皆服務,那么硬件重構(gòu)的方向則是一切皆計算機(XaaC,anything as a Computer或everything as a Computer)。在IT基礎設施領域內(nèi),不只是宏觀(超大規(guī)模,如數(shù)據(jù)中心級別)、中觀(機柜級別、服務器級別),還有微觀(組件級和設備級別),都有類似的趨勢,例如網(wǎng)卡即計算機:智能網(wǎng)卡SmartNIC/DPU。硬件重構(gòu)的方向是一切皆計算機,這個趨勢不僅適用于IT基礎架構(gòu),還適用于智能制造領域,如葉片即計算機,GE有個風電部門,把傳感器安裝在每一個風機葉片上,通過對轉(zhuǎn)速、風力、溫度、環(huán)境等近百種數(shù)據(jù)的采集、分析,風機能自己調(diào)整渦輪葉片轉(zhuǎn)速;此外還有吊艙即計算機、攝像頭即計算機、手套或眼鏡即計算機等等。

在主題演講環(huán)節(jié),清華大學教授、博士生導師向東分享了"高性能高階網(wǎng)絡互連架構(gòu)及通訊協(xié)議"。在高階網(wǎng)絡架構(gòu)中,他介紹到Dragonfly(蜻蜓網(wǎng)絡)是一個二級全連接網(wǎng)絡,現(xiàn)有的網(wǎng)絡設計成本主要取決于機柜間的全局光纖數(shù)目,減少光纖數(shù)目及交換機端口數(shù)目是降低設計成本的核心要素,蜻蜓網(wǎng)絡能夠?qū)?shù)據(jù)包傳輸路徑的全局光纖數(shù)目降低為1,其網(wǎng)絡設計成本遠低于3-D Torus及胖樹等其他網(wǎng)絡架構(gòu),不僅適合于搭建超級計算機,同時也適用于數(shù)據(jù)中心。Dragonfly可以容忍連線故障、節(jié)點故障等動態(tài)故障,避免無目的的misrouting路由。相比國際上流行的互連技術(shù),Dragonfly轉(zhuǎn)發(fā)路由不需要虛擬通道(傳統(tǒng)的方法需要3~4個VCs,也即虛擬通道),可以實現(xiàn)無縫路由,能夠做成體系的硬件容錯設計。向東教授同時介紹了dragonfly+,slingshot,及CLHR網(wǎng)絡,其中dragonfly+網(wǎng)絡類似于胖樹,并在報告中給出了這些網(wǎng)絡類似便捷高效的互連及通訊解決方案。

華中科技大學教授、博士生導師劉方明就"國家重點研發(fā)計劃驅(qū)動的數(shù)據(jù)中心網(wǎng)絡開源實踐" 進行主題分享。他帶領團隊與浪潮信息合作歷時四年,完成了科技部"云計算與大數(shù)據(jù)"專項中的研發(fā)計劃項目 -- 高效能云計算數(shù)據(jù)中心關(guān)鍵技術(shù)與裝備,其中研發(fā)了一系列有代表性的數(shù)據(jù)中心網(wǎng)絡開源系統(tǒng),涉及數(shù)據(jù)中心內(nèi)的資源調(diào)度,例如網(wǎng)絡功能虛擬化中間件PostMan,能夠快速緩解突發(fā)流量場景的小數(shù)據(jù)包請求洪峰負載,以及利用CPU-FPGA協(xié)同和軟硬結(jié)合的方法加速網(wǎng)絡數(shù)據(jù)處理的DHL框架,均入選了木蘭協(xié)議的全國首批自主開源項目;在跨域多數(shù)據(jù)中心間的資源調(diào)度方面,貢獻了OpenStack開源社區(qū)多數(shù)據(jù)中心級聯(lián)方案Tricircle的多個關(guān)鍵技術(shù),包含跨數(shù)據(jù)中心三層網(wǎng)絡拓撲設計、跨數(shù)據(jù)中心分布式負載均衡服務、跨數(shù)據(jù)中心資源調(diào)度管理等。相關(guān)成果通過研發(fā)計劃項目集成應用于浪潮云海OS。

浪潮網(wǎng)絡總經(jīng)理孫波發(fā)表了"云邊端協(xié)同下的算網(wǎng)融合新趨勢"主題演講,他指出,云邊端協(xié)同的智慧聯(lián)接將成為算網(wǎng)融合新趨勢。數(shù)字化轉(zhuǎn)型的深入推進對網(wǎng)絡基礎設施提出新要求和新挑戰(zhàn),需要一個彈性擴展、高效連接、智慧運維的全新網(wǎng)絡加以支撐。浪潮網(wǎng)絡智慧聯(lián)接架構(gòu),在云中心側(cè)以領先的開放網(wǎng)絡平臺為核心,打造高性能、低成本、彈性可擴展的解決方案,使新業(yè)務上線時間縮短20%,提升排障效率30%,實現(xiàn)秒級網(wǎng)絡業(yè)務調(diào)整,滿足云業(yè)務彈性、敏捷擴展的需求。邊緣側(cè)通過新一代邊緣網(wǎng)絡平臺,融合傳統(tǒng)有線、無線網(wǎng)絡,以及Zigbee、LoRa等終端網(wǎng)絡,打造低延遲、實時可靠的邊緣網(wǎng)絡,實現(xiàn)網(wǎng)絡的智能可視化調(diào)度,將網(wǎng)絡傳輸力提升27%、算力利用率提升30%,目前已在政府、教育、醫(yī)療、制造等諸多行業(yè)得到廣泛部署和應用。

其中,針對云中心網(wǎng)絡解決方案,浪潮網(wǎng)絡架構(gòu)師、研發(fā)部系統(tǒng)處經(jīng)理吳迅亮分享了 "SONiC在開放網(wǎng)絡中的應用與實踐"。他表示,開放網(wǎng)絡可以加速整個網(wǎng)絡的應用創(chuàng)新,相比于傳統(tǒng)網(wǎng)絡交換機,開放網(wǎng)絡交換機是軟硬件解耦、系統(tǒng)開放、應用可定制、統(tǒng)一的軟件系統(tǒng)。關(guān)于開放網(wǎng)絡交換機是否會替代傳統(tǒng)網(wǎng)絡交換機,他認為"這是一個過程,二者會長期共存"。SONiC是基于Debian Linux 基礎系統(tǒng)和SAI配合,屏蔽芯片差異的開源網(wǎng)絡軟件集合,可以提供豐富的L2/L3網(wǎng)絡特性,利用容器、數(shù)據(jù)庫等將網(wǎng)絡應用之間的關(guān)聯(lián)解耦。同時,SONiC又是一個開放的網(wǎng)絡生態(tài),從芯片廠商到最終用戶,都深度參與了SONiC的開發(fā)、測試和部署。SONiC的源碼是開放的,許多廠商都在SONiC上進行特色功能的定制。Inspur NOS就是浪潮基于開源SONiC研發(fā)的網(wǎng)絡操作系統(tǒng),在易用性、安全性、功能性、穩(wěn)定性方面都得到了增強。

在數(shù)據(jù)中心和云市場,對于業(yè)務來進行性能隔離是困擾網(wǎng)絡界和計算界很久的問題,現(xiàn)在我們已經(jīng)實現(xiàn)了租戶之間的安全隔離,租戶業(yè)務和業(yè)務之間的隔離,但是當很多的租戶在同時運行多個應用時,卻無法實現(xiàn)應用之間的性能隔離。NVIDIA網(wǎng)絡高級總監(jiān)宋慶春進行了"云原生超級計算架構(gòu)率先破解性能隔離難題"的主題分享,他表示在基于云原生超級計算架構(gòu)的計算平臺,網(wǎng)絡、存儲均成為計算單元,實現(xiàn)了在一個數(shù)據(jù)中心里,數(shù)據(jù)在哪里,計算就在哪里,如此也就實現(xiàn)了在一個統(tǒng)一的架構(gòu)下面,無論是像AI訓練這樣的大規(guī)模應用,還是非常小的一些基于VM就可以實現(xiàn)的應用,我們都可以使其性能達到最大化。云原生超級計算架構(gòu)實現(xiàn)了計算和通信平臺的統(tǒng)一,利用網(wǎng)絡計算技術(shù)解決了傳統(tǒng)通信方式帶來的網(wǎng)絡擁塞及大量CPU資源消耗的問題,還解決了困擾業(yè)界數(shù)十年的多租戶應用的性能隔離難題,多個交換機網(wǎng)絡計算單元并行計算,實現(xiàn)多任務高性能可擴展。

關(guān)于智能網(wǎng)卡,電子云研發(fā)副總裁劉年超分享了"SmartNIC/DPU在云原生環(huán)境中應用的實踐和思考"。他指出,SmartNIC、DPU、IPU抑或是新推出的CIPU,雖然在命名方式方面缺乏統(tǒng)一的標準,但從以CPU為中心的體系架構(gòu)向以數(shù)據(jù)為中心的體系架構(gòu)轉(zhuǎn)變是大勢所趨。新一代 DPU/IPU 設備的共同特點是它們采用易于編程的多核CPU、先進的網(wǎng)絡接口以及一組強大的網(wǎng)絡、存儲和安全加速器,可以進行編程以執(zhí)行多個軟件定義的硬件加速功能。DPU能夠解決不同廠家網(wǎng)卡采用不同驅(qū)動的痛點,統(tǒng)一網(wǎng)卡和存儲驅(qū)動,共享存儲和網(wǎng)絡資源池,并可以真正實現(xiàn)裸金屬、虛擬機和容器統(tǒng)一的運維和管理,并從規(guī)模效應、運營模式、應用場景、成本分析、性能要求、人才儲備六大方面探討了SmartNIC/DPU在公有云和私有云場景差異性,給SmartNIC/DPU Startup團隊根據(jù)自身的情況找準切入點提供一些思考的方向。

在最后有關(guān)SmartNIC/DPU的圓桌討論環(huán)節(jié),阿里云神龍計算平臺負責人蔣林泉、矩向科技創(chuàng)始人黃朝波、電子云研發(fā)副總裁劉年超、NVIDIA網(wǎng)絡高級總監(jiān)宋慶春等嘉賓,共同就SmartNIC和DPU的區(qū)別與聯(lián)系、DPU落地所面臨的挑戰(zhàn)與機遇等議題進行了熱烈探討與交流,并和聽眾進行了深入的互動問答。

黃朝波指出,從智能網(wǎng)卡到DPU,是一個持續(xù)演進的過程。并且演進還在繼續(xù),隨著Chiplet等技術(shù)的成熟,在邊緣和企業(yè)云等規(guī)模更大的、輕量一些的場景,CPU、GPU和DPU會融合成一顆芯片,我們把它稱為超異構(gòu)處理器HPU。

蔣林泉在介紹阿里云最新發(fā)布的CIPU時表示,從云業(yè)務出發(fā)還是從芯片供應商出發(fā),對是否能在云領域規(guī)模落地區(qū)別較大,云操作系統(tǒng)和規(guī)模業(yè)務垂直迭代驅(qū)動落地,才有可能在云這個領域發(fā)揮最大競爭力。阿里云CIPU的創(chuàng)新,歷經(jīng)5年的迭代,事實上成為了云數(shù)據(jù)中心的中軸,也成為阿里云云計算服務在性能、穩(wěn)定性和效率上的核心引擎,這也是為何我們以Cloud Infrastructure Processing Unit命名它的關(guān)鍵原因。

劉年超指出,SmartNIC/DPU未來發(fā)展方向是存算網(wǎng)融合趨勢,在IDC中計算端,網(wǎng)絡互聯(lián)端,存儲端都有很好的應用場景。由于公有云可通過規(guī)模效應來攤平高昂的人力及硬件成本,從云上層應用到底層系統(tǒng)硬件芯片驅(qū)動做到垂直打通的專一場景,以及服務型交付模式,可以成功將DPU在公有云場景商用落地,但這些高門檻的條件在專屬云場景難以具備,所以目前DPU 初創(chuàng)公司在公有云計算端虛擬化商用落地場景未必成立,但在數(shù)據(jù)中心存儲端和邊緣計算網(wǎng)絡互聯(lián)端也許是很好的切入點。

宋慶春表示,在算力時代,數(shù)據(jù)中心成為了計算單元,計算、通信和存儲作為計算單元性能的保障,在數(shù)據(jù)移動的過程中完成計算,是實現(xiàn)業(yè)務性能最大化的關(guān)鍵。其中網(wǎng)絡計算作為計算和存儲的橋梁,將發(fā)揮更重要的作用。擺脫傳統(tǒng)的計算、通信和存儲的概念,在新的架構(gòu)下重新定位三者之間的操作,勢在必行。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection