omniture

OCP中國社區(qū)葉毓睿:規(guī)模決定方向,領域決定特性

2022-09-13 15:14 4664

北京2022年9月13日 /美通社/ -- 隨著數(shù)據(jù)的爆炸式增長和算力需求的急劇攀升,由開放計算引領的數(shù)據(jù)中心基礎設施創(chuàng)新,正影響著越來越多的公司爭相學習和效仿。在近日舉行的OCP China Day 2022(開放計算中國技術峰會)上,OCP中國社區(qū)負責人、浪潮信息首席架構師葉毓睿分享了開放計算如何實現(xiàn)協(xié)作創(chuàng)新、傳統(tǒng)行業(yè)如何利用開放計算技術、開放計算目前重要的創(chuàng)新成果以及未來的發(fā)展方向等話題。


開放計算,"寬進嚴出"的全球化協(xié)作模式

"以OCP為代表的開放計算項目,其實是‘寬進嚴出'的一個全球化協(xié)作平臺。"葉毓睿提到,CSP(Cloud Service Provider,云服務提供商)、系統(tǒng)廠商、零部件供應商、傳統(tǒng)行業(yè)等各類公司,都可以自由在OCP官網(wǎng)上獲取標準、規(guī)范,觀看演講視頻和下載材料。產(chǎn)業(yè)鏈上下游的合作伙伴,能通過全球化協(xié)作的模式來消除技術壁壘,加快硬件創(chuàng)新的速度。然而加入OCP成為會員之后,想要影響標準的制定,則需要做出實質(zhì)性貢獻,并具備前瞻性;滿足這些要求并非易事,即使是想?yún)⑴c例行會議的工作組討論,也有一定門檻。

OCP是一個開放的技術平臺,各個成員公司可以通過知識共享、技術共享,掌握云邊端的創(chuàng)新技術,并形成相關產(chǎn)品或方案。引用OCP標準,幾乎沒有門檻,因為這些標準基本都是公開的,可供任何人下載和使用。

雖然OCP對成員的加入持歡迎的態(tài)度,但是涉及到具體的工作組,則會要求項目參與者在專業(yè)領域具備深厚積累,否則無法取得參加內(nèi)部會議的資格。例如,浪潮信息準備參與DC-SCM(Datacenter Secure Control Module,數(shù)據(jù)中心安全控制管理模塊)標準制定之前,做了大量的準備工作,包括技術研發(fā)和實現(xiàn)等方面,然后由項目組的已有成員進行投票表決,最終獲準加入該項目。DC-SCM標準定義了一種與主板解耦的安全控制管理模塊,實現(xiàn)計算單元和安全管理單元解耦,能夠簡化主板設計,加快計算組件的迭代。

"雖然成為標準的領導者、參與者需要投入很多的人、財、物等資源。但這些投入是值得的,因為浪潮信息作為全球第二大服務器廠商,要逐漸參與到更多的全球標準的制定中,盡量通過先進技術的標準化、規(guī)?;a(chǎn)業(yè)化、生態(tài)化來促進全行業(yè)的降本增效,普及深化ESG可持續(xù)發(fā)展理念,貫徹實現(xiàn)中國的‘雙碳'戰(zhàn)略目標。" 葉毓睿表示。

目前,浪潮信息已積極參與面向AI、邊緣計算、整機柜、通用服務器、硬件管理、固件、液冷等國內(nèi)外標準規(guī)范的建立,并牽頭服務器全部國標、OAM(OCP Accelerator Module,OCP加速器模塊)規(guī)范、天蝎標準、OTII(Open Telecom IT Infrastructure,開放電信IT基礎設施)規(guī)范等。同時,浪潮信息也在推動技術標準產(chǎn)品化,率先向社區(qū)貢獻了多款產(chǎn)品,可供其他廠商借鑒,如全球唯一符合三大開放組織標準的整機柜產(chǎn)品;全球首款AI開放加速計算系統(tǒng)MX1;全球首款面向云基礎架構優(yōu)化的四路服務器參考設計NF8260M5、全球首款OTII邊緣計算服務器、首款通過國內(nèi)開放數(shù)據(jù)中心認證的天蝎多節(jié)點服務器等等。

我們發(fā)現(xiàn),OCP包含不少自下而上的項目組。隨著市場需求不斷涌現(xiàn),項目的評判標準主要看市場的認可度,需求多了,這個標準就漸漸有機會成為全行業(yè)的標準。但需要注意的是,有些標準或者項目組可能會無疾而終。這種"物競天擇"的演化機制,也確保了每個可持續(xù)的項目組都是有生命力、具備市場前景的,是能夠不斷迭代的。

規(guī)模決定方向,領域決定特性

"開放計算的創(chuàng)新與應用,實際上是由兩個因素決定的:規(guī)模決定方向,領域決定特性。"在葉毓??磥恚_放計算最初從超大規(guī)模數(shù)據(jù)中心興起,再逐漸滲透到其他領域,在這個過程中,開放計算的各類產(chǎn)品各有其相對應的適用場景。

"規(guī)模決定方向"簡單來說,就是數(shù)據(jù)中心規(guī)模的大小,決定了宏觀尺度上開放計算的發(fā)展大方向,例如Google、Meta的應用分別是超大型的搜索網(wǎng)站和社交網(wǎng)站,由此催生了支撐它的IT硬件基礎架構,朝著數(shù)據(jù)中心即計算機(Datacenter as a Server)的方向重構,即在擁有數(shù)萬臺服務器的數(shù)據(jù)中心里,站在整個數(shù)據(jù)中心的角度進行集中管理(包含供電、冷卻等)和CPU、內(nèi)存、存儲的全局資源調(diào)度。目前我們能看到,與之相關并仍在發(fā)展的技術有CDI(Composable Disaggregated Infrastructure)、NoF(NVMe Over Fabrics)、CXL(Compute Express Link)等標準。參與這些標準的制定者當中不乏全球云計算或者互聯(lián)網(wǎng)巨頭這類用戶,例如Microsoft、Google、Meta、阿里云、騰訊、百度、字節(jié)等,這些用戶本身服務器的使用量巨大,容易通過大規(guī)模采用攤銷成本,助力相關技術和組件推廣、普及。我們注意到,字節(jié)近年來致力推動云固件,并在OCP China Day 2022分享《超大規(guī)模數(shù)據(jù)中心內(nèi)存性能故障的監(jiān)控》,有望成為好的例子。

另外,由數(shù)據(jù)中心即計算機引發(fā),并可能進行組件推廣及可進一步觀察的有網(wǎng)卡、連接器、存儲部件、OAM、DC-SCM、硬件管理等產(chǎn)品或規(guī)范。硬件重構的方向是"一切皆計算機",不僅體現(xiàn)在數(shù)據(jù)中心即計算機、機柜即計算機(Rack as a Server)上,也體現(xiàn)在設備即計算機(Device as a Server)上,例如智能網(wǎng)卡SmartNIC、DPU(Data Processing Unit,數(shù)據(jù)處理器)、CSD(Computational Storage Drive,即可計算型SSD,包含持久存儲和計算模塊)或 SmartSSD等。

對于中小型數(shù)據(jù)中心用戶來說,他們更關注安全性、可靠性、業(yè)務連續(xù)性,對設備部署效率、運維管理方面的要求并不苛刻。而對于大型和超大型數(shù)據(jù)中心用戶而言,如何將資源利用率提高到80%,甚至接近100%?如何將數(shù)據(jù)中心的運維從以人為本到以智為本,通過算法和數(shù)據(jù)模型、歷史使用的特點,實現(xiàn)自動化運維甚至無人值守?如何在成本可控范圍內(nèi),盡可能讓PUE值趨近于1?……這些是他們首要考慮的問題。這種差異導致了不同規(guī)模的數(shù)據(jù)中心用戶,對技術創(chuàng)新和應用實踐的思考和設計有所不同。

"這是從量到質(zhì)的變化。"葉毓睿強調(diào)說,當數(shù)據(jù)中心的規(guī)模擴張到一定程度之后,數(shù)據(jù)中心的產(chǎn)品交付模式、部署方式、能耗與效率、運維管理模式等等,都會發(fā)生與傳統(tǒng)模式截然不同的改變,開放計算項目從早期成立開始,到當前發(fā)展的主流部分,較多的是面向超大規(guī)模數(shù)據(jù)中心展開創(chuàng)新的。但這并不意味著,傳統(tǒng)行業(yè)用戶無法利用開放計算來降本增效,實現(xiàn)可持續(xù)發(fā)展。

葉毓睿指出,開放計算項目在做硬件重構的創(chuàng)新過程中,也產(chǎn)生了不少組件級或者設備級的創(chuàng)新技術和產(chǎn)品,這些技術和產(chǎn)品經(jīng)過了大型和超大型數(shù)據(jù)中心用戶的實際驗證,已經(jīng)成為開放計算生態(tài)當中的標準組件,中等規(guī)?;蛐∫?guī)模用戶可以直接使用。

NIC 3.0(Network Interface Card,網(wǎng)絡接口卡)項目是目前OCP最成功的項目之一。迄今為止,該項目在物理形態(tài)和電氣性能上,定義了一種免開箱維護且尺寸適中、性能優(yōu)秀的網(wǎng)卡,獲得了業(yè)界絕大部分服務器廠家的支持,成為服務器新的標準配置項。此外,針對特定領域?qū)S眉軜嫞―SA,Domain Specific Architecture)設計,支持多元AI芯片標準化接入的OAM規(guī)范,可滿足全球范圍內(nèi)AI加速器的爆炸式增長需求,而用于Chiplet(芯粒)互連的線束(BoW,Bunch of Wires)規(guī)范,則允許芯片制造商混合和匹配使用不同制造工藝技術的芯片,實現(xiàn)跨各種工藝制程的高性能芯片設計。這些項目的持續(xù)發(fā)展,可以讓大型CSP和傳統(tǒng)行業(yè)用戶,能夠更方便的利用飛速發(fā)展的多元化AI技術。

"領域決定特性"是指開放計算從超大規(guī)模數(shù)據(jù)中心逐步推廣的過程中,不同的場景和應用領域會衍生出不同的特性。以國內(nèi)某電商為例,從它的實際業(yè)務需求來分析,并沒有音視頻、AI計算和海量冷數(shù)據(jù)的需求。因此,在其整機柜的設計初期,就聚焦更好的支持高CPU通用算力,以及熱數(shù)據(jù)和溫數(shù)據(jù)的存儲,忽略異構計算和冷存儲的需求,以獲取更高的性價比。

類似的,開放計算在走出互聯(lián)網(wǎng)領域,走向更多傳統(tǒng)行業(yè)的過程中,也將逐漸和該行業(yè)的領域特性相匹配。葉毓睿提到:"因為尺寸、重量、供電、兼容性等問題,OCP整機柜部署到非互聯(lián)網(wǎng)行業(yè)的傳統(tǒng)數(shù)據(jù)中心時需要進行調(diào)整。"近段時間以來,浪潮信息聯(lián)合各大合作伙伴商討標準機柜+標準服務器的整機柜的設計。

以電信行業(yè)為例,OCP當前超過12大類的項目中,包含Telco(電信)這個類別,其下設有Edge(邊緣計算)子類。在電信這個領域,邊緣計算有其自身的特性,應該以集成的方式,將通用計算、存儲、網(wǎng)絡、異構計算等融為一體,滿足該領域所處的物理環(huán)境對于空間、溫度、震動、防水、防塵等的嚴格要求。

當然,邊緣計算應用的場景包羅萬象,包括但不限于物聯(lián)網(wǎng) 、MEC(Multi-access Edge Computing,多接入邊緣計算) 和NFV(Network Functions Virtualization,網(wǎng)絡功能虛擬化)等 5G 應用場景。值得一提的是,浪潮信息邊緣計算產(chǎn)品線推出的ECOM(Edge Computing Optional Modular)系統(tǒng),為適應智能邊緣網(wǎng)關產(chǎn)品復雜多變的應用場景做出了有意義的探索和實踐,通過將系統(tǒng)進行模塊化拆解,能最大限度的復用各個組件,也使產(chǎn)品設計更加多樣、靈活、易于實現(xiàn),適應室內(nèi)室外多種應用場景;通過將核心計算平臺、異構加速平臺、IO模組、管理功能等模組進行架構解耦,實現(xiàn)標準化、模塊化,平臺模組及功能模組多重復用,基于不同的場景和應用進行環(huán)境適應型設計,以實現(xiàn)短、平、快的產(chǎn)品開發(fā)模式,高質(zhì)量的滿足各類用戶的產(chǎn)品需求。


葉毓睿坦承道:"我們希望有更多傳統(tǒng)行業(yè)的用戶加入到開放計算組織中來。這樣在未來發(fā)展的過程中,有更多機會發(fā)掘一些OCP產(chǎn)品面向特定領域的特性,這也是我們一直在思考并努力踐行的。"

以金融行業(yè)為例,隨著人工智能、5G、大數(shù)據(jù)等技術在金融行業(yè)的深度應用,刷臉支付、在線開戶、線上貸款等"非接觸式"金融服務越來越普及。但金融創(chuàng)新業(yè)務的發(fā)展也帶來了系統(tǒng)數(shù)量繁多,數(shù)據(jù)類型多元化,需要在有限的數(shù)據(jù)中心空間內(nèi),兼容各種不同的需求。銀行客戶在采用開放計算解決方案后,相較傳統(tǒng)解決方案,部署密度提升6倍,通過RMC(Rack Management Controller )集中管理單元實現(xiàn)整個系統(tǒng)資源的實時監(jiān)控。

隨著開放計算生態(tài)的發(fā)展,其所致力的全球化協(xié)作與創(chuàng)新,將會帶來更多的開放接口、開放組件、開放管理和自動化運維,實現(xiàn)包括數(shù)據(jù)中心在內(nèi)的,云邊端低碳、高效的可持續(xù)發(fā)展。未來,開放計算還有巨大的潛力有待挖掘。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection