北京2021年1月28日 /美通社/ -- 日前,OCP社區(qū)公布了OpenRMC Design Specification v1.0(開(kāi)放整機(jī)柜管理設(shè)計(jì)規(guī)范1.0版本),對(duì)整機(jī)柜的北向管理接口進(jìn)行了規(guī)定,初步明確了設(shè)備管理中信息采集范圍、數(shù)據(jù)呈現(xiàn)方式及采集模塊的硬件部署選項(xiàng),為智慧時(shí)代數(shù)據(jù)中心的自動(dòng)化運(yùn)維管理提供參考。
智慧時(shí)代數(shù)據(jù)中心運(yùn)維復(fù)雜度提升
隨著智慧時(shí)代的來(lái)臨,數(shù)據(jù)中心上層應(yīng)用負(fù)載的多元化與復(fù)雜化,以及人工智能、容器等新技術(shù)的不斷引入,數(shù)據(jù)中心計(jì)算資源變得異構(gòu)和池化,除了傳統(tǒng)的CPU,GPU、FPGA等加速計(jì)算單元也在服務(wù)器系統(tǒng)中發(fā)揮越來(lái)越重要的作用。
異構(gòu)設(shè)備給關(guān)鍵業(yè)務(wù)和數(shù)據(jù)提供有效支撐,也帶來(lái)了下一代數(shù)據(jù)中心運(yùn)維管理復(fù)雜度迅速提升,用戶希望實(shí)現(xiàn)自動(dòng)化部署、自動(dòng)化巡檢、深度故障診斷以及智能告警,進(jìn)一步提升數(shù)據(jù)中心的可靠性和可用性,減少軟硬件故障或者系統(tǒng)升級(jí)所帶來(lái)的業(yè)務(wù)中斷。
同時(shí),計(jì)算資源的核心部件CPU、GPU處理性能雖然逐漸脫離摩爾定律,但多核心、先進(jìn)制程工藝的采用,同樣不斷推高處理器和服務(wù)器的能耗。相當(dāng)一部分?jǐn)?shù)據(jù)中心運(yùn)營(yíng)成本耗費(fèi)在了散熱、供電所帶來(lái)的能源損耗上,帶來(lái)巨大的成本壓力。
因此,提升數(shù)據(jù)中心能源利用率,推動(dòng)綠色節(jié)能數(shù)據(jù)中心建設(shè),已經(jīng)成為提升數(shù)據(jù)中心競(jìng)爭(zhēng)力,實(shí)現(xiàn)環(huán)境效益與經(jīng)濟(jì)平衡的重要方式。而傳統(tǒng)數(shù)據(jù)中心運(yùn)維模式難以對(duì)服務(wù)器的性能、功耗進(jìn)行實(shí)時(shí)、細(xì)粒度的監(jiān)控和統(tǒng)計(jì),影響了節(jié)能降耗的效果。
OpenRMC提供未來(lái)數(shù)據(jù)中心運(yùn)維參考架構(gòu)
自動(dòng)化運(yùn)維是降低數(shù)據(jù)中心能耗,實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)部服務(wù)器資源配置優(yōu)化的重要途徑。近年來(lái),OCP在這一方面進(jìn)行了廣泛的實(shí)踐,包括如何在單位空間里提供更高的計(jì)算密度,如何通過(guò)統(tǒng)一的規(guī)范減少單一廠商綁定,如何快速響應(yīng)突發(fā)應(yīng)用需求等。要滿足上述需求,彈性、模塊化的數(shù)據(jù)中心整機(jī)柜設(shè)計(jì)和交付至關(guān)重要。
為提升下一代數(shù)據(jù)中心智能化運(yùn)維能力,浪潮牽頭在OCP社區(qū)成立了OpenRMC項(xiàng)目組,發(fā)布基于OCP標(biāo)準(zhǔn)的整機(jī)柜管理架構(gòu)的解決方案,為各類(lèi)數(shù)據(jù)中心,尤其是大規(guī)模、超大規(guī)模數(shù)據(jù)中心,提供了下一代開(kāi)放技術(shù)管理方案。
OpenRMC解決的一個(gè)重要問(wèn)題在于提升開(kāi)放性。在傳統(tǒng)數(shù)據(jù)中心運(yùn)維過(guò)程中,用戶往往會(huì)使用BMC 軟件來(lái)輔助進(jìn)行管理控制。但是BMC的產(chǎn)品是商用的,必須由指定的供應(yīng)商進(jìn)行維護(hù),不但成本高昂,而且具有非常強(qiáng)的依賴性。要對(duì)新設(shè)備進(jìn)行管理,只有等待BMC版本更新才能支持,這顯然無(wú)法滿足數(shù)據(jù)中心敏捷業(yè)務(wù)的需求。此外,閉源的BMC難以進(jìn)行靈活修改,自由度較差。OpenBMC針對(duì)這些傳統(tǒng)BMC缺點(diǎn),提供了模塊化軟件架構(gòu)便于新設(shè)備資源的增改,并使用C++、Java腳本等高級(jí)語(yǔ)言框架解決管理信息可讀性、易訪問(wèn)的問(wèn)題。
OpenRMC可以基于OpenBMC管理維護(hù)服務(wù)器內(nèi)計(jì)算資源。除了OpenBMC技術(shù)的采用,整機(jī)柜的南向管理可以實(shí)現(xiàn)標(biāo)準(zhǔn)化,以統(tǒng)一的規(guī)范收集服務(wù)器內(nèi)部的硬盤(pán)、電源等信息,機(jī)柜的Power shelf、架頂交換機(jī)等機(jī)柜設(shè)備信息;北向管理則通過(guò)控制呈現(xiàn)的方式,形成了一個(gè)標(biāo)準(zhǔn)化的管理方法,并計(jì)劃未來(lái)滿足安全、加密、資源池化等新業(yè)務(wù)的需求。
OCP中國(guó)社區(qū)聯(lián)席主席、浪潮技術(shù)總監(jiān)郭洪昌表示,目前,浪潮已經(jīng)基于OpenRMC開(kāi)發(fā)了系統(tǒng)級(jí)管理套件,實(shí)現(xiàn)整機(jī)柜高效管理。對(duì)服務(wù)器、存儲(chǔ)等系統(tǒng)設(shè)備,機(jī)柜內(nèi)的電源模塊、風(fēng)扇、網(wǎng)絡(luò)交換機(jī)等模塊,以及環(huán)境溫度進(jìn)行一體化統(tǒng)一監(jiān)控,確保整個(gè)機(jī)柜內(nèi)所有部件和設(shè)備的運(yùn)行情況都能了如指掌,同時(shí)通過(guò)可視化設(shè)備詳盡的展現(xiàn)出來(lái),滿足自動(dòng)化運(yùn)維的要求。在此基礎(chǔ)上,浪潮以機(jī)柜內(nèi)所有設(shè)備為對(duì)象,定義了北向管理的接口規(guī)范,并貢獻(xiàn)到OCP組織,在OCP的框架內(nèi)推動(dòng)北向呈現(xiàn)與南向管理的接口無(wú)縫對(duì)接和有效通訊。
“我們希望通過(guò) OpenRMC,擴(kuò)展基于開(kāi)源技術(shù)的整機(jī)柜管理系統(tǒng),不僅幫助大規(guī)模數(shù)據(jù)中心,也幫助中小型數(shù)據(jù)中心整合異構(gòu)設(shè)備,并實(shí)現(xiàn)自動(dòng)化、精細(xì)化運(yùn)維,從而降低其IT運(yùn)維成本,簡(jiǎn)化管理方式并提高效率?!彼劦?。
為滿足數(shù)據(jù)中心的整體運(yùn)維需求,浪潮還構(gòu)建了物理基礎(chǔ)設(shè)施管理平臺(tái) ISPIM,提供資產(chǎn)統(tǒng)一管理、設(shè)備實(shí)時(shí)監(jiān)控、告警精準(zhǔn)推送、設(shè)備自動(dòng)巡檢、無(wú)狀態(tài)固件管理、智能能耗分析等功能,實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)部服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備統(tǒng)一智能監(jiān)控運(yùn)維。通過(guò)融合面向節(jié)點(diǎn)運(yùn)維的 OpenBMC 技術(shù)、面向整機(jī)柜運(yùn)維管理的 OpenRMC 技術(shù),以及面向數(shù)據(jù)中心整體運(yùn)維的 ISPIM 解決方案,浪潮能夠幫助用戶降低數(shù)據(jù)中心的運(yùn)維難度,讓數(shù)據(jù)中心運(yùn)維更加綠色、智能。
開(kāi)放計(jì)算生態(tài)企業(yè)積極參與OpenRMC
不僅僅浪潮,微軟和Intel兩家數(shù)據(jù)中心技術(shù)領(lǐng)域的領(lǐng)導(dǎo)廠商也在OpenRMC項(xiàng)目上貢獻(xiàn)了大量的參考設(shè)計(jì)和代碼。Intel公司在2014年,發(fā)布了Intel® RSD(Rack Scale Design)整機(jī)柜參考設(shè)計(jì),旨在推廣數(shù)據(jù)中心的資源池化及彈性部署的技術(shù),以提高數(shù)據(jù)中心的資源利用率。作為OpenRMC項(xiàng)目的發(fā)起者之一,Intel把RSD機(jī)柜管理模塊及管理接口API(RSD RMM REST API)開(kāi)源貢獻(xiàn)到了OpenRMC項(xiàng)目組,并提供了機(jī)箱、電源及散熱等重要功能組件的參數(shù)獲取的參考代碼及獲取方法。
Microsoft智能云Azure是全球最大的公有云平臺(tái)之一。身為超大規(guī)模數(shù)據(jù)中心擁有者,以及云服務(wù)提供者,Microsoft公司不僅向OCP社區(qū)開(kāi)源貢獻(xiàn)了OCS和Olympus兩種服務(wù)器標(biāo)準(zhǔn),還把自己針對(duì)數(shù)據(jù)中心的管理經(jīng)驗(yàn)向OCP社區(qū)做了分享,提出了RMC硬件的幾種不同實(shí)現(xiàn)方法,并且對(duì)OpenRMC固件的軟件模塊化設(shè)計(jì)提出了自己的建議,并提供了獲取機(jī)柜級(jí)組件狀態(tài)信息、和管理監(jiān)控的命令實(shí)例。
Intel和Microsoft貢獻(xiàn)的代碼和硬件參考設(shè)計(jì),極大地豐富了OpenRMC項(xiàng)目的適用場(chǎng)景,并活躍了自動(dòng)化運(yùn)維的生態(tài)系統(tǒng),為OpenRMC功能的廣泛采用提供了基礎(chǔ)平臺(tái)以及信用保證。