凝聚燧原科技兩代芯片研發(fā)與多個(gè)大規(guī)模人工智能算力中心工程實(shí)踐,面向大規(guī)模、集約化、綠色低碳數(shù)據(jù)中心建設(shè),云燧智算機(jī)(CloudBlazer POD)正式發(fā)布。
上海2022年9月3日 /美通社/ -- 燧原科技在2022世界人工智能大會(huì)"算盡其用·定義AI算力中心新實(shí)踐"云端算力產(chǎn)業(yè)應(yīng)用論壇上正式發(fā)布云燧智算機(jī)(CloudBlazer POD)。云燧智算機(jī)是針對(duì)大規(guī)模、集約化人工智能算力應(yīng)用場(chǎng)景推出的高性能人工智能加速集群產(chǎn)品,通過(guò)一站式預(yù)集成人工智能加速硬件、一體化開(kāi)發(fā)與管理平臺(tái)及配套人工智能應(yīng)用軟件與服務(wù),可廣泛應(yīng)用于數(shù)字政府、科研院所、科創(chuàng)平臺(tái)等企事業(yè)單位。
基于燧原科技過(guò)往多個(gè)大規(guī)模AI算力中心工程實(shí)踐
作為國(guó)內(nèi)已落地超千卡規(guī)模液冷AI集群的人工智能算力企業(yè),燧原科技的第一代和第二代"邃思"芯片均已實(shí)際應(yīng)用于大規(guī)模AI集群工程中,支撐融媒體生成、城市智能感知等多樣化場(chǎng)景。根據(jù)過(guò)往落地實(shí)踐,燧原科技發(fā)現(xiàn),人工智能數(shù)據(jù)中心因其軟件運(yùn)維復(fù)雜,普遍具有方案選型難、各廠商產(chǎn)品兼容未知等痛點(diǎn),而且數(shù)據(jù)中心部署交付周期長(zhǎng)、溝通成本高、項(xiàng)目管理周期長(zhǎng)。
云燧智算機(jī)采用一體化設(shè)計(jì),是專為人工智能場(chǎng)景下計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟硬協(xié)同設(shè)計(jì)的標(biāo)準(zhǔn)化產(chǎn)品,提供高可用的整體安全設(shè)計(jì),確保集群架構(gòu)擴(kuò)展性能符合預(yù)期,提供包括采購(gòu)、安裝、運(yùn)維一體的交鑰匙方案。對(duì)數(shù)據(jù)中心的環(huán)境和IT計(jì)算資源提供全面的監(jiān)控和管理,提高集群部署、測(cè)試的質(zhì)量和效率,輔助用戶提升運(yùn)營(yíng)效益和降低運(yùn)行成本,幫助用戶提升運(yùn)維價(jià)值,為用戶實(shí)現(xiàn)AI算力中心從交付部署到后期上線及運(yùn)維管理全生命周期中的優(yōu)異總擁有成本(TCO)。
云燧智算機(jī)代表了燧原科技經(jīng)過(guò)多個(gè)大規(guī)模工程實(shí)踐所形成的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的整體設(shè)計(jì):以全局優(yōu)化為目標(biāo),基于計(jì)算、存儲(chǔ)、管理網(wǎng)絡(luò)分離,全互聯(lián)無(wú)阻塞的網(wǎng)絡(luò)架構(gòu),結(jié)合高效的多級(jí)存儲(chǔ)方式,在強(qiáng)大的"邃思"芯片與CPU的異構(gòu)算力支撐下,云燧智算機(jī)能夠提供卓越的AI性能。
基于雙碳目標(biāo)以及綠色環(huán)保的總體趨勢(shì),無(wú)論是新型數(shù)據(jù)中心的規(guī)劃建設(shè),以及東數(shù)西算的政策性要求,都對(duì)數(shù)據(jù)中心整體能效(Power Usage Effectiveness,PUE)有明確的優(yōu)化指標(biāo)性要求。云燧智算機(jī)采用一體化冷板式液冷技術(shù),實(shí)現(xiàn)單節(jié)點(diǎn)8顆高性能人工智能芯片液冷散熱,通過(guò)液冷板等高效熱傳導(dǎo)部件將被冷卻對(duì)象的熱量傳遞到自然冷媒中,采用先進(jìn)流量控制系統(tǒng),大幅提高流量變化范圍、降低能耗,擁有架構(gòu)簡(jiǎn)約、系統(tǒng)可靠、智能監(jiān)控等特性,PUE可降至1.1及以下。
搭載經(jīng)業(yè)務(wù)實(shí)證的AI芯片,軟硬協(xié)同算盡其用
依托于"邃思"芯片核心能力,在典型配置下,云燧智算機(jī)每單元可達(dá)到8PFLOPS的TF32浮點(diǎn)算力,并且支持按需橫向擴(kuò)容,可支持?jǐn)?shù)千卡規(guī)模集群,突破E級(jí)算力,打造業(yè)界領(lǐng)先的超級(jí)算力集群。
目前算力構(gòu)成復(fù)雜,多CPU架構(gòu),多異構(gòu)計(jì)算單元,并且考慮到集群本身一般服務(wù)于多用戶、多場(chǎng)景的特性,如何能夠?qū)ι蠈佑脩羝帘蔚讓铀懔Ξ悩?gòu)性、賦能用戶高效開(kāi)發(fā)與部署上線AI應(yīng)用,真正釋放集群作為生產(chǎn)力工具的價(jià)值 -- 軟件是關(guān)鍵要素。
燧池智算平臺(tái)(CloudBlazer Station)是全棧式人工智能開(kāi)發(fā)服務(wù)平臺(tái)和通用的大規(guī)模算力管理平臺(tái),結(jié)合強(qiáng)大的云燧AI算力集群和先進(jìn)的大規(guī)模算力資源調(diào)度,為用戶提供人工智能模型生產(chǎn)及應(yīng)用發(fā)布的全流程服務(wù),能夠一站式滿足復(fù)雜的人工智能業(yè)務(wù)場(chǎng)景對(duì)人工智能服務(wù)的需求。
大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型是人工智能的發(fā)展方向,"預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)"的模型開(kāi)發(fā)方式將極大提升企業(yè)的AI應(yīng)用開(kāi)發(fā)效率,開(kāi)發(fā)者只需要少量行業(yè)數(shù)據(jù)就可以快速開(kāi)發(fā)出精度更高、泛化能力更強(qiáng)的AI模型。
而訓(xùn)練出一個(gè)大模型,除了算法和數(shù)據(jù),還需要超大規(guī)模的算力支撐?;谠旗葜撬銠C(jī)所構(gòu)成的大規(guī)模集群解決方案采用高帶寬、全互聯(lián)拓?fù)浼軜?gòu),計(jì)算、存儲(chǔ)、管理網(wǎng)絡(luò)全分離,計(jì)算節(jié)點(diǎn)內(nèi)基于GCU-LARE2.0多芯互聯(lián)技術(shù)提供近1TB/s的互聯(lián)帶寬,跨節(jié)點(diǎn)互聯(lián)能力高達(dá)600Gb/s,可實(shí)現(xiàn)千卡級(jí)大規(guī)模集群高速互聯(lián),具備優(yōu)異的線性加速比以支撐超千億參數(shù)巨量模型的高效、并行訓(xùn)練。
燧原科技創(chuàng)始人兼COO張亞林表示:"云燧智算機(jī)是結(jié)合了云燧訓(xùn)練和推理產(chǎn)品在行業(yè)落地的實(shí)踐經(jīng)驗(yàn),以全方位降低AI算力中心部署和應(yīng)用成本為目標(biāo)所推出的全新系統(tǒng)一體化產(chǎn)品,面向大規(guī)模、集約化、綠色低碳數(shù)據(jù)中心建設(shè)。我們始終專注于客戶的價(jià)值和體驗(yàn),致力于為客戶提供完備且易用的人工智能系統(tǒng)軟硬件產(chǎn)品,同時(shí)積極響應(yīng)國(guó)家綠色低碳高質(zhì)量發(fā)展的戰(zhàn)略目標(biāo)。"