北京2023年12月20日 /美通社/ -- 2023年大模型智能應用涌現(xiàn),帶來了大模型工程實踐的爆發(fā),在大模型進一步落地應用過程中,AI Infra作為連接硬件和上層應用的中間層基礎設施,無疑是關鍵的一環(huán)。
近日,AICC 2023人工智能計算大會上,量子位主編方馭洋主持“AI Infra:大模型時代掘金利器”圓桌論壇,與浪潮信息AI應用架構師朱紅、潞晨科技副總裁梁爽、始智AI wisemodel創(chuàng)始人兼CEO劉道全、無問芯穹商務副總裁李楓,圍繞大模型時代AI Infra概念、行業(yè)地位、發(fā)展挑戰(zhàn)和多元化算力等關鍵問題展開思想碰撞。
與會嘉賓指出,AI Infra是支撐AI和大模型的底座,大模型訓練和推理是復雜的系統(tǒng)工程,需要在硬件、軟件以及訓練、推理等各個層面和角度深入優(yōu)化,解決算力成本、訓練門檻和多元化算力等挑戰(zhàn),發(fā)揚開源思想,推動人工智能快速發(fā)展。
以下是圓桌論壇問答實錄:
主持人:目前AI Infra的概念并不統(tǒng)一,有人把它定義為AI所需要的全部硬件基礎設施,有人強調它是算力層跟應用層之間的軟件堆棧,請問各位如何定義AI Infra?在當前整個AI產業(yè)當中,扮演著什么樣的角色?
朱紅:從業(yè)界角度來說,大家認為AI Infra是硬件之上的軟件層。從浪潮信息的角度來看,應用層之下的硬件、軟件都可以納入AI Infra中,也可以稱之為AI中臺或者AI平臺。
AI Infra在整個AI產業(yè)中起著承上啟下的作用,因為AI由算力驅動,而算力的發(fā)揮取決于AI Infra層。
梁爽:我覺得AI Infra包含硬件、軟件。大模型一般需要在成千上萬的計算卡上進行分布式訓練,用戶如果采用原生軟硬件方案,在海量參數(shù)的情況下可能會出現(xiàn)顯存溢出,很難把硬件的利用效率發(fā)揮出來。通過數(shù)據并行、張量模型并行、流水線并行等方式,AI Infra為客戶提供更強的計算能力,能夠在大模型訓練時高效地把分布式硬件利用起來。同時,訓練大模型的成本可能高達上千萬,我們的AI Infra目標是把訓練成本減少一半、時間減少一半,這也是用戶關心的點。
劉道全:AI Infra還有一個更寬泛的范圍,除了前面已提到軟硬件系統(tǒng),還包括網絡、存儲等硬件和軟件等。大模型的訓練、推理是一個系統(tǒng)工程,需要在計算、網絡、存儲等各個層面優(yōu)化,才能更好地把性能和效率發(fā)揮出來。
從大模型社區(qū)的角度來說,我們現(xiàn)在更多地把模型和數(shù)據集匯聚起來,后續(xù)還會把應用開發(fā)層、模型訓練、部署和推理等相關的開源工具軟件也匯聚起來,讓大家更容易地獲取和使用,提升工作效率。
李楓:在我們看來,AI Infra是支撐以大模型為代表的AI技術的底座,包括硬件、軟件、工具鏈和優(yōu)化方法等,是一個整體解決方案。無問芯穹成立剛剛半年,此前我們公開露面不是很多,業(yè)內很多朋友記得我們團隊,就是從“M×N”開始的。我們在AI Infra上,著眼于軟硬一體的整體解決方案,做從算法到芯片、從芯片集群到模型、再從模型到應用的三階段“M×N”中間層產品,一方面幫助AI開發(fā)者們克服目前多元異構算力初階軟件生態(tài),以及異構算力池的影響,另一方面依托我們行業(yè)領先的AI計算優(yōu)化能力,助力提高算力的供給水平、持續(xù)降低計算成本、提高大模型的落地能效。
主持人:隨著大模型熱潮的到來,大家對于大模型工程實踐有了更明確的認知。大模型訓練和推理是一件非常復雜的事情,需要很多基礎設施作為支撐,也正因為此,AI Infra越來越受到關注,請各位嘉賓談談大模型應用面臨哪些挑戰(zhàn)?
朱紅:效率是大模型應用的核心挑戰(zhàn),包括剛才提到延遲、速度等都屬于效率范疇。浪潮信息認為效率需要從橫向和縱向來看,首先是縱向的效率是AI計算平臺的效率如何發(fā)揮出來,是大家非常關心的點;第二,橫向的效率亦即穩(wěn)定性,無論是訓練還是推理都能夠長期運行,這是保障。
浪潮信息的很多工作聚焦在這兩個層面,也就是怎么解決縱向和橫向的效率問題,然后去推動大模型的落地應用,這是我們服務客戶過程中發(fā)現(xiàn)的挑戰(zhàn)和解決思路。
梁爽:對于客戶來說,AI大模型應用的挑戰(zhàn)包括推理延遲、推理速度,以及如何減少推理參數(shù),還有一些量化技術。在終端應用場景,比如像“智能座艙”,客戶對于硬件的需求更為敏感,現(xiàn)在智能駕駛大多數(shù)采用高通芯片,能不能實現(xiàn)大模型推理、推理能不能達到主流加速卡的效果,這對于相關應用來說都是非常重要的。這種終端場景的硬件算力是有限的,又牽扯到模型壓縮技術和推理優(yōu)化,我們也在做推理方面的研發(fā)工作。
劉道全:大模型應用最大的問題是應用跟模型的脫節(jié)。因為最終到應用層面,需要從業(yè)務角度去考慮?,F(xiàn)實是應用方面的人員大都不懂模型,而模型方面人員多數(shù)也很難體會實際應用場景。大模型廠商都想著怎么把模型的通用能力提升起來,但是對應用的理解和認知其實可能遠遠不夠。無論是ToB應用還是ToC應用,每個環(huán)節(jié)和流程都有很多的業(yè)務知識在里面,怎么把這一部分業(yè)務知識跟模型能力結合起來,就需要應用和模型開發(fā)人員共同參與進來,可能才能真正的解決問題,做出好的應用。
現(xiàn)階段始智AI是從社區(qū)切入,能夠更多地了解行業(yè)需求,不管是應用端的需求,還是模型層等的需求,最終是希望打通大模型應用開發(fā)的環(huán)節(jié),讓后續(xù)應用開發(fā)環(huán)節(jié)不再需要關心模型怎么調,模型相關事務都可以在平臺上基本自動化的完成,做到應用跟模型的分離。這里涉及很多中間環(huán)節(jié),我們也可以跟潞晨科技、無問芯穹等中間各方合作,一起把中間的環(huán)節(jié)串起來,讓更多的人更方便地使用大模型。
在這個過程中,開源社區(qū)就有重要地位和作用。開源社區(qū)是行業(yè)信息的匯集地,在從應用到底層的框架到更底層芯片的架構中起到承上啟下的作用。大模型和中間工具軟件最終還是需要落地應用才能創(chuàng)造價值,整個過得始終離不開社區(qū)承上啟下的作用。我們未來不會自己去做應用,還是希望在中間聯(lián)合更多合作伙伴把大模型應用開發(fā)的環(huán)節(jié)打通,最后讓應用變得簡單,讓AI落地也更簡單。
李楓:因為大模型落地成本很高,做推理很貴,大部分人接受不了這個價格,我們利用軟硬一體化優(yōu)勢,首先把成本降下來,其次軟硬一體化能夠發(fā)揮異構算力潛能,可以把模型開發(fā)訓練門檻降低,讓更多創(chuàng)造者有能力進入這個領域,這是我們的考慮。
另外,大模型如果想真正在行業(yè)落地,還需要行業(yè)數(shù)據。這時候一定需要軟硬結合,才能去做行業(yè)落地的完整方案,而非僅依靠模型。因為一個模型的落地,不足以實現(xiàn)一個場景。
主持人:看來大模型應用和普及的核心關鍵是“效率”,各位嘉賓都有著豐富的一線實踐經驗,請大家分享一下真正降低大模型普及門檻的著力點,技術或者是生態(tài)領域都可以談一談。
梁爽:開源大模型框架系統(tǒng)是我們推動大模型應用和普及的實際行動,也填補了國內相關技術空白。AI之所以發(fā)展的如火如荼,與開源精神和無數(shù)開源社區(qū)貢獻者密不可分。潞晨科技開源大模型框架,也是希望能夠把研發(fā)成果共享給大家,讓AI能夠發(fā)展的更好,降低AI的門檻,提升生產力。
劉道全:首先,解決剛才提到的應用跟模型脫節(jié)的問題,關鍵是促進應用層和模型層之間的互動交流,這需要讓更多應用場景里的人參與到大模型應用的開發(fā)中。
第二,數(shù)據質量比較好的場景,也是大模型落地更容易的方向,比如銀行、金融、電商等領域,還有工業(yè)領域已經實現(xiàn)IoT數(shù)據采集和自動化的場景等,總體上有了高質量的數(shù)據,就有大模型應用落地更好的基礎。
第三,目前大模型應用的聚焦點更多的還是AI技術領域,而對于核心場景應用需求的挖掘還不夠,未來在應用場景和需求方向上做更多的探索。
主持人:除了開源軟件包括框架層面的進展,我們現(xiàn)在面臨著一個很大問題,就是算力的緊缺,從軟硬件結合角度,有哪些可以努力改進的地方?
朱紅:開源確實是促進AI產業(yè)發(fā)展、推動行業(yè)落地的很關鍵的一步,對于整個產業(yè)推動也是很大。浪潮信息目前也在嘗試把自身工作以類似的方式推出去,加速大模型的應用和普及,降低行業(yè)應用門檻。
李楓:針對算力緊缺的問題,首先要“把能用的算力用得更好”,可以從推理端進行更多量化,通過減少模型的存儲空間和計算需求來提高推理效率,使得同樣算力可以跑更多的模型。第二,“把以前利用不了的算力用起來”,也就是對于模型訓練考慮異構化,通過異構計算平臺把更多的算力使用起來。
主持人:當前大模型訓練等底層支撐面臨算力多元化的挑戰(zhàn),現(xiàn)在從AI Infra層面考慮還是要做更多元化的適配。目前各位是否有相關技術布局?
朱紅:多元算力支撐是現(xiàn)在非常熱的話題,也是浪潮信息持續(xù)關注的方向。我們兩年前發(fā)布“源 1.0”大模型之后,就開始考慮在推理階段適配更多推理硬件,也落地了一些實際工作,能夠把當時百億規(guī)模模型,高效地推理跑起來?,F(xiàn)在,“源 2.0”也在做各種硬件適配。
當然,模型訓練也是我們重點關注的方向,我們也在與比較有潛力的算力提供方進行更多優(yōu)化工作,也引入了開源工作。目的是希望無論是商業(yè)化軟硬件方案,還是硬件+開源軟件的方案,我們都能夠支持用戶又快又好地把訓練、推理跑起來。
梁爽:我們已經適配了比較多的硬件。相比國外,國內的多元算力在算子數(shù)量、生態(tài)系統(tǒng)等方面確實存在差距。這時,就需要多元算力廠商和用戶一起去做研發(fā)適配,爭取能夠盡快地趕上。
劉道全:適配工作其實并不是我們自己去做,我們目前和一些多元算力廠商的探索更多是生態(tài)層面的合作。社區(qū)可以作為一個很好的入口,讓大家可以先體驗一下多元算力的能力,這也是比較重要,特別是很多偏應用的中小企業(yè),很多可能還沒有使用過多元算力。體驗之后才能更好地了解相關芯片在推理和訓練方面的能力。
李楓:我們的布局核心是“M×N”中間層。其中“M”和“N”都是指多元適配,在硬件側支持多種芯片,在模型側支持多種大模型,這一中間層具備大模型推理引擎、訓練引擎、異構算力評測等能力,使大模型算法能運行在多種芯片上,并實現(xiàn)最優(yōu)訓練與推理效率,相當于是在大模型和不同芯片之間搭建了橋梁。