北京2023年9月14日 /美通社/ -- 大模型在巨量算力的驅(qū)動(dòng)下,"智能涌現(xiàn)"能力初顯,帶來(lái)了通用智能的曙光,也加速人工智能與千行百業(yè)融合。當(dāng)前,人工智能算力不僅是驅(qū)動(dòng)大模型進(jìn)化的核心引擎,也成為大模型產(chǎn)業(yè)發(fā)展不得不面對(duì)的挑戰(zhàn)。
近日,新智元?jiǎng)?chuàng)始人&CEO楊靜主持"共話AIGC時(shí)代,智算發(fā)展之道"圓桌論壇,與浪潮信息高級(jí)副總裁劉軍、百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬、快手異構(gòu)計(jì)算負(fù)責(zé)人劉凌志、金山辦公技術(shù)總監(jiān)熊龍飛圍繞大模型時(shí)代的智算機(jī)遇、痛點(diǎn)與破局之道展開(kāi)思想碰撞。
與會(huì)嘉賓指出,中國(guó)大模型仍處于商業(yè)生態(tài)發(fā)展初期,需要在智算系統(tǒng)構(gòu)建、平臺(tái)支撐、算法研發(fā)、應(yīng)用落地等層面進(jìn)行廣泛的生態(tài)合作,從而打造更為卓越的大模型,并推動(dòng)模型的場(chǎng)景化落地。
以下是圓桌論壇問(wèn)答實(shí)錄:
楊靜:現(xiàn)在“百模大戰(zhàn)”已經(jīng)過(guò)了上半場(chǎng),大家在上半場(chǎng)是怎樣圍繞大模型進(jìn)行業(yè)務(wù)布局的?
劉軍:浪潮信息在AIGC最重要的產(chǎn)業(yè)布局還是圍繞著智算,我們希望通過(guò)智算力來(lái)加速生成式AI和大模型的創(chuàng)新和落地,圍繞算力、算法、數(shù)據(jù)、互聯(lián)智算四要素進(jìn)行了產(chǎn)品布局和技術(shù)上的創(chuàng)新,希望通過(guò)我們產(chǎn)品和技術(shù)的組合以及更好的服務(wù),加速用戶的生成式AI創(chuàng)新步伐。
陳煒鵬:百川智能進(jìn)入大模型領(lǐng)域以來(lái),產(chǎn)品發(fā)布更迭非??焖佟T赥oB領(lǐng)域,百川智能的開(kāi)源工作獲得了很好的影響力,也存在很多商機(jī)。未來(lái)我們希望借助開(kāi)源開(kāi)啟ToB合作。在ToC方面,百川智能有很強(qiáng)的互聯(lián)網(wǎng)產(chǎn)品基因,希望能夠打造一個(gè)超級(jí)助手類產(chǎn)品,實(shí)現(xiàn)ToB、ToC兩條腿前進(jìn)。
劉凌志:快手大模型應(yīng)用比較多,在搜索推薦廣告、音視頻創(chuàng)作上都做了一些有益的嘗試。未來(lái),希望通過(guò)ToB的StreamLake,和廣大用戶進(jìn)行更直接的交流,共同做大、做好大模型產(chǎn)品。
熊龍飛 :金山辦公作為大模型的應(yīng)用方,暫時(shí)不生產(chǎn)大模型。目前金山辦公根據(jù)不同場(chǎng)景采用不同模型的多模型應(yīng)用方案,根據(jù)我們的業(yè)務(wù)定位確定三個(gè)主要方向,一是AIGC內(nèi)容生成,幫用戶寫東西、做東西;二是Copilot,幫用戶做個(gè)人助理;第三是知識(shí)洞察,主要幫助用戶分析和發(fā)現(xiàn)文檔中的重要信息。
楊靜:算力是大模型時(shí)代的核心驅(qū)動(dòng)力、超強(qiáng)發(fā)動(dòng)機(jī),算力需求變成了當(dāng)前AIGC時(shí)代的堵點(diǎn)瓶頸,也就是說(shuō)大模型為代表的AIGC業(yè)務(wù)卡在算力上了,很多企業(yè)都會(huì)面臨算力的瓶頸、算力的壓力,大家期待什么樣的算力基礎(chǔ)設(shè)施來(lái)支撐大模型的創(chuàng)新和應(yīng)用?
劉軍:從浪潮信息的角度,首先是全力做好算力供給保障工作,在算力供應(yīng)緊張的背景下,如何構(gòu)建具備更高生產(chǎn)力的算力系統(tǒng),成為行業(yè)關(guān)注的焦點(diǎn)。對(duì)此,浪潮信息開(kāi)發(fā)大模型"源",研究大模型對(duì)算力系統(tǒng)的需求特點(diǎn),籍此為客戶交付更高性能更好用的算力系統(tǒng)。因此,浪潮信息發(fā)布OGAI智算軟件棧,也是希望幫助伙伴和客戶最大化地釋放算力性能。
陳煒鵬:大家都經(jīng)歷了"算力荒",這個(gè)問(wèn)題是很難以克服的。我們也觀察到算力在未來(lái)9-12月里還是會(huì)非常緊張。對(duì)于百川智能來(lái)說(shuō),我們?cè)谇捌谕ㄟ^(guò)跟云廠商合作,以及尋求跟浪潮信息的合作,來(lái)解決算力的問(wèn)題。同時(shí),我們也會(huì)花很多時(shí)間研究怎么提升訓(xùn)練效率、提升研發(fā)成功率,探索更高效的算力系統(tǒng)。
劉凌志:快手主要依靠大的智算基礎(chǔ)設(shè)施提供商幫我們?cè)谝欢ǔ潭壬辖鉀Q算力短缺的問(wèn)題,但是這個(gè)算力緊張始終會(huì)存在??焓謱?duì)于算力問(wèn)題主要有三個(gè)觀點(diǎn):首先是研發(fā)異構(gòu)多元算力體系,尋找算力的更多選擇;其次大模型算力問(wèn)題是全新賽道,未來(lái)2-3年會(huì)有非常多的機(jī)會(huì);第三,快手在三年前遇到視頻算力瓶頸時(shí)就開(kāi)始布局自研芯片,目前也得到了較好的結(jié)果。我們希望整個(gè)產(chǎn)業(yè)界聯(lián)合起來(lái),從用戶端到基礎(chǔ)設(shè)施端,朝著共同目標(biāo)一起通過(guò)長(zhǎng)期的努力解決算力問(wèn)題。
楊靜:算力緊缺確實(shí)是未來(lái)兩三年的難題。目前,業(yè)內(nèi)也有聲音表示,訓(xùn)練大模型是和火箭發(fā)射一樣的系統(tǒng)工程,不是有卡就行。因?yàn)樵诖笠?guī)模分布式訓(xùn)練中,算力效率、訓(xùn)練失穩(wěn)等等問(wèn)題都會(huì)影響模型的訓(xùn)練效率和精度。在大模型訓(xùn)練中,各位遇到過(guò)什么樣的技術(shù)難題?
劉軍:現(xiàn)在大模型訓(xùn)練算力集群就像一個(gè)性能特別棒的法拉力跑車,但是我們?nèi)绾握{(diào)教好這個(gè)跑車,如何駕馭好這個(gè)跑車,這個(gè)能力的要求是非常高的。當(dāng)前的大模型算力基礎(chǔ)設(shè)施要充分發(fā)揮作用,有三個(gè)方面需要注意:
第一是算力的高效率,涉及到系統(tǒng)的底層驅(qū)動(dòng)、系統(tǒng)層優(yōu)化,與大模型相適配的流水線并行、數(shù)據(jù)并行等的優(yōu)化;第二是線性擴(kuò)展能力,在單機(jī)上獲得較高算力效率之后,能不能擴(kuò)展到幾百個(gè)節(jié)點(diǎn)、幾千塊卡,保持相對(duì)線性的性能擴(kuò)展比,這是在整個(gè)算力集群系統(tǒng)設(shè)計(jì)和并行策略設(shè)計(jì)時(shí),需要考慮的重要因素;三是可持續(xù)計(jì)算能力,大模型訓(xùn)練會(huì)碰到各種軟硬件、算法、框架問(wèn)題所引發(fā)的失效故障,訓(xùn)練失穩(wěn)時(shí)系統(tǒng)需要更多機(jī)制上的設(shè)計(jì),使這個(gè)過(guò)程更加自動(dòng)化、智能化地去完成。
陳煒鵬:對(duì)于訓(xùn)練我們會(huì)有兩個(gè)判斷,第一個(gè)判斷是我覺(jué)得大家可能高估了訓(xùn)練一個(gè)大模型的難度,但低估了訓(xùn)練好一個(gè)模型的難度,這里邊是有矛盾的。未來(lái),就訓(xùn)練模型本身我覺(jué)得會(huì)變得越來(lái)越容易,但訓(xùn)練好一個(gè)模型會(huì)變得非常非常難。因?yàn)橛?xùn)練好模型是一個(gè)經(jīng)驗(yàn)工程,也是一個(gè)系統(tǒng)工程,當(dāng)模型的規(guī)模越來(lái)越大,訓(xùn)練成本很高,容錯(cuò)空間會(huì)變得非常小。這個(gè)災(zāi)難性的成本可能會(huì)越來(lái)越難以承受,所以訓(xùn)好一個(gè)模型會(huì)變得很難。還有就是大模型實(shí)驗(yàn)的成本非常高,那怎么提有效的假設(shè)去降低這個(gè)實(shí)驗(yàn)的成本,這些事情需要很多實(shí)驗(yàn)和Know-how,我覺(jué)得這可能才是未來(lái)競(jìng)爭(zhēng)最大的勝負(fù)點(diǎn)所在。
另一個(gè)認(rèn)知差異是,我覺(jué)得我們現(xiàn)在很關(guān)心訓(xùn)練的成本,下半場(chǎng)(今年下半年開(kāi)始到明年)大家的焦點(diǎn)可能會(huì)轉(zhuǎn)移到推理成本上。模型訓(xùn)練能夠做得很大,但推理時(shí)的成本成為關(guān)鍵。怎樣控制好推理成本,甚至推理成本能夠比別人做得更低,可能會(huì)是未來(lái)決勝的另一個(gè)關(guān)鍵點(diǎn)。
劉凌志:訓(xùn)練出一個(gè)好的模型并不簡(jiǎn)單,從工程能力來(lái)講,隨著業(yè)務(wù)的進(jìn)展,訓(xùn)練的算力問(wèn)題總歸是能解決的,挑戰(zhàn)就進(jìn)入到推理階段,如何降低推理成本還需要進(jìn)行很多研究。今后推理的問(wèn)題更加嚴(yán)重,因?yàn)槟P陀?xùn)練利用率比較高,推理卡的利用率是非常低的。
楊靜:這種高成本以及摩爾定律的放緩,會(huì)在一定程度上妨礙大模型技術(shù)的發(fā)展,未來(lái)大模型發(fā)展怎么樣才能突破算力瓶頸或者難題?
劉凌志:截至2023年7月份,中國(guó)10億以上參數(shù)的大模型超過(guò)了70個(gè),但是目前來(lái)看,只有在500億規(guī)模以上的大模型才會(huì)顯得"更聰明"。很多垂直行業(yè)模型如果不是生成式對(duì)話,可能只需要7B、13B的算力,瓶頸問(wèn)題可能并不明顯,但能不能使用起來(lái)還要經(jīng)過(guò)時(shí)間考驗(yàn)。
陳煒鵬:GPT從3.5到4,參數(shù)規(guī)模漲了10倍,對(duì)應(yīng)的數(shù)據(jù)量也是10倍以上的增長(zhǎng),所以是兩個(gè)數(shù)量級(jí)的增長(zhǎng),而且增長(zhǎng)在不到一年的時(shí)間里面發(fā)生。目前大家看到算力增長(zhǎng)一定會(huì)帶來(lái)能力增長(zhǎng),這個(gè)模式必然造成成本和能力的矛盾。在解決方式上,存在兩種可能性:一是當(dāng)前的算法范式還是主要基于 Transformer,模式比較固化,存在從通用芯片走向?qū)S眯酒目赡苄?;二是人一輩子讀的信息不超過(guò)10b,目前的模型通過(guò)擴(kuò)大規(guī)模去提升能力,未來(lái)可能產(chǎn)生新的算法思路,跳出無(wú)限擴(kuò)大規(guī)模的方式。
劉軍:我認(rèn)為大模型泛化能力和算力關(guān)系還是非常緊密的,一方面當(dāng)然是模型的參數(shù)量,另外一方面是我們一直在講的算力當(dāng)量概念,也就是為了訓(xùn)練一個(gè)性能很高的模型所需要的算力代價(jià),衡量標(biāo)準(zhǔn)就是PetaFlop/s-day(每秒運(yùn)算千萬(wàn)億次的計(jì)算機(jī)完整運(yùn)行一天消耗的總算力)。目前的挑戰(zhàn)是需要的模型性能難以匹配到足夠的算力。浪潮信息希望為伙伴和客戶的算力兜底,提供充足的算力,使其無(wú)需擔(dān)心模型夠不夠大,算力當(dāng)量夠不夠大。
對(duì)于算力挑戰(zhàn),首先芯片方面的改變會(huì)是一個(gè)機(jī)會(huì),可能會(huì)有一種面向大模型的算力芯片,這是下一步值得特別關(guān)注的;第二個(gè)非常值得期待的是,摩爾定律的失效決定了僅從芯片層面沒(méi)有辦法解決算力問(wèn)題,所以要從系統(tǒng)的角度去思考這個(gè)問(wèn)題——如何構(gòu)建一個(gè)優(yōu)化的算力系統(tǒng),讓它在低帶寬的情況下也能訓(xùn)練得很好,訓(xùn)練得很棒。
楊靜:大模型落地面對(duì)的問(wèn)題障礙越來(lái)越多,更需要業(yè)界通力合作去破解這些難題,在推進(jìn)大模型落地當(dāng)中還有來(lái)自哪些客戶端的需求?
劉軍:大模型應(yīng)用需要建立從大模型到企業(yè)落地的優(yōu)化路徑,關(guān)鍵就是有用戶進(jìn)來(lái)。許多客戶的想法停留在花錢購(gòu)買大模型直接用的層面,而生成式AI一定要和用戶的數(shù)據(jù)、場(chǎng)景、應(yīng)用甚至客戶的價(jià)值鏈緊密結(jié)合。
熊龍飛:金山辦公做AI的這些年,我們的路徑一般是先做ToC,因?yàn)榭梢杂霉W(wǎng)或者云端的算力,通過(guò)大集群滿足所有C端用戶需求。而B(niǎo)端、G端客戶他們的私有化部署需求更加強(qiáng)烈。ToB或 ToG的私有化要根據(jù)企業(yè)或機(jī)構(gòu)的情況、規(guī)?;蛘呤蔷唧w的數(shù)據(jù)要求做不同的方案,這樣會(huì)帶來(lái)很多挑戰(zhàn),同時(shí)也會(huì)帶來(lái)很多機(jī)會(huì)。
楊靜:大模型產(chǎn)業(yè)發(fā)展競(jìng)爭(zhēng)越來(lái)越白熱化了,企業(yè)該怎么建立競(jìng)爭(zhēng)壁壘以及找到新的增長(zhǎng)點(diǎn)呢?
熊龍飛:金山辦公的技術(shù)非常延續(xù),一直專注于做文檔技術(shù)。當(dāng)我們把一個(gè)東西做了30多年以后,會(huì)把它做得很深很透,慢慢地建立起比較高的技術(shù)壁壘。同時(shí),我們還要保持對(duì)新技術(shù)的擁抱和快速學(xué)習(xí)、適應(yīng)的能力,才能保障技術(shù)的實(shí)時(shí)創(chuàng)新。金山辦公經(jīng)歷過(guò)很多次技術(shù)變革,所以我們對(duì)于新技術(shù)的敏感度和反應(yīng)速度都很快,對(duì)自己的要求也很高,基本上有什么新技術(shù)過(guò)來(lái)我們就快速擁抱,去了解它、應(yīng)用它,這樣就可以避免自己被新技術(shù)顛覆掉。
劉凌志:把短視頻和AI大模型相結(jié)合,始終是快手未來(lái)的一個(gè)方向。我們的優(yōu)化目標(biāo)也是比較明確的,即降低用戶的使用成本,因此非常希望產(chǎn)業(yè)界能夠出現(xiàn)有效降低推理中Cost per Token的解決方案,我們也非常愿意跟產(chǎn)業(yè)界的朋友合作,達(dá)成這個(gè)目標(biāo)。
陳煒鵬:大模型的不可靠來(lái)自兩點(diǎn)――時(shí)效性和幻覺(jué)問(wèn)題,對(duì)于百川智能來(lái)說(shuō),嘗試怎樣把搜索和大模型結(jié)合,用更經(jīng)濟(jì)的方式提供更好的解決方案,是我們?cè)诩夹g(shù)上想要探索的。
劉軍:生成式AI只是起點(diǎn),未來(lái)還有很遠(yuǎn)的路,需要持續(xù)不斷打造競(jìng)爭(zhēng)力的,需要更好的數(shù)據(jù)、更好的算法、更好的算力、更好的工程和更好的生態(tài)。訓(xùn)練好一個(gè)大模型,對(duì)工程能力有非常高的要求。而生態(tài)落地光是自己做肯定是做不成,一定聯(lián)合伙加入進(jìn)來(lái)一起打通一個(gè)能夠持續(xù)不斷跑起來(lái)的飛輪生態(tài)。
楊靜:怎么能通過(guò)產(chǎn)業(yè)生態(tài)合作來(lái)解決大模型發(fā)展當(dāng)中遇到的各種難題?
劉軍:浪潮信息有一句生態(tài)口號(hào)――"聚元腦生態(tài),助百模,智千行",助百模的客戶和伙伴能夠?yàn)榍邪贅I(yè)生智,這是我們生態(tài)的理念。我們注意到模型公司都是具備創(chuàng)新力的領(lǐng)先科技團(tuán)隊(duì),但是要落到千行百業(yè)的企業(yè)客戶、B端客戶的時(shí)候,實(shí)際上這里面還存在需要跨越的鴻溝。然而自己建立一個(gè)龐大的渠道體系和銷售體系,必然耗資巨大且效果不一定好。浪潮信息的元腦生態(tài)把模型伙伴、AI科技公司叫左手伙伴,把集成商、軟件商叫右手伙伴,三方攜起手來(lái)組成聯(lián)合解決方案,服務(wù)客戶,共同助力千行百業(yè)的智慧發(fā)生。
陳煒鵬:我們的商業(yè)化路徑還在探索中,而在構(gòu)建開(kāi)源影響力過(guò)程中接觸到很多企業(yè)使用我們的模型,通過(guò)跟蹤他們使用的過(guò)程,慢慢捕捉到企業(yè)需求,持續(xù)打磨產(chǎn)品。
劉凌志:快手作為一個(gè)終端的平臺(tái),非常注重和上下游的生態(tài)伙伴合作共贏,一方面給整個(gè)產(chǎn)業(yè)生態(tài)比較清晰的終端用戶需求,另外一方面通過(guò)輸出技術(shù)來(lái)持續(xù)打磨自己的技術(shù)。
熊龍飛:以往我們處于英雄主義時(shí)代,單個(gè)程序員可以寫出影響時(shí)代的軟件。但這個(gè)時(shí)代在變,所有的項(xiàng)目規(guī)模都變大了,尤其是大模型產(chǎn)業(yè)鏈變的非常長(zhǎng),底層硬件驅(qū)動(dòng)、硬件算法再加上方案系統(tǒng)以及應(yīng)用端的東西,一家公司已經(jīng)干不完所有的事情了。所以,這個(gè)時(shí)代一定是合作共贏的時(shí)代,我們?cè)谏鷳B(tài)中明確定位到應(yīng)用方,跟不同的產(chǎn)業(yè)鏈上的角色進(jìn)行合作,大家在每個(gè)環(huán)節(jié)上發(fā)揮自己最大的優(yōu)勢(shì),然后進(jìn)行合作共創(chuàng)。我相信通過(guò)上下游的合作國(guó)內(nèi)的大模型發(fā)展會(huì)非常好,非???。