omniture

AICC圓桌對話:打破跟隨,實現(xiàn)大模型創(chuàng)新能力突破

2023-12-12 15:29

北京2023年12月12日 /美通社/ -- 2023年,全球科技領域最重要的事,就是新一輪人工智能大模型競賽。隨著OpenAI公司發(fā)布ChatGPT一鳴驚人,國產大模型如雨后春筍般噴涌而出,"百模大戰(zhàn)"盛況吸引全球關注,大模型的發(fā)展速度日新月異。然而,大模型早已從單一技術比拼,升級為整個體系生態(tài)的競爭,決勝關鍵點在于誰能夯實基礎、系統(tǒng)布局,更好迎接AI驅動的"算力時代"。

近日,在AICC 2023人工智能計算大會上,新智元創(chuàng)始人&CEO楊靜在大模型創(chuàng)新主題圓桌論壇,與循環(huán)智能AI負責人陳虞君、中國科學院自動化研究所研究員張家俊、浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華圍繞大模型時代的智算機遇、痛點與破局之道展開思想碰撞。


與會嘉賓指出,中國大模型發(fā)展與應用落地仍處于探索時期,需要在算法、數(shù)據(jù)、算力三方面進行創(chuàng)新,通過用戶反饋和實踐創(chuàng)新反哺大模型,進一步夯實基礎大模型技術,推動大模型的場景化落地。

以下是圓桌問答實錄整理:

楊靜:百模大戰(zhàn)各顯神通,頭部的玩家結合自己的優(yōu)勢布局大模型,也想請各位分享一下各自的大模型業(yè)務布局。

陳虞君:"提升大模型長文本能力,降低幻覺問題"

循環(huán)智能基于ToB的服務經驗,我們希望能夠讓大模型的長文本能力盡可能在各種企業(yè)應用上產生價值,同時降低大模型幻覺問題。我們的業(yè)務也是基于如何提升改善大模型這兩個能力展開的,希望利用這兩個特性產生一些針對企業(yè)的更好用的大模型應用。

張家俊:"打造多模態(tài)大模型,解決實際問題"

我們暫時還沒有成立工程實體,業(yè)務布局更多的是ToB和ToG。除此之外,我們在做多模態(tài)大模型,可以更容易地落地行業(yè)場景。我們不強調是大語言模型或者多模通用,而是在實際場景當中解決實際問題,通過我們的探索,確實比以前降本增效了,之前解決不了的問題能夠解決了。

吳韶華:"筑基基礎大模型,助力行業(yè)落地"

浪潮信息始終把精力投入在基礎模型創(chuàng)新層面,全面的賦能應用層的開發(fā)者、元腦生態(tài)伙伴去觸達最終的用戶。我們認為當前在大模型領域,只有先把基礎模型能力真正提上去了,大模型在行業(yè)應用層面才能真正解決碎片化的問題,才能更好的支撐行業(yè)場景的落地。

楊靜:基礎大模型發(fā)展的技術突破口是什么?我們應該如何破局,才能創(chuàng)造出高性能的大模型,盡快追趕上GPT4?

吳韶華:"算法數(shù)據(jù)雙創(chuàng)新,打造內部飛輪"

如果想接近甚至超越GPT4的能力,一定要同時考慮算法和數(shù)據(jù)。首先是算法,不能一味的使用LIama結構或者Transformer結構,而不做任何創(chuàng)新。其次是數(shù)據(jù),OpenAI的數(shù)據(jù)飛輪效應是非常顯著的,他們可以通過各種途徑收集非常多的實際用戶的真實反饋。在這種情況下,想要接近甚至超過GPT4的核心是創(chuàng)新,尤其是算法和數(shù)據(jù)兩方面的創(chuàng)新。

基于源2.0的實踐,為了獲取高質量的中文數(shù)學數(shù)據(jù),我們清洗了從2018年至今約12PB的數(shù)據(jù),最后僅得到10GB的中文數(shù)學數(shù)據(jù)。而這不到10GB數(shù)據(jù)還有很大的質量提升的空間。對此,我們選擇用大模型合成數(shù)據(jù),構建了內部的數(shù)據(jù)清洗工具和平臺,利用工具快速實現(xiàn)了內部獲取非常緊缺的數(shù)據(jù)、高質量的數(shù)據(jù)。

張家?。?quot;跟隨無法超越,大膽創(chuàng)新、大膽嘗試,利用專長能力解決實際問題"

在追趕和超越GPT4的過程中,我們面臨著不知道它的算法,不知道用了哪些數(shù)據(jù)的問題,這使得我們無法跟隨和全面驗證GPT4,只能在某些數(shù)據(jù)集上,在某些能力上超越了GPT4,沒有一個全面的、公認的度量標準。所以跟隨它永遠超越不了,我覺得應該是創(chuàng)新。一方面要從數(shù)據(jù)配比層面創(chuàng)新,另外從模型算法創(chuàng)新,在模型結構上大膽嘗試、大膽變化,跟隨是解決不了根本問題的。

值得注意的是,我們并不一定需要達到GPT4的能力才能將技術應用于實際場景中,比如我們解決了模態(tài)方面的理解問題,解決了可控性,安全性的問題,很多領域都可以用,沒有必須達到GPT4的能力。

陳虞君:"以終為始,加強用戶共創(chuàng),發(fā)現(xiàn)模型局限性問題,實現(xiàn)創(chuàng)新突破" 

對于大模型來說不存在真正意義上的突破點,比如沒有大模型技術之前,谷歌的機器翻譯做的就很好了。不同的問題會有不同的臨界點,我們需要具體分析,有些問題可能大模型可以直接解決,而有些問題則可能需要長時間的迭代。其次,我們不應只追求如何追趕或者超越GPT4,從構建、訓練一個大模型的角度來說,我們更應該去思考怎么樣讓大模型理解人類的意圖,讓大模型真正幫助我們完成任務。

我們以終為始去看這個問題,發(fā)現(xiàn)當前的模型存在很多局限性,比如不能支持長文本、存在幻覺、語義理解輸出不穩(wěn)定,包括GPT4也存在一些局限。這塊我們做了兩方面努力,一方面,所以我們孵化了一家ToC的公司,與所有使用模型的用戶進行共創(chuàng)。另一方面,我們也廣泛的和我們B端的合作伙伴進行共創(chuàng),讓模型在合作伙伴身上產生價值。我們相信,只有盡可能多的使用模型,才能知道模型的局限點在哪里,才能夠有所創(chuàng)新突破。

楊靜:目前堆算力一直被認為是驅動大模型進化的有效手段,但是算力荒已經成為業(yè)界共有的問題,從貴公司的發(fā)展狀況來看,對于創(chuàng)新基礎設施,提升大模型訓練效率層面有哪些可以分享的經驗?

陳虞君:"用盡可能少的真實的數(shù)據(jù)實現(xiàn)盡可能好的訓練效果"

算力荒現(xiàn)在是普遍存在的問題,OpenAI也會存在算力荒。我們能夠做的就是在盡可能少的資源的情況下,能夠通過算法、數(shù)據(jù)上的創(chuàng)新,來應對這一問題。我們可以利用盡可能少的真實的數(shù)據(jù)實現(xiàn)盡可能好的效果,我們節(jié)省了很多算力的情況下達到了相近或者更好的效果這種形式。從算法上來說我們借助非常好的訓練方法,讓模型盡可能需要少的算力的情況下達到盡可能好的效果。

張家?。?quot;算力是重要因素,但算力荒不會阻礙創(chuàng)新"

算力在訓練大模型時確實是一個重要因素,OpenAI使用大算力訓練出的模型表現(xiàn)確實優(yōu)于小算力訓練出來的小模型,這是公認的事實。然而,這并不意味著我們必須擁有與OpenAI相當?shù)乃懔Σ拍苓M行創(chuàng)新,算力不會阻礙我們的創(chuàng)新。盡管我們可能需要訓練更長的時間,比如OpenAI訓練兩個月的時間我們需要訓練半年,但只要我們擁有適當?shù)乃惴ê蛿?shù)據(jù),我們仍然可以實現(xiàn)創(chuàng)新。

吳韶華:"大模型結構、分布式訓練算法、數(shù)據(jù)協(xié)同優(yōu)化,降低算力需求"

這個問題的本質在于大模型訓練時,大家普遍認為算力越大模型性能越高,但實際上這個觀念主要來自于早期的研究,當模型參數(shù)量和數(shù)據(jù)量增大時,模型的精度會有所提升。但這種提升會被折算到算力上,導致形成了算力越大模型性能越高的觀念。但現(xiàn)在的大模型訓練范式已經發(fā)生了變化,引入了指令微調,幾千條高質量的數(shù)據(jù)就可以提升模型能力,所以是否需要在預訓練階段投入大量算力成為了一個問題。

根據(jù)開發(fā)源2.0的經驗來看,我們清洗了互聯(lián)網(wǎng)上12PB的數(shù)據(jù),只得到了10GB的中文數(shù)學數(shù)據(jù)。在這種情況下追求數(shù)據(jù)的體量沒有意義,如果能夠找到有效的手段把數(shù)據(jù)量降下來,算力需求就會降下來。在源2.0的開發(fā)過程中,我們整體數(shù)據(jù)體量并不大,但是內部評估質量非常高,這是提升算力效率的一個非常有效的手段。同時在設計模型結構的時候,在相同的架構下盡可能降低參數(shù)量,這樣能提升參數(shù)效率,也能節(jié)省算力,相當于從算法層面考慮算力的開銷。除此之外,目前成型的分布式訓練算法,實現(xiàn)的前提是芯片之間的P2P帶寬要足夠高,要滿足張量并行對于通信巨大的需求。對于這種情況,我們針對算力大規(guī)模分布訓練做了額外的工作,可以降低大模型訓練過程中對于通信帶寬的需求,可以用更多樣化的設備訓練大模型。

楊靜:大型預訓練模型已經展現(xiàn)出了強大的性能,但在行業(yè)中的應用仍然面臨一些挑戰(zhàn),如部署、定制化、數(shù)據(jù)隱私和安全性等問題。那么,大家認為大型預訓練模型應如何走向行業(yè)并發(fā)揮其潛力呢?

陳虞君:"攜手合作伙伴、行業(yè)專家教授大模型行業(yè)知識"

循環(huán)智能從2019年開始做商業(yè)化落地,一直在思考如何實現(xiàn)AI模型落地行業(yè),所以在推出相關產品的時候,也關注了一些包括銀行、保險、汽車、房產等在內的十個左右的行業(yè)需求。今年在使用大模型去解決各個行業(yè)問題的時候,我們發(fā)現(xiàn)大模型落地一個比較有挑戰(zhàn)的點是每個行業(yè)都有不一樣的專業(yè)知識和knowhow,比如法律公司對模型的輸出準確性要求非常高,需要模型讀懂整篇的法律法規(guī),并且必須一字不差地輸出法規(guī)內容,同時需要模型記住法律法規(guī)對應的章節(jié)號;而在房地產營銷的場景,通過對銷售與客戶溝通場景的抽取,我們發(fā)現(xiàn)類似于"200的500"這種的行業(yè)"黑話",代表了房子面積是200平米,對應的是500萬的價格;而對于金融行業(yè)需要理解財報表格信息,這些都是大模型落地行業(yè)過程中我們遇到的問題。所以實現(xiàn)大模型落地行業(yè)的最重要的一個步驟,就是和合作伙伴、行業(yè)專家一起去教授大模型行業(yè)知識。同時,我們也在構建一個合作的形式,能夠讓盡可能多的合作伙伴加入一起打造大模型,通過大量的客戶反饋,發(fā)現(xiàn)模型當前存在的問題,找到下階段的進化方向。

張家?。?quot;放低姿態(tài),用戶預期管理,多接觸,多耐心"

第一,放低姿態(tài)。我們的大模型是讓大家拿去直接用的,很多場景下我們要放低自己的姿態(tài)。第二,用戶預期管理。我們需要給出一個解決問題所需時間的預期,因為不同行業(yè)會有各種不同的問題需要解決,我們要避免給客戶過高的預期,實事求是地解決問題。第三,多接觸。讓大家多使用,發(fā)現(xiàn)問題、解決問題,從用戶反饋的角度會越來越好。第四,多耐心。不管做大模型,還是作為用戶,培養(yǎng)大家多耐心,未來肯定越來越好。

吳韶華:"大模型共訓,賦能開發(fā)者觸達應用場景"

對于源2.0模型來說,我們推出大模型共訓計劃,這個計劃的核心出發(fā)點希望能夠讓我們的研發(fā)團隊,能夠接觸到所有的開發(fā)者。開發(fā)者提出自己的應用或場景的需求,提供1~2條示例,由我們來準備訓練數(shù)據(jù)并對源大模型進行增強訓練,訓練后的模型依然在社區(qū)開源。同時,我們還有另外一種形式,浪潮信息會賦能合作伙伴,把我們在模型能力上的經驗提供給他們,助力伙伴們把這些應用到行業(yè)當中。

楊靜:現(xiàn)如今大家都面臨著算力緊缺的問題,大模型訓練也離不開充足算力的支持。所以請問各位嘉賓,目前看到或者正在做哪些工作來適應算力多元化的時代趨勢的?

陳虞君:"避免算力重復和浪費,集中行業(yè)知識合作共訓"

大家的訓練應該是合作共訓的邏輯,不同的行業(yè)會有不同的知識,我們應該盡可能地匯聚這些知識,利用有限的算力資源共訓,這樣就能夠達到節(jié)省算力的地步,避免大量算力的重復和浪費。

張家俊:"不會把雞蛋放在一個籃子里,走國產化大模型之路"

我們的做法是不會把雞蛋放在一個籃子里,我們也會用到國內外的各種算力。我們從2020年開始走國產化的大模型道路,一直堅持這條路,幾乎國內所有的芯片算力都適配過,這樣可以保證我們有能力保留訓練大模型的方案。

吳韶華:"從系統(tǒng)層面應對算力多元化趨勢"

浪潮信息開發(fā)了一套框架,利用這套框架里面的一層,可以專門管理各類算力,我們從系統(tǒng)的角度為業(yè)界面向多元算力提供一個方案。

消息來源:浪潮信息