亞馬遜云科技與英偉達(dá)攜手開發(fā)下一代基礎(chǔ)設(shè)施

亞馬遜云科技

2023-03-22 14:16 3760

助力大型機(jī)器學(xué)習(xí)模型訓(xùn)練和生成式AI應(yīng)用程序構(gòu)建
部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5實(shí)例經(jīng)過充分優(yōu)化，可以利用英偉達(dá) Hopper GPU加速生成式AI的大規(guī)模訓(xùn)練和推理

北京2023年3月22日 /美通社/ -- 亞馬遜旗下的亞馬遜云科技和英偉達(dá)宣布了一項(xiàng)多方合作，致力于構(gòu)建全球最具可擴(kuò)展性且按需付費(fèi)的人工智能（AI）基礎(chǔ)設(shè)施，以便訓(xùn)練日益復(fù)雜的大語言模型（LLM）和開發(fā)生成式AI應(yīng)用程序。

借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud（Amazon EC2）P5實(shí)例，以及亞馬遜云科技最先進(jìn)的網(wǎng)絡(luò)和可擴(kuò)展性，此次合作將提供高達(dá)20 exaFLOPS的計(jì)算性能來幫助構(gòu)建和訓(xùn)練更大規(guī)模的深度學(xué)習(xí)模型。P5實(shí)例將是第一個(gè)利用亞馬遜云科技第二代Amazon Elastic Fabric Adapter（EFA）網(wǎng)絡(luò)技術(shù)的GPU實(shí)例，可提供3200 Gbps的低延遲和高帶寬網(wǎng)絡(luò)吞吐量。因此客戶能夠在Amazon EC2 UltraCluster中擴(kuò)展多達(dá)2萬個(gè)H100 GPU，滿足按需訪問超級計(jì)算機(jī)的AI性能需求。

"亞馬遜云科技和英偉達(dá)合作已超過12年，為人工智能、機(jī)器學(xué)習(xí)、圖形、游戲和高性能計(jì)算（HPC）等各種應(yīng)用提供了大規(guī)模、低成本的GPU解決方案。"亞馬遜云科技首席執(zhí)行官Adam Selipsky表示，"亞馬遜云科技在交付基于GPU的實(shí)例方面擁有無比豐富的經(jīng)驗(yàn)，每一代實(shí)例都大大增強(qiáng)了可擴(kuò)展性，如今眾多客戶將機(jī)器學(xué)習(xí)訓(xùn)練工作負(fù)載擴(kuò)展到1萬多個(gè)GPU。借助第二代Amazon EFA，客戶能夠?qū)⑵銹5實(shí)例擴(kuò)展到超過2萬個(gè)英偉達(dá)H100 GPU，為包括初創(chuàng)公司、大企業(yè)在內(nèi)的所有規(guī)模客戶提供所需的超級計(jì)算能力。"

"加速計(jì)算和人工智能已經(jīng)到來，而且適逢其時(shí)。加速計(jì)算提升性能的同時(shí)，降低了成本和功耗，讓企業(yè)事半功倍。生成式AI已促使企業(yè)重新思考產(chǎn)品和商業(yè)模式，力求成為顛覆者，而不是被顛覆。"英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示，"亞馬遜云科技是英偉達(dá)的長期合作伙伴，也是首家提供英偉達(dá)GPU的云服務(wù)提供商。我們很高興能夠結(jié)合各自的專長、規(guī)模和業(yè)務(wù)范圍，幫助客戶利用加速計(jì)算和生成式AI抓住未來的大好機(jī)遇。"

新的超級計(jì)算集群

新的P5實(shí)例構(gòu)建于亞馬遜云科技和英偉達(dá)十多年來在AI和HPC基礎(chǔ)設(shè)施交付方面的合作基礎(chǔ)之上，也立足于雙方在P2、P3、P3dn和P4d(e）前四代實(shí)例方面的合作。P5實(shí)例是基于英偉達(dá)GPU的第五代亞馬遜云科技產(chǎn)品，與最初部署的英偉達(dá)GPU（始于CG1實(shí)例）已相隔近13年。

P5實(shí)例非常適合對日益復(fù)雜的LLM和計(jì)算機(jī)視覺模型進(jìn)行訓(xùn)練和運(yùn)行推理，并應(yīng)用于要求嚴(yán)苛的計(jì)算密集型生成式AI應(yīng)用程序，包括問題回答、代碼生成、視頻圖像生成和語音識別等領(lǐng)域。

對于致力于以可擴(kuò)展和安全的方式將AI賦能的創(chuàng)新推向市場的企業(yè)和初創(chuàng)公司而言，P5實(shí)例是不二之選。P5實(shí)例采用8個(gè)英偉達(dá)H100 GPU，能夠在一個(gè)Amazon EC2實(shí)例中實(shí)現(xiàn)16 petaFLOPs的混合精度性能、640 GB的高帶寬內(nèi)存和3200 Gbps的網(wǎng)絡(luò)連接（比上一代實(shí)例高出8倍）。P5實(shí)例性能的提升使機(jī)器學(xué)習(xí)模型訓(xùn)練時(shí)間加快了6倍（將訓(xùn)練時(shí)間從數(shù)天縮短到數(shù)小時(shí)），額外的GPU內(nèi)存可幫助客戶訓(xùn)練更龐大更復(fù)雜的模型。預(yù)計(jì)P5實(shí)例的機(jī)器學(xué)習(xí)模型訓(xùn)練成本將比上一代降低40%。相比靈活性較差的云產(chǎn)品或昂貴的本地系統(tǒng)，它為客戶提供了更高的效率。

Amazon EC2 P5實(shí)例部署在Amazon EC2 UltraCluster的超大規(guī)模集群中，該集群由云端最高性能的計(jì)算、網(wǎng)絡(luò)和存儲系統(tǒng)組成。每個(gè)EC2 UltraCluster都是世界上功能最強(qiáng)大的超級計(jì)算機(jī)之一，助力客戶運(yùn)行最復(fù)雜的多節(jié)點(diǎn)機(jī)器學(xué)習(xí)訓(xùn)練和分布式HPC工作負(fù)載。它們采用PB級無阻塞網(wǎng)絡(luò)，基于Amazon EFA，這種面向Amazon EC2實(shí)例的網(wǎng)絡(luò)接口使客戶能夠在亞馬遜云科技上運(yùn)行需要在大規(guī)模高級節(jié)點(diǎn)間通信的應(yīng)用程序。EFA的定制操作系統(tǒng)繞過硬件接口，并與英偉達(dá)GPUDirect RDMA整合，可降低延遲、提高帶寬利用率，從而提升實(shí)例間通信性能，這對于在數(shù)百個(gè)P5節(jié)點(diǎn)上擴(kuò)展深度學(xué)習(xí)模型的訓(xùn)練至關(guān)重要。借助P5實(shí)例和EFA，機(jī)器學(xué)習(xí)應(yīng)用程序可以使用NVIDIA Collective Communications Library（NCCL）擴(kuò)展到多達(dá)2萬個(gè)H100 GPU。因此，客戶可以通過亞馬遜云科技的按需彈性和靈活擴(kuò)展能力，獲得本地HPC集群的應(yīng)用性能。除了這些出色的計(jì)算能力外，客戶可以使用業(yè)界最廣泛最深入的服務(wù)組合，比如面向?qū)ο蟠鎯Φ?a target="_blank" rel="nofollow">Amazon S3、面向高性能文件系統(tǒng)的Amazon FSx，以及用于構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)應(yīng)用的Amazon SageMaker。P5實(shí)例將在今后幾周提供有限預(yù)覽版。欲了解詳情，請?jiān)L問https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的Amazon EC2 P5實(shí)例，Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客戶將能夠大規(guī)模構(gòu)建和訓(xùn)練最龐大的機(jī)器學(xué)習(xí)模型?；谄渌鼛状鶤mazon EC2實(shí)例的合作將幫助初創(chuàng)公司、大企業(yè)和研究人員無縫擴(kuò)展來滿足各自的機(jī)器學(xué)習(xí)需求。

Anthropic構(gòu)建了可靠、可解釋和可操控的AI系統(tǒng)，將創(chuàng)造巨大商業(yè)價(jià)值并造福公眾。 "Anthropic正在努力構(gòu)建可靠、可解釋和可操控的AI系統(tǒng)。雖然當(dāng)前已有的大型通用AI系統(tǒng)大有助益，但它們卻是不可預(yù)測、不可靠和不透明的。我們的目的是解決這些問題，為人們部署更實(shí)用的系統(tǒng)。"Anthropic的聯(lián)合創(chuàng)始人Tom Brown表示，"我們是全球?yàn)閿?shù)不多的在深度學(xué)習(xí)研究領(lǐng)域建立基礎(chǔ)模型的組織之一。這種模型高度復(fù)雜，為了開發(fā)和訓(xùn)練先進(jìn)的模型，我們需要在龐大的GPU集群中有效地分布這些模型。我們正在廣泛應(yīng)用Amazon EC2 P4實(shí)例，我們更為即將發(fā)布的P5實(shí)例感到興奮。預(yù)計(jì)P5實(shí)例會提供比P4d實(shí)例更顯著的性價(jià)比優(yōu)勢，它們可以滿足構(gòu)建下一代大語言模型和相關(guān)產(chǎn)品的大規(guī)模需求。"

Cohere是自然語言AI領(lǐng)域的先驅(qū)，它幫助開發(fā)者和企業(yè)使用世界領(lǐng)先的自然語言處理（NLP）技術(shù)構(gòu)建出色的產(chǎn)品，同時(shí)確保數(shù)據(jù)的隱私和安全。 "Cohere不遺余力地幫助企業(yè)利用自然語言AI的強(qiáng)大功能，以自然直觀的方式探索、生成和搜索信息，并做出反應(yīng)，并將產(chǎn)品部署在多云的數(shù)據(jù)環(huán)境中，為客戶提供最佳體驗(yàn)。"Cohere首席執(zhí)行官Aidan Gomez表示，"基于英偉達(dá)H100的Amazon EC2 P5實(shí)例將釋放企業(yè)潛能，利用計(jì)算能力以及Cohere最先進(jìn)的LLM和生成式AI能力，更快地開發(fā)產(chǎn)品、拓展業(yè)務(wù)和擴(kuò)大規(guī)模。"

Hugging Face的使命是普及優(yōu)秀的機(jī)器學(xué)習(xí)。 "作為發(fā)展最迅猛的機(jī)器學(xué)習(xí)開源社區(qū)，我們?nèi)缃裨诿嫦騈LP、計(jì)算機(jī)視覺、生物學(xué)和強(qiáng)化學(xué)習(xí)等領(lǐng)域的平臺上提供逾15萬個(gè)預(yù)訓(xùn)練模型和2.5萬個(gè)數(shù)據(jù)集。"Hugging Face首席技術(shù)官兼聯(lián)合創(chuàng)始人Julien Chaumond表示，"鑒于大語言模型和生成式AI取得了顯著進(jìn)步，我們正與亞馬遜云科技合作，以構(gòu)建和貢獻(xiàn)未來的開源模型。我們希望在結(jié)合了EFA的UltraCluster集群中通過大規(guī)模Amazon SageMaker使用Amazon EC2 P5實(shí)例，加快為所有客戶交付新的基礎(chǔ)AI模型。"

如今，全球超過4.5億人通過Pinterest尋找視覺靈感，以購買符合自己品味的個(gè)性化產(chǎn)品、尋求線下創(chuàng)意，并發(fā)現(xiàn)最有才華的創(chuàng)作者。 "我們在用例中廣泛使用深度學(xué)習(xí)技術(shù)，比如對上傳到我們平臺上的數(shù)十億張照片進(jìn)行標(biāo)記和分類，以及讓用戶獲得從靈感到付諸行動的視覺搜索能力。"Pinterest首席架構(gòu)師David Chaiken表示，"我們使用P3和最新的P4d等Amazon GPU實(shí)例構(gòu)建和部署了這些應(yīng)用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5實(shí)例，加快產(chǎn)品開發(fā)，為我們的客戶提供共情式AI（Empathetic AI）體驗(yàn)。"

作為多模態(tài)、開源AI模型開發(fā)和部署領(lǐng)域的領(lǐng)導(dǎo)者，Stability AI與公共和私營部門的合作伙伴合作，將這種下一代基礎(chǔ)架構(gòu)提供給全球受眾。 "Stability AI的目標(biāo)是最大限度地提高現(xiàn)代AI的普及性，以激發(fā)全球創(chuàng)造力和創(chuàng)新性。"Stability AI首席執(zhí)行官Emad Mostaque表示，"我們于2021年開始與亞馬遜云科技合作，使用Amazon EC2 P4d實(shí)例構(gòu)建了一個(gè)潛在的文本到圖像擴(kuò)散模型Stable Diffusion，我們將該模型部署在大規(guī)模環(huán)境下，將模型訓(xùn)練時(shí)間從數(shù)月縮短到數(shù)周。當(dāng)致力于開發(fā)下一代開源生成式AI模型并擴(kuò)展到新模型時(shí)，我們很高興能使用第二代EC2 UltraCluster中的Amazon EC2 P5實(shí)例。我們預(yù)計(jì)P5實(shí)例會進(jìn)一步將我們的模型訓(xùn)練時(shí)間縮短4倍，從而使我們能夠以更低的成本更快地提供突破性的AI。"

為可擴(kuò)展、高效的AI采用新的服務(wù)器設(shè)計(jì)

在H100發(fā)布之前，英偉達(dá)和在熱力、電氣和機(jī)械領(lǐng)域擁有專業(yè)知識的亞馬遜云科技工程團(tuán)隊(duì)合作設(shè)計(jì)了服務(wù)器，以利用GPU提供大規(guī)模AI，重點(diǎn)關(guān)注亞馬遜云科技基礎(chǔ)設(shè)施的能源效率。在某些AI工作負(fù)載下，GPU的能效通常是CPU的20倍，對于LLM而言，H100的能效比CPU高300倍。

雙方的合作包括開發(fā)系統(tǒng)散熱設(shè)計(jì)、集成式安全和系統(tǒng)管理、與Amazon Nitro硬件加速虛擬機(jī)管理程序一起實(shí)現(xiàn)安全性，以及針對亞馬遜云科技定制EFA網(wǎng)絡(luò)結(jié)構(gòu)的英偉達(dá)GPUDirect?優(yōu)化技術(shù)。

在亞馬遜云科技和英偉達(dá)專注于服務(wù)器優(yōu)化工作的基礎(chǔ)上，兩家公司現(xiàn)已開始合作開發(fā)未來的服務(wù)器設(shè)計(jì)，以借助新一代系統(tǒng)設(shè)計(jì)、冷卻技術(shù)和網(wǎng)絡(luò)可擴(kuò)展性提高擴(kuò)展效率。

消息來源：亞馬遜云科技