AWS宣布具備EC2超級集群能力的Amazon EC2 P4d實例正式可用

由NVIDIA A100 Tensor Core GPUs和AWS PB級網(wǎng)絡(luò)支持的下一代加速計算實例，面向云端的機器學習訓練和高性能計算。與上一代實例相比訓練速度提升3倍，成本降低60%。

AWS

2020-11-06 11:44 4425

日前，亞馬遜云服務(wù)(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實例正式可用。

北京2020年11月6日 /美通社/ -- 日前，亞馬遜云服務(wù)(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實例正式可用。P4d是下一代GPU驅(qū)動的實例，與上一代的P3實例相比，在機器學習訓練和高性能計算(HPC)工作負載場景下，性能提升3倍，成本降低60%，GPU內(nèi)存增加2.5倍。P4d實例配備8顆NVIDIA A100 Tensor Core GPU，網(wǎng)絡(luò)帶寬達400 Gbps(比P3實例多16倍)。通過將P4d實例與AWS的Elastic Fabric Adapter(EFA)和NVIDIA GPUDirect RDMA(遠程直接訪問內(nèi)存)技術(shù)一起使用，客戶可以創(chuàng)建具備EC2超級集群功能的P4d實例。借助EC2超級集群，使用AWS設(shè)計的、與Amazon FSx for Lustre高性能存儲集成的PB級無阻塞網(wǎng)絡(luò)基礎(chǔ)架構(gòu)，客戶可將P4d實例擴展至超過4000多個A100 GPU(相當于其它云供應(yīng)商的2倍多)，獲得按需訪問的超算級性能，加速機器學習訓練和高性能計算。

如欲開始使用P4d實例，請訪問：https://aws.amazon.com/ec2/instance-types/p4

數(shù)據(jù)科學家和工程師們正不斷擴展機器學習的邊界，通過創(chuàng)建規(guī)模更大、更復(fù)雜的模型，從而為一系列廣泛用例提供更精準的預(yù)測，其中包括自動駕駛汽車的感知模型訓練、自然語言處理、圖像分類、對象檢測，以及預(yù)測分析。針對大量數(shù)據(jù)訓練這些復(fù)雜的模型是一項計算、網(wǎng)絡(luò)和存儲密集型任務(wù)，經(jīng)常耗時數(shù)天或數(shù)周?？蛻舨粌H想減少訓練模型的時間，也希望降低用于訓練的整體支出?？傮w來說，時間長和成本高限制了客戶訓練模型的頻率，降低了機器學習開發(fā)和創(chuàng)新的速度。

P4d實例增強的性能可將機器學習模型訓練時間縮短了3倍(將訓練時間從數(shù)天減少到數(shù)小時)，額外的GPU內(nèi)存可幫助客戶訓練更大、更復(fù)雜的模型。隨著數(shù)據(jù)變得越來越豐富，客戶訓練的模型有數(shù)百萬個甚至數(shù)十億個參數(shù)，例如用于文檔摘要和問題解答的自然語言處理、面向自動駕駛汽車的對象檢測與分類、用于大規(guī)模內(nèi)容審核的圖像分類、電子商務(wù)網(wǎng)站的推薦引擎，以及智能搜索引擎的排名算法，所有這些都需要更多的網(wǎng)絡(luò)吞吐量和GPU內(nèi)存。P4d實例具有8顆NVIDIA A100 Tensor Core GPU，單臺EC2實例混合精度性能高達2.5 petaflops，GPU內(nèi)存網(wǎng)絡(luò)帶寬高達320GB。P4d實例是業(yè)界首個提供400Gbps網(wǎng)絡(luò)帶寬的實例，通過Elastic Fabric Adapter (EFA)和NVIDIA GPUDirect RDMA網(wǎng)絡(luò)接口支持跨服務(wù)器的GPU之間直接通信，從而降低延遲，提高擴展效率，有助于消除跨多節(jié)點分布式工作負載的擴展瓶頸。每個P4d實例還提供96顆Intel Xeon Scalable(Cascade Lake)vCPU，1.1TB的系統(tǒng)內(nèi)存，以及8TB的本地NVMe存儲，以減少單節(jié)點的訓練時間。通過將上一代P3實例的性能提升一倍以上，P4d實例可將機器學習模型訓練的成本降低多達60%，與昂貴且不靈活的本地系統(tǒng)相比，為客戶帶來更高效的體驗。高性能計算客戶還將受益于P4d實例增加的處理性能和GPU內(nèi)存，滿足要求苛刻的工作負載，比如地震分析、藥物發(fā)現(xiàn)、DNA測序、材料科學、金融和保險風險建模。

P4d實例也構(gòu)建在AWS Nitro 系統(tǒng)之上，后者是AWS自己設(shè)計的硬件和軟件，讓AWS能夠向客戶提供越來越廣泛的EC2實例和配置選擇，同時提供與裸金屬無差別的性能，快速存儲和聯(lián)網(wǎng)能力，并確保更安全的多租戶。P4d實例將網(wǎng)絡(luò)功能卸載至專用的Nitro Cards上，加速多個P4d實例間的數(shù)據(jù)傳輸。Nitro Cards同時支持EFA和GPUDirect，支持GPU間跨服務(wù)器直接通信，實現(xiàn)P4d實例的EC2超級集群間更低的延遲表現(xiàn)和更強的伸縮性能。這些由Nitro驅(qū)動的能力讓客戶有可以在EC2超級集群中啟動P4d，按需和可擴展地訪問超過4000個GPU，以獲得超算級的性能。

“客戶使用AWS服務(wù)構(gòu)建、訓練和部署機器學習應(yīng)用的速度非?？?。與此同時，我們從客戶那里聽到他們希望以成本更低的方式來訓練其龐大的機器學習模型。”AWS EC2副總裁Dave Brown表示，“現(xiàn)在，通過NVIDIA最新的A100 GPU和PB級網(wǎng)絡(luò)支持的P4d實例的EC2超級集群，我們讓超算級的性能幾乎適用于所有人。同時與上一代實例相比，將訓練機器學習模型的時間縮短3倍，訓練成本降低高達60%。”

客戶可以使用Amazon Elastic Kubernetes Service (Amazon EKS)或Amazon Elastic Container Service (Amazon ECS)服務(wù)的AWS深度學習容器庫，在P4d實例上運行容器化應(yīng)用。要想獲得更加完整的托管體驗，客戶可以通過Amazon SageMaker使用P4d實例，從而使開發(fā)者和數(shù)據(jù)科學家能夠快速構(gòu)建、訓練和部署機器學習模型。高性能計算客戶可以利用AWS Batch和AWS ParallelCluster，使用P4d實例幫助高效協(xié)調(diào)任務(wù)和集群。P4d實例支持所有主要的機器學習框架，包括TensorFlow、PyTorch以及Apache MXNet，客戶可以靈活地選擇最適合其應(yīng)用的框架。P4d實例現(xiàn)已在美國東部(弗吉尼亞) and 美國西部(俄勒岡)區(qū)域可用，并計劃在其他區(qū)域很快推出。P4d實例可以按需購買，也可以使用Savings Plan、預(yù)留實例，或競價型實例進行購買。

豐田研究院(TRI)成立于2015年，致力于為豐田開發(fā)自動駕駛、機器人和其他人力擴充技術(shù)?！癟RI致力于創(chuàng)造讓每個人都可以自由移動的未來?！盩RI基礎(chǔ)設(shè)施工程技術(shù)總監(jiān)Mike Garrison表示，“上一代P3實例幫助我們將機器學習模型訓練時間從數(shù)天減少至數(shù)小時。非常期待使用P4d實例，其更多的GPU內(nèi)存和更高效的浮點格式可以讓我們的機器學習團隊更快速地訓練更復(fù)雜的模型?！?/p>

消息來源：AWS