AI性能突破1Eflop!英偉達DGX GH200發(fā)布:256個(gè)GH200芯片,144TB共享內存!
5月29日,AI芯片大廠(chǎng)NVIDIA(英偉達)CEO黃仁勛在COMPUTEX 2023展前發(fā)布會(huì )上,正式發(fā)布了全新的GH200 Grace Hopper超級芯片,以及基于NVIDIA NVLink Switch System 驅動(dòng)的擁有256個(gè)GH200超級芯片的NVIDIA DGX GH200超級計算機,旨在助力開(kāi)發(fā)面向生成式AI語(yǔ)言應用、推薦系統和數據分析工作負載的巨型、下一代模型。
黃仁勛表示:“生成式AI、大型語(yǔ)言模型和推薦系統是現代經(jīng)濟的數字引擎。DGX GH200 AI超級計算機集成了NVIDIA最先進(jìn)的加速計算和網(wǎng)絡(luò )技術(shù)來(lái)拓展AI的前沿?!?/p>
GH200超級芯片:整合了Grace CPU和H100 GPU,擁有2000億個(gè)晶體管
GH200超級芯片使用NVIDIA NVLink-C2C芯片互連,將基于A(yíng)rm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在了一起,以提供CPU+GPU一致性?xún)却婺P停?/span>從而不再需要傳統的CPU至GPU PCIe連接。與最新的PCIe Gen5技術(shù)相比,這也將GPU和CPU之間的帶寬提高了7倍,將互連功耗減少了5倍以上,并為DGX GH200超級計算機提供了一個(gè)600GB的Hopper架構GPU構建模塊。
具體來(lái)說(shuō), GH200超級芯片,是將 72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個(gè)封裝中,擁有高達 2000 億個(gè)晶體管。這種組合提供了 CPU 和 GPU 之間驚人的數據帶寬,高達 900G / s,為某些內存受限的工作負載提供了巨大的優(yōu)勢。
黃仁勛表示,GH200 Grace Hopper超級芯片已全面投產(chǎn),將可為運行復雜的AI和高性能計算工作負載提供動(dòng)力。
NVIDIA DGX GH200:AI性能突破1 Exaflop
NVIDIA此前的 DGX A100 系統只能將八個(gè) A100 GPU 聯(lián)合起來(lái)作為一個(gè)單元,面對生成式人工智能大模型對于算力的爆炸式增長(cháng),NVIDIA的客戶(hù)迫切需要更大、更強大的系統。DGX GH200就是為了提供最大的吞吐量和可擴展性而設計的。
DGX GH200通過(guò)定制的NVLink Switch System(包含 36 個(gè) NVLink 開(kāi)關(guān))將256個(gè)GH200超級芯片和高達144TB的共享內存連接成一個(gè)單元,避免標準集群連接選項(如 InfiniBand 和以太網(wǎng))的限制,這種新的互連方式使DGX GH200系統中的256個(gè)H100 GPU作為一個(gè)整體協(xié)同運行,使其成為了專(zhuān)為最高端的人工智能和高性能計算工作負載而設計的系統和參考架構。可支持數萬(wàn)億參數AI大模型訓練。
△DGX GH200相比上代DGX A100的共享內存容量提升了近500倍。
在 DGX GH200 系統中,GPU 線(xiàn)程可以使用 NVLink 頁(yè)表尋址來(lái)自 NVLink 網(wǎng)絡(luò )中其他 Grace Hopper 超級芯片的對等 HBM3 和 LPDDR5X 內存。NVIDIA Magnum I/O加速庫優(yōu)化 GPU 通信以提高效率,增強所有 256 個(gè) GPU 的應用程序擴展。
△包含 256 個(gè) GPU 的 NVIDIA DGX GH200與NVLink系統的拓撲結構
DGX GH200系統中的每個(gè)Grace Hopper Superchip 都與一個(gè)NVIDIA ConnectX-7網(wǎng)絡(luò )適配器和一個(gè)NVIDIA BlueField-3 NIC配對。DGX GH200 擁有 128 TBps 對分帶寬和 230.4 TFLOPS 的 NVIDIA SHARP 網(wǎng)內計算,可加速 AI 中常用的集體操作,并通過(guò)減少集體操作的通信開(kāi)銷(xiāo),將 NVLink 網(wǎng)絡(luò )系統的有效帶寬提高一倍。ConnectX-7 適配器還可以互連多個(gè)DGX GH200 系統,以擴展到超過(guò)256個(gè)GPU的更大的解決方案。
黃仁勛表示,DGX GH200 是“巨型 GPU”,這也是NVIDIA第一次使用 NVLink Switch 拓撲結構來(lái)構建整個(gè)超級計算機集群,這種結構提供了比前一代系統高出10倍的GPU到GPU帶寬,以及7倍的CPU到GPU的帶寬。它還設計了提供比競爭對手高出 5 倍的互連功耗效率和高達 128 TB / s 的對分帶寬。該系統有 150 英里(約 241.4公里)的光纖,并且重達 4 萬(wàn)磅(約18.14噸),但是呈現出來(lái)就像一個(gè)單一的 GPU。
具體性能方面,得益于DGX GH200高達144TB的共享內存,使得其對于受 GPU內存大小瓶頸影響的AI和HPC應用程序的性能有了極大的提升。例如具有 TB 級嵌入式表的深度學(xué)習推薦模型 (DLRM)、TB 級圖形神經(jīng)網(wǎng)絡(luò )訓練模型或大型數據分析工作負載中,使用 DGX GH200 可實(shí)現 4 至 7 倍的加速。這表明 DGX GH200 是更高級的 AI 和 HPC 模型的更好解決方案,這些模型需要海量?jì)却鎭?lái)進(jìn)行 GPU 共享內存編程。
△大內存 AI 工作負載的性能比較
憑借256個(gè)GH200超級芯片的加持,DGX GH200 的“AI 性能”也達到了 1 exaflop(一百萬(wàn)萬(wàn)億次)級別。
在軟件工具方面,DGX GH200超級計算機還配備了NVIDIA軟件,可為最大的AI和數據分析工作負載提供一個(gè)交鑰匙式全棧解決方案。NVIDIA Base Command軟件提供AI工作流程管理、企業(yè)級集群管理和多個(gè)加速計算、存儲和網(wǎng)絡(luò )基礎設施的庫,以及為運行AI工作負載而優(yōu)化的系統軟件。
此外還包含NVIDIA AI Enterprise,即NVIDIA AI平臺的軟件層。它提供100多個(gè)框架、預訓練模型和開(kāi)發(fā)工具,以簡(jiǎn)化生成式AI、計算機視覺(jué)、語(yǔ)音AI等生產(chǎn)AI的開(kāi)發(fā)和部署。
谷歌云、Meta和微軟將首批采用
據介紹,谷歌云、Meta和微軟將有望成為首批通過(guò)接入DGX GH200系統,來(lái)探索其用于生成式AI工作負載的能力的公司。NVIDIA還打算將DGX GH200設計作為藍圖提供給云服務(wù)提供商和其他超大規模企業(yè),以便他們能夠進(jìn)一步根據他們自己的基礎設施進(jìn)行定制。
谷歌云計算副總裁Mark Lohmeyer表示:“構建先進(jìn)的生成式模型需要創(chuàng )新的AI基礎設施。Grace Hopper超級芯片的全新NVLink和共享內存解決了大規模AI的關(guān)鍵瓶頸,我們期待它在谷歌云以及我們的生成式AI計劃中發(fā)揮強大的能力?!?/p>
Meta基礎設施、AI系統及加速平臺副總裁Alexis Bj?rlin表示:“隨著(zhù)AI模型規模越來(lái)越大,它們需要可擴展的強大基礎設施,以滿(mǎn)足不斷增長(cháng)的需求。NVIDIA的Grace Hopper設計看起來(lái)能夠讓研究人員探索新的方法來(lái)解決他們面臨的最巨大挑戰?!?/p>
微軟Azure基礎設施企業(yè)副總裁Girish Bablani表示, “在以往訓練大型AI模型是一項資源和時(shí)間密集型任務(wù)。DGX GH200 所具備的處理TB級數據集的潛力使得開(kāi)發(fā)人員能夠在更大的規模和更快的速度下進(jìn)行高級別的研究?!?/p>
全新NVIDIA Helios超級計算機年底推出
NVIDIA正在打造自己的基于DGX GH200的AI超級計算機,以支持研發(fā)團隊的工作。據介紹,這臺名為NVIDIA Helios的超級計算機將配備四個(gè)DGX GH200系統。每個(gè)都將通過(guò)NVIDIA Quantum-2 InfiniBand 400 Gb / s 網(wǎng)絡(luò )互連,以提高訓練大型AI模型的數據吞吐量。Helios將包含1024個(gè)Grace Hopper超級芯片,預計將于今年年底上線(xiàn)。
NVIDIA MGX 系統
NVIDIA DGX 面向最高端市場(chǎng)的AI系統,HGX 系統則是面向超大規模數據中心,此次NVIDIA還新推出了介于這兩者之間的的NVIDIA MGX 系統。
NVIDIA 表示,其OEM合作伙伴在為 AI 中心設計服務(wù)器時(shí)面臨著(zhù)新的挑戰,這些挑戰可能會(huì )減慢設計和部署的速度。NVIDIA 的全新 MGX 參考設計架構旨在加速這一過(guò)程,可以將開(kāi)發(fā)時(shí)間縮短2/3至僅需6個(gè)月,開(kāi)發(fā)成本也可以減少3/4。
據介紹,MGX 系統由模塊化設計組成,涵蓋了 NVIDIA 的 CPU 和 GPU、DPU 和網(wǎng)絡(luò )系統的所有方面,但也包括基于通用 x86 和 Arm 處理器的設計,擁有100 多種參考設計。NVIDIA 還提供風(fēng)冷和液冷設計選項,以適應各種應用場(chǎng)景。
ASRock Rack(永擎)、華碩、GIGABYTE(技嘉)、和碩、QCT、超微(Supermicro)都將使用 MGX 參考架構來(lái)開(kāi)發(fā)將于今年晚些時(shí)候和明年初上市的系統。
Spectrum-X網(wǎng)絡(luò )平臺
在發(fā)布會(huì )上,NVIDIA還推出了一個(gè)全新的加速網(wǎng)絡(luò )平臺Spectrum-X,致力于提高基于以太網(wǎng)AI云的性能與效率。
NVIDIA Spectrum-X是將NVIDIA Spectrum-4以太網(wǎng)交換機與NVIDIA BlueField-3 DPU緊密結合,取得了1.7倍的整體AI性能和能效提升,同時(shí)可在多租戶(hù)環(huán)境中提供一致、可預測的性能。
Spectrum-X為基于以太網(wǎng)的網(wǎng)絡(luò )帶來(lái)了高性能 AI 集群功能,為將 AI 更廣泛地部署到超大規?;A設施中提供了新的選擇。Spectrum-X 平臺還可以與現有的基于以太網(wǎng)的堆棧完全互操作,并提供令人印象深刻的可擴展性,單個(gè)交換機上最多 256 個(gè) 200 Gb/s 端口,或兩層葉脊拓撲中的 16,000 個(gè)端口。
Spectrum-X還提供NVIDIA加速軟件和軟件開(kāi)發(fā)套件(SDK),使開(kāi)發(fā)人員能夠構建軟件定義的云原生AI應用。
NVIDIA表示,這種端到端的功能交付,可以減少基于transformer的大規模生成式AI模型的運行時(shí)間,助力網(wǎng)絡(luò )工程師、AI數據科學(xué)家和云服務(wù)商及時(shí)取得更好的結果,并更快做出明智的決策。
目前,Nvidia Spectrum-X 平臺及其相關(guān)組件,包括 400G LinkX 光學(xué)器件,現已上市。全球頭部超大規模云服務(wù)商正在采用NVIDIA Spectrum-X,包括領(lǐng)先的云創(chuàng )新企業(yè)。
作為NVIDIA Spectrum-X參考設計的藍圖和測試平臺,NVIDIA正在構建一臺超大規模生成式AI超級計算機,命名為Israel-1。它將被部署在NVIDIA以色列數據中心,由基于NVIDIA HGX平臺的戴爾PowerEdge XE9680服務(wù)器,BlueField-3 DPU和Spectrum-4交換機等打造而成。
用生成式AI激活游戲角色生命
在游戲領(lǐng)域,生成式 AI 未來(lái)有望使得游戲玩家能夠與游戲角色進(jìn)行互動(dòng),并極大提高游戲的沉浸感。對此,英偉達宣布推出面向游戲的定制AI模型代工服務(wù)—Avatar Cloud Engine(ACE)for Game。
英偉達曾在2020年推出NVIDIA Omniverse,這一款基于NVIDIA RTX和皮克斯Universal Scene Description(USD)的圖形和仿真模擬平臺型產(chǎn)品,可以實(shí)現3D設計協(xié)作以及可擴展的多GPU實(shí)時(shí)逼真仿真。
ACE for Games則是在NVIDIA Omniverse的基礎上,讓開(kāi)發(fā)人員可以使用它來(lái)構建和部署用于語(yǔ)音、對話(huà)和動(dòng)畫(huà)的自定義 AI 模型,從而使得游戲中的角色可以像真人一樣與玩家對話(huà)。主要包括了三大模塊:
一是NVIDIA NeMo大型語(yǔ)言模型(LLM)。這一模型使用專(zhuān)有數據構建、自定義和部署語(yǔ)言模型,根據游戲故事的世界觀(guān)及人物背景來(lái)定制調整LLM,并且通過(guò)NeMo Guardrails來(lái)保護對話(huà)的安全性和效果。
二是NVIDIA Riva,這一模塊主要用于自動(dòng)語(yǔ)音識別(ASR)及文本轉語(yǔ)音,以啟用實(shí)時(shí)語(yǔ)音對話(huà)。
三是NVIDIA Omniverse Audio2Face,主要用于配合語(yǔ)音音軌,實(shí)時(shí)為游戲角色創(chuàng )建臉部表情動(dòng)畫(huà)。例如,Audio2Face搭配用于虛幻引擎5的Omniverse Connector,開(kāi)發(fā)者可以直接將臉部動(dòng)畫(huà)添加到MetaHuman(虛幻引擎旗下用于創(chuàng )作逼真人類(lèi)角色的框架)的角色上。
英偉達表示,開(kāi)發(fā)者可以整合整套“ACE 游戲開(kāi)發(fā)版”解決方案,或是單獨使用自己需要的組件。
NVIDIA開(kāi)發(fā)者與性能技術(shù)部門(mén)副總裁John Spitzer表示:“生成式AI將徹底改變玩家與游戲人物之間的互動(dòng)方式,并極大地提高游戲沉浸感?;谖覀冊贏(yíng)I領(lǐng)域的專(zhuān)業(yè)知識,加上幾十年來(lái)與游戲開(kāi)發(fā)者合作的經(jīng)驗,NVIDIA正率先在游戲中使用生成式AI?!?/p>
黃仁勛也演示了生成式 AI 合成語(yǔ)音,通過(guò)對真人聲音的模仿合成,可以讓虛擬人“化身”講任何一種語(yǔ)言。黃仁勛表示,AI將成為電子游戲的未來(lái)。
生成式AI助力數字化的智能工廠(chǎng)
目前全球各地的電子制造商正在使用新的綜合參考工作流程來(lái)推進(jìn)其工業(yè)數字化進(jìn)程。這套流程將融合NVIDIA的生成式AI、3D協(xié)作、仿真模擬和自主機器技術(shù)。
依托龐大的合作伙伴網(wǎng)絡(luò ),這套工作流程可幫助制造商使用一系列NVIDIA技術(shù)來(lái)規劃、建造、運營(yíng)和優(yōu)化其工廠(chǎng)。這些技術(shù)包括:可連接頂尖計算機輔助設計(CAD)應用以及生成式AI應用程序接口(API)和先進(jìn)框架的NVIDIA Omniverse ;用于仿真和測試機器人的NVIDIA Isaac Sim 應用;以及可用于自動(dòng)光學(xué)檢測的NVIDIA Metropolis視覺(jué)AI框架。
黃仁勛在現場(chǎng)演示時(shí)表示:“全球最大的行業(yè)所制造的都是實(shí)物,如果能先以數字化的方式制造這些產(chǎn)品,就可以節省大量成本。NVIDIA使電子產(chǎn)品制造商能夠輕松構建和運營(yíng)虛擬工廠(chǎng),并實(shí)現制造和檢查工作流程的數字化,這大大提高了質(zhì)量和安全性,同時(shí)減少了最后一刻的意外和延誤?!?span style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; font-size: 18px; letter-spacing: 0.034em;">
據介紹,富士康工業(yè)互聯(lián)網(wǎng)、宣鼎、和碩、廣達和緯創(chuàng )正在使用新的參考工作流程來(lái)優(yōu)化其工作間和裝配線(xiàn)的運營(yíng),同時(shí)降低生產(chǎn)成本。
比如,富士康工業(yè)互聯(lián)網(wǎng)正在與NVIDIA Metropolis生態(tài)合作伙伴一起實(shí)現電路板質(zhì)控檢測點(diǎn)重要環(huán)節的自動(dòng)化;宜鼎正在使用NVIDIA Metropolis實(shí)現產(chǎn)線(xiàn)光學(xué)檢測流程的自動(dòng)化,實(shí)現降本提效。
NVIDIA還正在與數家領(lǐng)先的工具制造和服務(wù)提供商一同在各個(gè)工作流程層面建立統一的全棧架構。
在系統層面,NVIDIA IGX Orin 提供了一個(gè)將工業(yè)級硬件與企業(yè)級軟件和支持相結合的一體化邊緣AI平臺。IGX滿(mǎn)足了邊緣計算獨特的耐久性和低功耗要求,同時(shí)提供了開(kāi)發(fā)和運行AI應用所需的高性能。
制造商合作伙伴包括凌華科技、研華、安提國際、Dedicated Computing、Prodrive Technologies和Yuan正在為工業(yè)和醫療市場(chǎng)開(kāi)發(fā)由IGX驅動(dòng)的系統,這些系統能夠為實(shí)際生產(chǎn)帶來(lái)數字化優(yōu)勢。
在平臺層面,Omniverse與全球領(lǐng)先的3D、模擬和生成式AI提供商相連接,這個(gè)開(kāi)放的開(kāi)發(fā)平臺可以讓團隊在他們喜愛(ài)的應用之間建立互操作性,比如來(lái)自Adobe、Autodesk和西門(mén)子的應用。
黃仁勛演示了Omniverse如何通過(guò)連接ChatGPT和Blender GPT等各種AI助手來(lái)簡(jiǎn)化3D工作流程和Python應用開(kāi)發(fā)。NVIDIA Omniverse Cloud平臺即服務(wù)(PaaS)已上線(xiàn)微軟Azure,能夠向企業(yè)客戶(hù)提供Omniverse軟件應用的全棧套件和NVIDIA OVX基礎架構,其具備Azure云服務(wù)的規模和安全性。
在應用層面,Isaac Sim使企業(yè)能夠構建并優(yōu)化部署AI機器人。制造商可以與工業(yè)自動(dòng)化公司READY Robotics合作,在將機器人部署到現實(shí)世界之前,在仿真中對機器人任務(wù)進(jìn)行編程。SoftServe和FS Studio等仿真技術(shù)合作伙伴通過(guò)構建基于數字孿生的仿真,為客戶(hù)縮短開(kāi)發(fā)時(shí)間。
NVIDIA Metropolis中的一系列工廠(chǎng)自動(dòng)化AI工作流程使工業(yè)方案商和制造商能夠開(kāi)發(fā)、部署和管理降本提效的定制化質(zhì)量控制解決方案。包括凌華科技、安提國際、德勤、Quantiphi和西門(mén)子在內的龐大合作伙伴生態(tài)正在幫助推廣這些解決方案。
買(mǎi)的越多,省的越多
黃仁勛在演講中指出,隨著(zhù)加速計算和生成AI的興起,標志著(zhù)計算的革新,我們正處于一個(gè)全新計算時(shí)代的轉折點(diǎn),加速計算和AI已經(jīng)被世界上幾乎所有的運算和云端公司所接受。
“每一個(gè)計算時(shí)代,你都可以從事之前無(wú)法做到的事情,人工智能時(shí)代顯然也能為我們賦予這樣的能力?!北热?,“編程門(mén)檻變得極低。我們填補了數字?zhù)櫆?,現在,所有人都是程序員——你只需要對著(zhù)電腦說(shuō)話(huà)即可。”黃仁勛說(shuō),“由于如此便于使用,所以進(jìn)步的速度飛快,這會(huì )影響幾乎每個(gè)行業(yè)。”
根據NVIDIA公布的數據顯示,目前已有40000家大公司和15000家初創(chuàng )公司使用英偉達技術(shù)。其中,有超過(guò)1600家生成式AI公司采用了NVIDIA技術(shù)。僅2022 年NVIDIA CUDA 軟件下載量更達2500 萬(wàn)次。另外,加速計算服務(wù)、軟體與系統促進(jìn)誕生出新的商業(yè)模式,且讓現有模式更具效率。
除了前面介紹的生成式AI對于游戲、智能制造等方面的助力之外,生成式AI也正為價(jià)值7000億美元的數字廣告行業(yè)帶來(lái)了新機遇。基于NVIDIA AI和Omniverse的突破性引擎可以將來(lái)自領(lǐng)先軟件制造商的創(chuàng )意3D和AI工具連接在一起,以大規模革新品牌內容和體驗。比如,全球最大的營(yíng)銷(xiāo)服務(wù)機構英國WPP集團正與英偉達合作,在Omniverse Cloud上構建首個(gè)生成式AI廣告引擎。
為了更生動(dòng)的展示生成式AI 的能力,黃仁勛還把發(fā)布會(huì )變成大型卡拉OK現場(chǎng),讓AI以其隨口說(shuō)出的四句話(huà)為歌詞,進(jìn)行編曲創(chuàng )作出一首歌,并邀請現場(chǎng)與會(huì )者跟他一起唱出AI做的歌曲,引發(fā)全場(chǎng)熱情。
黃仁勛還在發(fā)布會(huì )上對比了使用 GPU 和 CPU 建設數據中心的差異。他聲稱(chēng),同樣的投資,客戶(hù)可以使用更少的 GPU 建設一個(gè)能夠處理更大數據量的數據中心,功耗也更低。
“買(mǎi)的越多,省的越多(The more you buy, the more you save)?!秉S仁勛說(shuō)道。
編輯:芯智訊-浪客劍
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。