2080億晶體管,英偉達推出最強AI芯片GB200
目前,英偉達位居人工智能世界之巔,擁有人人都想要的數據中心 GPU。其 Hopper H100 和 GH200 Grace Hopper 超級芯片需求量很大,為世界上許多最強大的超級計算機提供動(dòng)力。
本文引用地址:http://dyxdggzs.com/article/202403/456553.htm今天,首席執行官黃仁勛投下了 Blackwell B200 炸彈,這是下一代數據中心和 AI GPU,將提供計算能力的巨大代際飛躍。
Blackwell 架構和 B200 GPU 取代了 H100/H200。Blackwell 包含三個(gè)部分:B100、B200 和 Grace-Blackwell Superchip (GB200)。
新一代人工智能芯片 BLACKWELL GPU
新的 B200 GPU 擁有 2080 億個(gè)晶體管,可提供高達 20petaflops 的 FP4 算力,而 GB200 將兩個(gè) GPU 和一個(gè) Grace CPU 結合在一起,可為 LLM 推理工作負載提供 30 倍的性能,同時(shí)還可能大大提高效率。英偉達表示,與 H100 相比,它的成本和能耗"最多可降低 25 倍"。
英偉達聲稱(chēng),訓練一個(gè) 1.8 萬(wàn)億個(gè)參數的模型以前需要 8000 個(gè) Hopper GPU 和 15 兆瓦的電力。如今,2000 個(gè) Blackwell GPU 就能完成這項工作,耗電量?jì)H為 4 兆瓦。
在具有 1750 億個(gè)參數的 GPT-3 LLM 基準測試中,GB200 的性能是 H100 的 7 倍,而英偉達稱(chēng)其訓練速度是 H100 的 4 倍。
Blackwell B200 并不是傳統意義上的單一 GPU。相反,它由兩個(gè)緊密耦合的芯片組成,盡管根據英偉達的說(shuō)法,它們確實(shí)充當一個(gè)統一的 CUDA GPU。這兩個(gè)芯片通過(guò) 10 TB/s NV-HBI(英偉達高帶寬接口)連接進(jìn)行連接,以確保它們能夠作為單個(gè)完全一致的芯片正常運行。
這種雙芯片配置的原因很簡(jiǎn)單:Blackwell B200 將使用臺積電的 4NP 工藝節點(diǎn),這是現有 Hopper H100 和 Ada Lovelace 架構 GPU 使用的 4N 工藝的改進(jìn)版本。
B200 將使用兩個(gè)全標線(xiàn)尺寸的芯片,每個(gè)芯片都有四個(gè) HMB3e 堆棧,每個(gè)堆棧容量為 24GB,每個(gè)堆棧在 1024 位接口上具有 1 TB/s 的帶寬。
英偉達 NVLINK 7.2T
AI 和 HPC 工作負載的一大限制因素是不同節點(diǎn)之間通信的多節點(diǎn)互連帶寬。隨著(zhù) GPU 數量的增加,通信成為嚴重的瓶頸,占用的資源和時(shí)間高達 60%。通過(guò) B200,英偉達推出了第五代 NVLink 和 NVLink Switch 7.2T。
新的 NVLink 芯片具有 1.8 TB/s 的全對全雙向帶寬,支持 576 個(gè) GPU NVLink 域。它是在同一臺積電 4NP 節點(diǎn)上制造的 500 億個(gè)晶體管芯片。該芯片還支持 3.6 teraflops 的 Sharp v4 片上網(wǎng)絡(luò )計算,這有助于高效處理更大的模型。
上一代支持高達 100 GB/s 的 HDR InfiniBand 帶寬,因此這是帶寬的巨大飛躍。與 H100 多節點(diǎn)互連相比,新的 NVSwitch 速度提高了 18 倍。這應該能夠顯著(zhù)改善更大的萬(wàn)億參數模型人工智能網(wǎng)絡(luò )的擴展性。
與此相關(guān)的是,每個(gè) Blackwell GPU 都配備了 18 個(gè)第五代 NVLink 連接。這是 H100 鏈接數量的十八倍。每個(gè)鏈路提供 50 GB/s 的雙向帶寬,或每個(gè)鏈路 100 GB/s
英偉達 B200 NVL72
將以上內容組合在一起,您就得到了英偉達的新 GB200 NVL72 系統。
這些基本上是一個(gè)全機架解決方案,具有 18 臺 1U 服務(wù)器,每臺服務(wù)器都有兩個(gè) GB200 超級芯片。然而,在 GB200 超級芯片的構成方面,與上一代相比存在一些差異。圖像和規格表明,兩個(gè) B200 GPU 與單個(gè) Grace CPU 相匹配,而 GH100 使用較小的解決方案,將單個(gè) Grace CPU 與單個(gè) H100 GPU 放在一起。
最終結果是 GB200 超級芯片計算托盤(pán)將配備兩個(gè) Grace CPU 和四個(gè) B200 GPU,具有 80 petaflops 的 FP4 AI 推理性能和 40 petaflops 的 FP8 AI 訓練性能。這些是液冷 1U 服務(wù)器,它們占據了機架中提供的典型 42 個(gè)單位空間的很大一部分。
除了 GB200 超級芯片計算托盤(pán)外,GB200 NVL72 還將配備 NVLink 交換機托盤(pán)。這些也是 1U 液冷托盤(pán),每個(gè)托盤(pán)有兩個(gè) NVLink 交換機,每個(gè)機架有 9 個(gè)這樣的托盤(pán)。每個(gè)托盤(pán)提供 14.4 TB/s 的總帶寬,加上前面提到的 Sharp v4 計算。
總的來(lái)說(shuō),GB200 NVL72 擁有 36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU,具有 720 petaflops 的 FP8 和 1,440 petaflops 的 FP4 計算能力。多節點(diǎn)帶寬為 130 TB/s,英偉達表示 NVL72 可以為 AI LLM 處理多達 27 萬(wàn)億個(gè)參數模型。
英偉達表示,亞馬遜、Google、微軟和甲骨文都已計劃在其云服務(wù)產(chǎn)品中提供 NVL72 機架。
Blackwell 平臺表現如何?
雖然英偉達在人工智能基礎設施市場(chǎng)占據主導地位,但它并不是唯一一家在行動(dòng)的公司,英特爾和 AMD 推出新的 Gaudi 和 Instinct 加速器、云提供商推動(dòng)定制芯片,以及像 Cerebras 和 Samba Nova 這樣的人工智能初創(chuàng )公司都在爭奪 AI 市場(chǎng)的一杯羹。
預計到 2024 年,人工智能加速器的需求將遠遠超過(guò)供應,贏(yíng)得份額并不總是意味著(zhù)擁有更快的芯片,而僅僅意味著(zhù)擁有可交付的芯片。
雖然我們對英特爾即將推出的 Guadi 3 芯片還知之甚少,但我們可以將其與 AMD 去年 12 月推出的 MI300X GPU 進(jìn)行一些比較。
MI300X 使用先進(jìn)的封裝將八個(gè) CDNA 3 計算單元垂直堆疊到四個(gè) I/O 芯片上,從而在 GPU 和 192GB HBM3 內存之間提供高速通信。
在性能方面,與英偉達的 H100 相比,MI300X 在 FP8 浮點(diǎn)計算方面具有 30% 的性能優(yōu)勢,在以 HPC 為中心的雙精度工作負載方面具有近 2.5 倍的領(lǐng)先優(yōu)勢。
將 750W MI300X 與 700W B100 進(jìn)行比較,英偉達芯片的稀疏性能快了 2.67 倍。雖然這兩款芯片現在都配備了 192 GB 高帶寬內存,但 Blackwell 部分的內存速度快了 2.8 TB/s。
內存帶寬已被證明是人工智能性能的主要指標,特別是在推理方面。英偉達的 H200 本質(zhì)上是帶寬增強的 H100。然而,盡管與 H100 的 FLOPS 相同,英偉達聲稱(chēng)在 Meta 的 Llama 2 70B 等模型中速度是 H100 的兩倍。
雖然英偉達在較低精度方面擁有明顯領(lǐng)先優(yōu)勢,但這可能是以犧牲雙精度性能為代價(jià)的,而雙精度性能是 AMD 近年來(lái)表現出色的領(lǐng)域,贏(yíng)得了多個(gè)備受矚目的超級計算機獎項。
據英偉達稱(chēng),Blackwell GPU 能夠提供 45 teraFLOPS 的 FP64 張量核心性能。這與 H100 提供的 67 teraFLOPS FP64 矩陣性能相比略有下降,并且與 AMD 的 MI300X(81.7 teraFLOPS FP64 矢量和 163 teraFLOPS FP64 矩陣)相比處于劣勢。
還有 Cerebras,它最近展示了其第三代 Waferscale AI 加速器。怪物 90 萬(wàn)核心處理器只有餐盤(pán)大小,專(zhuān)為 AI 訓練而設計。
Cerebras 聲稱(chēng)這些芯片中的每一個(gè)都可以在 23kW 的功率下實(shí)現 125 petaFLOPS 的高度稀疏 FP16 性能。Cerebras 表示,與 H100 相比,該芯片在半精度下速度快了約 62 倍。
然而,將 WSE-3 與英偉達的旗艦 Blackwell 部件進(jìn)行比較,領(lǐng)先優(yōu)勢大幅縮小。據我們了解,英偉達的頂級規格芯片應能提供約 5 petaFLOPS 的稀疏 FP16 性能。這將 Cerebra 的領(lǐng)先優(yōu)勢縮小至 25 倍。但正如我們當時(shí)指出的那樣,所有這一切都取決于您的模型能否利用稀疏性。
臺積電和 Synopsys 正推進(jìn)部署使用英偉達的計算光刻平臺
英偉達今天宣布,臺積電和 Synopsys 將使用英偉達的計算光刻平臺投入生產(chǎn),以加速制造并突破下一代先進(jìn)半導體芯片的物理極限。
全球領(lǐng)先的代工廠(chǎng)臺積電 (TSMC) 和芯片到系統設計解決方案的領(lǐng)導者新思科技 ( Synopsys) 已將英偉達 cuLitho 與其軟件、制造工藝和系統集成,以加快芯片制造速度,并在未來(lái)支持最新一代 英偉達 Blackwell 架構 GPU。
英偉達創(chuàng )始人兼首席執行官黃仁勛表示:「計算光刻是芯片制造的基石?!埂肝覀兣c臺積電和新思科技合作,在 cuLitho 上開(kāi)展工作,應用加速計算和生成式 AI 來(lái)開(kāi)辟半導體縮放的新領(lǐng)域?!?/span>
英偉達還推出了新的生成式 AI 算法,增強了 cuLitho(GPU 加速計算光刻庫),與當前基于 CPU 的方法相比,顯著(zhù)改進(jìn)了半導體制造工藝。
計算光刻是半導體制造過(guò)程中計算最密集的工作負載,每年在 CPU 上消耗數百億小時(shí)。芯片的典型掩模組(其生產(chǎn)的關(guān)鍵步驟)可能需要 3000 萬(wàn)小時(shí)或更多小時(shí)的 CPU 計算時(shí)間,因此需要在半導體代工廠(chǎng)內建立大型數據中心。通過(guò)加速計算,350 個(gè) 英偉達 H100 系統現在可以取代 40,000 個(gè) CPU 系統,加快生產(chǎn)時(shí)間,同時(shí)降低成本、空間和功耗。
臺積電首席執行官 CC Wei 博士表示:「我們與英偉達合作,將 GPU 加速計算集成到臺積電工作流程中,從而實(shí)現了性能的巨大飛躍、吞吐量的顯著(zhù)提高、周期時(shí)間的縮短以及功耗要求的降低?!埂肝覀冋趯?英偉達 cuLitho 轉移到臺積電生產(chǎn),利用這種計算光刻技術(shù)來(lái)驅動(dòng)半導體微縮的關(guān)鍵組件?!?/span>
自去年推出以來(lái),cuLitho 使臺積電為創(chuàng )新圖案技術(shù)開(kāi)辟了新的機遇。在共享工作流程上測試 cuLitho 時(shí),兩家公司共同實(shí)現了曲線(xiàn)流程的 45 倍加速以及傳統曼哈頓式流程近 60 倍的改進(jìn)。這兩種類(lèi)型的流不同,對于曲線(xiàn),掩模形狀由曲線(xiàn)表示,而曼哈頓掩模形狀被限制為水平或垂直。
Synopsys 總裁兼首席執行官 Sassine Ghazi 表示:「二十多年來(lái),Synopsys Proteus 掩模合成軟件產(chǎn)品一直是加速計算光刻(半導體制造中要求最高的工作負載)的經(jīng)過(guò)生產(chǎn)驗證的選擇?!埂鸽S著(zhù)向先進(jìn)節點(diǎn)的轉變,計算光刻的復雜性和計算成本急劇增加。我們與臺積電和 英偉達的合作對于實(shí)現埃級擴展至關(guān)重要,因為我們開(kāi)創(chuàng )了先進(jìn)技術(shù),通過(guò)加速計算的力量將周轉時(shí)間縮短了幾個(gè)數量級?!?/span>
評論