HBM,生死局?
隨著(zhù)chatGPT的爆火和AGI的繁榮,英偉達正在以前所未見(jiàn)的速度發(fā)展,這不但造就了GPU的繁榮,同時(shí)還讓扮演關(guān)鍵角色HBM熱度高居不下。
繼美光和SK Hynix在日前表示,今年的HBM產(chǎn)能自己售罄以后。美光和三星在近日也帶來(lái)了HBM新品,以期在這個(gè)蓬勃發(fā)展的市場(chǎng)占有一席之地。其中,前者帶來(lái)了將用在英偉達GH200的之余,還表示將在2024 年 3 月帶來(lái)36 GB 12-Hi HBM3E 產(chǎn)品,后者則表示,公司發(fā)布的HBM3E 12H將性能和容量提高了 50% 以上。
由此可見(jiàn),HBM的競爭愈演愈烈,HBM也成為了決定AI芯片命運的關(guān)鍵。這也就是為何Timothy Prickett Morgan認為,誰(shuí)掌控了HBM,就掌握了AI訓練。
以下為T(mén)imothy Prickett Morgan的分享正文:
2024 年推動(dòng) Nvidia 數據中心 GPU 加速器發(fā)展的最重要因素是什么?
是即將推出的“Blackwell”B100 架構嗎?我們確信該架構將比當前的“Hopper”H100 及其胖內存弟弟 H200 提供性能飛躍?不。
是該公司有能力從代工合作伙伴臺積電那里拿回數百萬(wàn)顆 H100 和 B100 GPU 芯片嗎?不,它不是。
是Nvidia AI Enterprise 軟件堆棧及其 CUDA 編程模型和數百個(gè)庫嗎?事實(shí)上,至少其中一些軟件(如果不是全部)是 AI 訓練和推理的事實(shí)上的標準。不過(guò),又沒(méi)有。
雖然所有這些無(wú)疑都是巨大的優(yōu)勢,并且是許多競爭對手都集中精力的優(yōu)勢,但 Nvidia 在 2024 年推動(dòng)其業(yè)務(wù)的最重要因素與金錢(qián)有關(guān)。具體來(lái)說(shuō):英偉達在 1 月份結束了 2024 財年,現金和銀行投資略低于 260 億美元,如果本財年按預期進(jìn)行,收入將突破 1000 億美元,其中約占 50% 以上如果以?xún)衾麧櫟男问襟w現出來(lái),那么即使在支付了稅款、龐大的研發(fā)業(yè)務(wù)以及公司的正常運營(yíng)費用之后,它將為其金庫增加約 500 億美元。
你可以用 750 億美元或更多的資金做很多事情,其中之一就是不必太擔心為數據中心級 GPU 購買(mǎi) HBM 堆棧 DRAM 內存所需的巨額資金。這種內存正在以相當好的速度變得更快、更密集(就每芯片千兆位而言)和更胖(FAT,就兆字節帶寬和千兆字節容量而言),但其改進(jìn)速度并沒(méi)有達到人工智能加速器所需的速度。
隨著(zhù)美光科技 (Micron Technology) 加入 SK 海力士 (SK Hynix) 和三星 (Samsung) 的供應商行列,HBM 的供應量有所改善,并且進(jìn)給量和速度也隨之改善。我們強烈懷疑供應將無(wú)法滿(mǎn)足需求,HBM 內存的價(jià)格將隨著(zhù) HBM 在一定程度上推動(dòng)的 GPU 加速器價(jià)格而繼續攀升。
AMD 擁有 57.8 億美元的現金和投資,沒(méi)有那么多閑置資金,盡管英特爾的銀行存款略高于 250 億美元,但它必須建立代工廠(chǎng),這確實(shí)非常昂貴(按順序如今每次流行 150 億至 200 億美元)。因此,它也確實(shí)不能在 HBM 內存上揮霍。
對 Nvidia GPU 加速器業(yè)務(wù)有利的另一個(gè)因素是,在 GenAI 繁榮時(shí)期,客戶(hù)愿意為數百、數千甚至數萬(wàn)個(gè)數據中心 GPU 支付幾乎任何費用。我們認為,2022 年 3 月宣布的原始“Hopper”H100 GPU的價(jià)格,特別是在 SXM 配置中,對于具有 80 GB HBM3 內存、速度為 3.35 TB/秒的單個(gè) H100,其價(jià)格超過(guò) 30,000 美元,我們不知道具有 96 GB 內存,速度為 3.9 TB/秒的H100的費用,但我們能推測 Nvidia 對具有 141 GB HBM3E 內存、運行速度為 4.8 TB/秒的 H200 設備的收費。H200 基于與 H100 完全相同的“Hopper”GPU,將內存容量提高了 76.3%,內存帶寬提高了 43.3%,H100 芯片的性能提高了 1.6 倍到 1.9 倍??紤]到額外的容量意味著(zhù)需要更少的 GPU 并消耗更少的電量來(lái)針對靜態(tài)數據集訓練給定模型,我們認為與原始 H100 相比,Nvidia 可以輕松地為 H200 收取 1.6 倍到 1.9 倍的費用。
黃金法則:擁有黃金的人制定規則
我們并不是說(shuō) H200 在第二季度開(kāi)始發(fā)貨時(shí)就會(huì )發(fā)生這種情況。(我們認為英偉達除了財務(wù)數據外還談?wù)撊諝v季度。)我們只是說(shuō)這樣的舉動(dòng)是有邏輯的。很大程度上取決于 AMD 對“Antares” Instinct MI300X GPU 加速器的收費,該加速器具有 192 GB 的 HBM3,運行速度為 5.2 TB/秒。MI300X 具有更多的原始浮點(diǎn)和整數能力,HBM 容量比 Nvidia 的 H200 高 36.2%,帶寬比 H200 高 10.4%。
你可以用 Elon Musk 的最后一塊錢(qián)打賭,AMD 沒(méi)有心情做任何事,除了對 MI300X 收取盡可能多的費用,甚至有建議稱(chēng)該公司正在努力升級到更胖、更快的 HBM3E內存領(lǐng)域,以保持對Nvidia的競爭。MI300 使用具有八高 DRAM 堆棧的 HBM3,MI300 中的內存控制器具有信號和帶寬容量,可以替換為時(shí)鐘速度更快的十二高堆棧HBM3E 。這意味著(zhù)容量增加了 50%,帶寬也可能增加了 25%。也就是說(shuō),每個(gè) MI300X 具有 288 GB 的 HBM3E 容量和 6.5 TB/秒的帶寬。
據推測,這樣一個(gè)經(jīng)過(guò)精心設計的 MI350X 芯片(我們可能會(huì )這樣稱(chēng)呼它)在其峰值失敗次數中執行了相當大的實(shí)際工作量,甚至更多,就像 Nvidia 從 H100 跳躍到 H200 時(shí)所發(fā)生的那樣。
正是在這樣的背景下,我們想談?wù)?HBM 領(lǐng)域發(fā)生的事情。我們將從 SK Hynix 開(kāi)始,該公司展示了 16 個(gè)芯片高的 HBM3E 堆棧,每個(gè)堆棧提供 48 GB 的容量和 1.25 TB/秒的帶寬。MI300X 配備 8 個(gè)內存控制器,可實(shí)現 384 GB 內存和 9.6 TB/秒帶寬。
有了這些數字,您就不必將 CPU 作為擴展內存控制器來(lái)處理大量工作負載。。。。
我們還沒(méi)有看到關(guān)于SK海力士十六高HBM3E內存的介紹,也不知道它什么時(shí)候上市。去年 8 月,SK 海力士展示了第五代 HBM 內存和第一代 HBM3E 內存,據稱(chēng)每個(gè)堆??商峁?1.15 TB/秒的帶寬。正如下面由 Trendforce 創(chuàng )建的 HBM 路線(xiàn)圖所示,我們的預期是提供 24 GB 和 36 GB 容量,這意味著(zhù) 8 高堆棧和 12 高堆棧。

去年 8 月,Nvidia 顯然將成為這些芯片的大客戶(hù),并且有傳言稱(chēng) SK Hynix 的這款 24 GB HBM3E 內存將用于即將推出的“Blackwell”B100 GPU 加速器。如果是這樣,那么 Blackwell GPU 小芯片上的六個(gè)內存控制器將產(chǎn)生 144 GB 的容量,如果 B100 封裝按預期具有兩個(gè) GPU 小芯片,則意味著(zhù)最大容量為 288 GB,帶寬為 13.8 TB/秒。很難說(shuō)收益率如何,可能只有 5/6 可用。也有可能 - 但我們希望不是 - B100 看起來(lái)不像一個(gè) GPU,而是系統軟件的兩個(gè) GPU(就像兩個(gè)芯片組 AMD“Arcturus”MI250X 所做的那樣,而不像 MI300X 那樣,后者有 8 個(gè)較小的 GPU 芯片組這加起來(lái)會(huì )帶來(lái)更多的魅力,看起來(lái)就像一個(gè) GPU 到系統軟件)。我們將看看那里會(huì )發(fā)生什么。
美光科技 (Micron Technology) 進(jìn)入 HBM 領(lǐng)域較晚,但鑒于供應短缺和需求旺盛,該公司無(wú)疑在該領(lǐng)域最受歡迎,該公司今天表示,它正在開(kāi)始生產(chǎn)其首款 HBM3E 內存,這是一種八高堆棧容量為 24 GB,并補充說(shuō)該內存是 H200 GPU 的一部分。我們去年 7 月介紹過(guò)的Micron HBM3E 變體的引腳運行速度為 9.2 Gb/秒,每個(gè)堆棧提供 1.2 TB/秒的內存。美光還聲稱(chēng),其 HBM3E 內存的消耗量比“競爭產(chǎn)品”少 30%,想必它正在談?wù)搰栏竦?HBM3E 比較。
美光還表示,它已開(kāi)始對其 12 高 36 GB HBM3E 變體進(jìn)行送樣,其運行速度將超過(guò) 1.2 TB/秒。美光沒(méi)有透露比 1.2 TB/秒快多少。

今天晚些時(shí)候,三星推出了十二高堆棧 HBM3E,這也是其第五代產(chǎn)品,該公司代號為“Shinebolt”。
Shinebolt 取代了去年推出的“Icebolt”HBM3 內存。Icebolt 堆棧式 DRAM 內存為容量為 24 GB 的十二層堆棧提供 819 GB/秒的帶寬。Shinebolt HBM3E 在 36 GB 堆棧中提供 1.25 TB/秒的帶寬,就像 SK Hynix HBM3E 十二高堆棧一樣。
三星在公告中補充道:“用于A(yíng)I應用時(shí),預計與采用HBM3 8H相比,AI訓練的平均速度可提高34%,同時(shí)推理服務(wù)的并發(fā)用戶(hù)數可提升34%?!睌U大11.5倍以上?!?三星指出,這是基于內部模擬,而不是實(shí)際的人工智能基準。

三星的 Shinebolt HBM3E 12H 現已提供樣品,預計在 6 月底前全面投產(chǎn)。
這些 12 高和 16 高的 HBM3E 堆棧幾乎是我們在 2026 年 HBM4 發(fā)布之前所擁有的。人們可能希望 HBM4 會(huì )在 2025 年出現,毫無(wú)疑問(wèn),我們面臨著(zhù)推動(dòng)路線(xiàn)圖升級的壓力,但這似乎不太可能。據猜測,HBM4 的內存接口將增加一倍,達到 2,048 位。HBM1 到 HBM3E 使用了 1,024 位內存接口,信號傳輸速度從 AMD 與 SK Hynix 設計并于 2013 年交付的初始 HBM 內存相比,已經(jīng)從 1 Gb/秒增加到 9.2 Gb/秒。接口加倍將允許兩倍的速度。需要大量?jì)却鎭?lái)掛起接口,并以一半的時(shí)鐘速度提供給定量的帶寬,并且隨著(zhù)時(shí)鐘速度再次提升,帶寬會(huì )逐漸增加?;蛘?。它們從一開(kāi)始就以每引腳 9.2 Gb/秒的速度推出,我們只需支付以瓦為單位的價(jià)格。
美光路線(xiàn)圖表示,HBM4 將提供 36 GB 和 64 GB 的容量,驅動(dòng)速度為 1.5 TB/秒到 2 TB/秒,因此看起來(lái)會(huì )是寬速和慢速、寬速和更快的混合,但在發(fā)布時(shí)不會(huì )完全滿(mǎn)足需求。談到帶寬??雌饋?lái),寬度加倍幾乎可以使容量和帶寬加倍。預計 HBM4 將具有十六層 DRAM 堆疊,僅此而已。
在 2026 年另一個(gè)宇宙的夢(mèng)想世界中,HBM4 將擁有 2,048 位接口,類(lèi)似于引腳上的 11.6 Gb/秒信號傳輸,具有 24 個(gè)高 DRAM 堆疊,具有 33.3% 密度的 DRAM 內存(4 GB 而不是 3 GB),因此,每個(gè)堆棧的速度約為 3.15 TB/秒,每個(gè)堆棧的速度約為 96 GB。哦,那我們就瘋狂吧。假設一個(gè) GPU 復合體有十幾個(gè)小芯片,每個(gè)小芯片都有自己的 HBM4 內存控制器。這將為每個(gè) GPU 設備提供 37.8 TB/秒的聚合內存帶寬,以及每個(gè)設備 1,152 GB 的容量。
從這個(gè)角度來(lái)看,根據 Nvidia 的說(shuō)法,一個(gè) 1750 億個(gè)參數的 GPT-3 模型需要 175 GB 的容量來(lái)進(jìn)行推理,因此我們正在討論的理論 GPU 上的內存大小大概能夠處理 1.15 萬(wàn)億個(gè)參數推理。對于 GPT-3 訓練,需要 2.5 TB 內存來(lái)加載數據語(yǔ)料庫。如果您的 Hoppers 具有 80 GB HBM3 內存,則需要 32 個(gè) Hopper 才能完成這項工作。但我們的 32 臺設備的容量將增加 14.4 倍,因此能夠加載相應更大的數據量。我們假設的設備上的帶寬也高出 11.3 倍。
請注意,我們沒(méi)有提及這十幾個(gè) GPU 小芯片的失敗情況?在大多數情況下,以超過(guò) 80% 的利用率運行任何東西都非常棘手,特別是當它可能以不同的精度執行不同的操作時(shí)。我們想要的是讓觸發(fā)器與比特/秒的比率恢復正常。我們想要制造一臺 12 缸發(fā)動(dòng)機,它有足夠的噴油器來(lái)實(shí)際喂養野獸。
我們的猜測是,80 GB 的 H100 的 HBM3 內存約為理想值的三分之一,帶寬也約為理想值的三分之一。這是一種最大化 GPU 芯片銷(xiāo)售和收入的方法,正如 Nvidia 已經(jīng)清楚地證明的那樣,但這并不是構建平衡的計算引擎的方法 - 就像英特爾在其 X86 芯片上放置一半的 DRAM 內存控制器并將其全部賣(mài)給我們一樣——兩個(gè)帶有中間倉部件的插座一直是數據中心通用計算的正確答案。我們還需要更多的內存容量和帶寬。
因此,如果使用這個(gè)概念性 Beast GPU 加速器將帶寬增加 11.3 倍,那么與原始 H100 相比,計算量可能只會(huì )增加 4 倍。在張量核心上,H100 在 FP64 精度下的額定速度為 67 teraflops,在 FP8 精度(未使用稀疏性)下的額定速度為 1.98 petaflops。因此,這個(gè) TP100 GPU 復合體在 FP64 下的額定速度為 268 teraflops,在 FP8 下的額定速度為 7.92 petaflops,每個(gè) GPU 小芯片的性能將是 H100 芯片性能的三分之一,并且可能是其大小的四分之一到五分之一,具體取決于使用的工藝技術(shù)。假設它是 TSMC 2N 或 Intel 14A 與真正的 H100 上使用的 TSMC 4N。畢竟,這是我們談?wù)摰?2026 年。
這就是我們想要寫(xiě)的那種野獸,如果我們銀行里有 260 億美元,并且未來(lái)還有 500 億美元以上的前景,這就是我們會(huì )做的。但是大量的 HBM 內存和計算引擎都塞滿(mǎn)了它。
很難說(shuō)這會(huì )花費多少錢(qián)。你不可能打電話(huà)給 Fry's Electronics 詢(xún)問(wèn) 2026 年 HBM4 內存的市場(chǎng)價(jià)格是多少。一方面,Fry's 已經(jīng)死了。另一方面,我們現在甚至無(wú)法很好地了解 GPU 和其他矩陣引擎制造商為 HBM2e、HBM3 和 HBM3e 內存支付的費用。每個(gè)人都知道(或者認為他們知道),HBM 內存和用于將內存鏈接到設備的任何中介層是現代人工智能訓練和推理引擎的兩個(gè)主要成本。(當然,混合使用片上 SRAM 和普通 DRAM 的人除外。)

在市場(chǎng)上,用于服務(wù)器的最大、最厚、最快的 256 GB DDR5 內存模塊在 4.8 GHz 下運行的價(jià)格約為 18,000 美元,每 GB 約為 70 美元。但僅可擴展至 32 GB 的更薄模塊每 GB 成本僅為 35 美元。因此,HBM2e 的價(jià)格約為每 GB 110 美元,“超過(guò) 3 倍”,如上面的 Nvidia 圖表所示。96 GB 的價(jià)格約為 10,600 美元。很難說(shuō) HBM3 和 HBM3E 的提升在該設備的“市場(chǎng)價(jià)格”上可能值多少錢(qián),但如果達到 HBM3 僅提升 25%,那么 H100 的市場(chǎng)價(jià)格約為 30,000 美元80 GB 容量,HBM3 的價(jià)格為 8,800 美元。轉向 96 GB HBM3E 可能會(huì )將內存成本提高到“市場(chǎng)價(jià)格”至 16,500 美元,因為技術(shù)成本又增加了 25%,而且額外的 16 GB 內存和 H100 96 GB 的市場(chǎng)價(jià)格應約為 37,700 美元。
聽(tīng)到有關(guān)具有 141 GB 容量(由于某種原因不是 144 GB)的 H200 的價(jià)格的傳言將會(huì )很有趣。但如果這種內存價(jià)格分層成立——我們意識到這些都是瘋狂的估計——那么 141 GB 的 HBM3E 本身價(jià)值約為 25,000 美元。但按照這樣的價(jià)格,H200 的“市場(chǎng)價(jià)格”約為 41,000 美元。(注意:這不是我們認為 Nvidia 為 HBM3 和 HBM3E 內存支付的費用——這不是物料清單成本——而是分配給最終用戶(hù)的價(jià)格。)
我們認為漲幅不會(huì )超過(guò) 25% 左右,因為內存升級到 HBM3,然后再升級到 HBM3E 將推高內存價(jià)格,使其高于市場(chǎng)上傳聞的 Nvidia GPU 價(jià)格。
請記住,這只是一個(gè)思想實(shí)驗,旨在展示 HBM 內存定價(jià)如何控制 Nvidia 和 AMD 可以投入該領(lǐng)域的 GPU 數量,而不是相反。內存尾巴正在搖晃 GPU 的狗。內存容量和帶寬與 H200 的配合越來(lái)越緊密,如果 Nvidia 僅對額外的內存及其額外的速度收取象征性的費用,那么不僅設備的實(shí)際效率會(huì )提高,而且性?xún)r(jià)比也會(huì )提高。但如果 Nvidia 只是對這些更強大的 H100 和 H200 進(jìn)行定價(jià),以便性能增益和內存增益達到平衡,那么花的錢(qián)就會(huì )少得多,而要花的錢(qián)就會(huì )多得多。
老實(shí)說(shuō),我們不知道 Nvidia 會(huì )做什么,也不知道 AMD 在 MI300 獲得 HBM3E 升級后會(huì )做什么?,F在美光進(jìn)入該領(lǐng)域的 HBM 供應商增加了 50%,而且 SK Hynix 和三星將產(chǎn)量提高了 2 倍,這是一個(gè)很大的數字,但相對于 GPU 和 GPU 的需求,市場(chǎng)上的 HBM 內存仍然只增加了 3 倍。他們的內存更大,可以說(shuō)大于 3 倍。這不是一個(gè)可以降價(jià)的環(huán)境。在這種環(huán)境下,人們會(huì )提高更先進(jìn)的計算引擎及其內存的價(jià)格,并繼續盡可能薄地擴展 HBM 內存。
這就是為什么只要 Nvidia 平臺繼續成為首選,能夠支付高價(jià)購買(mǎi) HBM 內存的人(即 Nvidia 聯(lián)合創(chuàng )始人兼首席執行官黃仁勛)就可以設定人工智能訓練的步伐和價(jià)格。
換而言之,對于GPU和HBM來(lái)說(shuō),他們面對的都是生死局。
來(lái)源:半導體行業(yè)觀(guān)察
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。