兩個(gè)技術(shù),困住英偉達GPU生產(chǎn)
生成人工智能即將到來(lái),它將改變世界。自從 ChatGPT 風(fēng)靡全球并抓住了我們對 AI 可能性的想象力以來(lái),我們看到各種各樣的公司急于訓練 AI 模型并將生成式 AI 部署到內部工作流程或面向客戶(hù)的應用程序中。不僅僅是大型科技公司和初創(chuàng )公司,許多非科技財富 5000 強公司正在研究如何部署基于 LLM 的解決方案。
本文引用地址:http://dyxdggzs.com/article/202307/448435.htm當然,這將需要大量的 GPU 計算。GPU 銷(xiāo)量像火箭一樣上升,供應鏈一直在努力跟上對 GPU 的需求。公司正在爭先恐后地獲得 GPU 或云實(shí)例。
即使是 OpenAI 也無(wú)法獲得足夠的 GPU,這嚴重阻礙了其近期路線(xiàn)圖。由于 GPU 短缺,OpenAI 無(wú)法部署其多模態(tài)模型。由于 GPU 短缺,OpenAI 無(wú)法部署更長(cháng)的序列長(cháng)度模型(8k 與 32k)。
與此同時(shí),中國公司不僅投資部署自己的 LLM,而且還在美國出口管制進(jìn)一步收緊之前進(jìn)行庫存。例如,Tik Tok 背后的中國公司字節跳動(dòng)(Bytedance)據稱(chēng)從英偉達訂購了價(jià)值超過(guò) 10 億美元的 A800 / H800。
最高端的 Nvidia GPUH100 將一直售罄到明年第一季度,盡管 Nvidia 試圖大幅增加產(chǎn)量。英偉達將每季度出貨 400,000 個(gè) H100 GPU。
今天,我們將詳細介紹生產(chǎn)瓶頸以及英偉達及其競爭對手的下游產(chǎn)能正在擴大多少。
英偉達的 H100 采用 CoWoS-S 上的 7 芯片封裝。中間是 H100 GPU ASIC,其芯片尺寸為 814mm2。不同 SKU 之間的 HBM 配置有所不同,但 H100 SXM 版本使用 HBM3,每個(gè)堆棧為 16GB,總內存為 80GB。H100 NVL 將具有兩個(gè)封裝,每個(gè)封裝上有 6 個(gè) HBM 有源層。
在只有 5 個(gè)有源 HBM 的情況下,非 HBM 芯片可以為芯片提供結構支持。這些芯片位于一個(gè)在圖片中看不清楚的硅插入物之上。該硅插入物位于一個(gè)封裝襯底上,該封裝襯底是一個(gè) ABF 封裝襯底。
GPU 芯片和臺積電制造
英偉達 GPU 的主要數字處理組件是處理器芯片本身,在名為「4N」的定制臺積電工藝節點(diǎn)上制造。它在臺積電位于中國臺灣臺南的 Fab 18 制造,與臺積電 N5 和 N4 工藝節點(diǎn)共享相同的設施。這不是生產(chǎn)的限制因素。
臺積電 N5 工藝節點(diǎn)的利用率降至 70% 以下,原因是 PC、智能手機和非 AI 相關(guān)數據中心芯片的巨大疲軟,英偉達在確保額外的晶圓供應方面沒(méi)有問(wèn)題。
事實(shí)上,英偉達已經(jīng)訂購了大量用于 H100 GPU 和 NVSwitch 的晶圓,這些晶圓立即開(kāi)始生產(chǎn),遠遠早于它們需要出貨芯片。這些晶圓將存放在臺積電的芯片組中,直到下游供應鏈有足夠的能力將這些晶圓封裝成完整的芯片。
基本上,英偉達正在吸收臺積電的一些低利用率,并獲得一些定價(jià)優(yōu)勢,因為英偉達已承諾在未來(lái)購買(mǎi)成品。
晶圓庫,也稱(chēng)為芯片庫,是半導體行業(yè)的一種做法,其中部分加工或完成的晶圓被存儲,直到客戶(hù)需要它們。與其他一些代工廠(chǎng)不同,臺積電將通過(guò)將這些晶圓保存在自己的賬簿上幾乎完全加工來(lái)幫助他們的客戶(hù)。這種做法使臺積電及其客戶(hù)能夠保持財務(wù)靈活性。由于它們只是部分加工的,因此晶圓庫中持有的晶圓不被視為成品,而是被歸類(lèi)為在制品。只有當這些晶圓完全完成時(shí),臺積電才能確認收入并將這些晶圓的所有權轉讓給客戶(hù)。
這有助于客戶(hù)裝扮他們的資產(chǎn)負債表,使庫存水平看起來(lái)得到控制。對于臺積電來(lái)說(shuō),好處是它可以幫助保持更高的利用率,從而支持利潤率。然后,當客戶(hù)需要更多的庫存時(shí),這些晶圓可以通過(guò)幾個(gè)最后的加工步驟完全完成,然后以正常的銷(xiāo)售價(jià)格甚至輕微的折扣交付給客戶(hù)。這有助于客戶(hù)修飾他們的資產(chǎn)負債表,使庫存水平看起來(lái)處于控制之中。對于臺積電說(shuō),好處是可以幫助保持更高的利用率,從而支撐利潤率。然后,隨著(zhù)客戶(hù)需要更多庫存,這些晶圓可以通過(guò)幾個(gè)最終加工步驟完全完成,然后以正常銷(xiāo)售價(jià)格甚至稍有扣的價(jià)格交付給客戶(hù)。
HBM 在數據中心的出現
GPU 周?chē)母邘拑却媸窍乱粋€(gè)主要組件。HBM 供應量也有限,但正在增加。HBM 是垂直堆疊 DRAM 芯片,通過(guò)硅通孔(TSV)連接,并使用 TCB 鍵合(未來(lái)需要更高的堆疊數量)。在 DRAM 芯片下面有一個(gè)基本邏輯作為控制器的管芯。通常,現代 HBM 有 8 層內存和 1 個(gè)基本邏輯芯片但是我們很快就會(huì )看到 12+1 層 HBM 的產(chǎn)品,例如 AMD 的 MI300X 和英偉達即將推出的 H100 更新。
有趣的是,是 AMD 開(kāi)創(chuàng )了 HBM,盡管 NVIDIA 和谷歌是今天最大的用戶(hù)。在 2008 年,AMD 預測,為了與游戲 GPU 性能相匹配,內存帶寬的持續擴展將需要越來(lái)越多的電源,這將需要從 GPU 邏輯中轉移,從而降低 GPU 的性能。AMD 與 SK Hynix 和供應鏈中的其他公司 (如 Amkor) 合作,尋找一種能提供高帶寬、低功耗的內存解決方案。這導致 SK Hynix 在 2013 年開(kāi)發(fā) HBM。
SK 海力士于 2015 年首次為 AMD Fiji 系列游戲 GPU 提供 HBM,該 GPU 由 Amkor 進(jìn)行 2.5D 封裝。隨后在 2017 年推出了使用 HBM2 的 Vega 系列。然而,HBM 并沒(méi)有改變游戲 GPU 性能的游戲規則。由于沒(méi)有明顯的性能優(yōu)勢加上更高的成本,AMD 在 Vega 之后重新使用 GDDR 作為其游戲卡。今天,來(lái)自 Nvidia 和 AMD 的頂級游戲 GPU 仍在使用更便宜的 GDDR6。
然而,AMD 的最初預測在某種程度上是正確的:擴展內存帶寬已被證明是 GPU 的一個(gè)問(wèn)題,只是這主要是數據中心 GPU 的問(wèn)題。對于消費級游戲 GPU,英偉達和 AMD 已轉向使用大型緩存作為頓緩沖區,使它們能夠使用帶寬低得多的 GDDR 內存。
正如我們過(guò)去所詳述的,推理和訓練工作負載是內存密集型的。隨著(zhù) AI 模型中參數數量的指數級增長(cháng),僅權重就將模型大小推高到 TB。因此,人工智能加速器的性能受到從內存中存儲和檢索訓練和推理數據的能力的瓶頸:這個(gè)問(wèn)題通常被稱(chēng)為內存墻。
為了解決這個(gè)問(wèn)題,領(lǐng)先的數據中心 GPU 與高帶寬內存(HBM)共同打包。英偉達在 2016 年發(fā)布了他們的第一個(gè) HBM GPU,P100。HBM 通過(guò)在傳統 DDR 內存和片上緩存之間找到中間地帶來(lái)解決內存難題,以容量換取帶寬。通過(guò)大幅增加引腳數,達到每個(gè) HBM 堆棧 1024 位寬的內存總線(xiàn),這是每個(gè) DIMM 64 位寬度的 DDR5 的 18 倍,從而實(shí)現更高的帶寬。同時(shí),以極低的每比特傳輸能量(pJ/bit)來(lái)控制功率。這是通過(guò)更短的走線(xiàn)長(cháng)度實(shí)現的,HBM 的走線(xiàn)長(cháng)度以毫米為單位,GDDR 和 DDR 的走線(xiàn)長(cháng)度以厘米為單位。
如今,許多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有諷刺意味的是,AMD 的競爭對手 Nvidia 作為 HBM 的最高用戶(hù)可能受益最多。
HBM 市場(chǎng):SK 海力士占據主導地位
作為 HBM 的先驅?zhuān)琒K Hynix 是擁有最先進(jìn)技術(shù)路線(xiàn)圖的領(lǐng)導者。SK Hynix 公司于 2022 年 6 月開(kāi)始生產(chǎn) HBM 3,目前是唯一一家批量交付 HBM 3 的供應商,市場(chǎng)份額超過(guò) 95%,這是大多數 H 100 SKU 正在使用的產(chǎn)品。HBM 的最大配置現在 8 層 16 GB HBM 3 模塊。SK Hynix 為 AMD MI300X 和 NVIDIA H 100 刷新生產(chǎn) 12 層 24 GB HBM 3,其數據率為 5.6 GT/S。
HBM 的主要挑戰是封裝和堆疊存儲器,這是 SK 海力士所擅長(cháng)的,積累了最強的工藝流程知識。
三星緊跟 SK 海力士之后,預計將在 2023 年下半年推出 HBM 3。我們相信它們都是為 NVIDIA 和 AMD GPU 設計的。他們目前對 SK Hynix 的數量有很大的虧空,但他們正緊追不舍,正在進(jìn)行巨大的投資以追趕市場(chǎng)份額。三星正在投資追趕 HBM,成為 HBM 市場(chǎng)份額的第一名,就像他們擁有標準內存一樣。我們聽(tīng)說(shuō)他們正在與一些加速器公司達成有利的交易,以爭取更多的份額。
他們已經(jīng)展示了他們的 12 層 HBM 以及未來(lái)的混合粘結 HBM. 三星 HBM-4 路線(xiàn)圖的一個(gè)有趣方面是,他們希望在內部的 FinFET 節點(diǎn)上實(shí)現邏輯/外圍。這顯示了他們在內部擁有邏輯和 DRAM 制造的潛在優(yōu)勢
美光是最落后的。美光在混合內存立方體(HMC)技術(shù)上投入了更多的資金。這是一個(gè)與 HBM 競爭的技術(shù),與 HBM 有著(zhù)非常相似的概念。然而,HMC 周?chē)纳鷳B(tài)系統是封閉的,使得 IP 很難在 HMC 周?chē)l(fā)展。此外,還存在一些技術(shù)缺陷。HBM 的采用率更高,因此 HBM 成為 3D 堆疊 DRAM 的行業(yè)標準。
直到 2018 年,美光才開(kāi)始從 HMC 轉向 HBM 路線(xiàn)圖。這就是為什么美光是最落后的。他們仍然停留在 HBM2E 上(SK 海力士在 2020 年中期開(kāi)始大規模生產(chǎn)),甚至不能成功地制造頂盒 HBM2E。
在他們最近的財報電話(huà)會(huì )議上,美光對他們的 HBM 路線(xiàn)圖做了一些大膽的聲明:他們相信他們將在 2024 年通過(guò) HBM3E 從落后者變成領(lǐng)導者。HBM3E 預計將在第三季度/第四季度開(kāi)始為英偉達的下一代 GPU 出貨。美光首席商務(wù)官 SumitSadana 表示:「我們的 HBM3 斜坡實(shí)際上是下一代 HBM3,與當今業(yè)界生產(chǎn)的 HBM3 相比,它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品,即我們行業(yè)領(lǐng)先的產(chǎn)品,將從 2024 年第一季度開(kāi)始銷(xiāo)量大幅增加,并對 2024 財年的收入產(chǎn)生重大影響,并在 2025 年大幅增加,即使是在 2024 年的水平基礎上。我們的目標是在 HBM 中獲得非常強勁的份額,高于行業(yè)中 DRAM 的非自然供應份額?!?/p>
他們在 HBM 中擁有比一般 DRMA 市場(chǎng)份額更高的市場(chǎng)份額的聲明非常大膽。鑒于他們仍在努力大批量生產(chǎn)頂級 HBM2E,我們很難相信美光聲稱(chēng)他們將在 2024 年初推出領(lǐng)先的 HBM3,甚至成為第一個(gè) HBM3E。在我們看來(lái),盡管英偉達 GPU 服務(wù)器的內存容量比英特爾/AMD CPU 服務(wù)器要低得多,但美光科技似乎正在試圖改變人們對人工智能失敗者的看法。
我們所有的渠道檢查都發(fā)現 SK 海力士在新一代技術(shù)方面保持最強,而三星則非常努力地通過(guò)大幅供應增加、大膽的路線(xiàn)圖和削減交易來(lái)追趕。
真正的瓶頸-CoWoS
下一個(gè)瓶頸是 CoWoS 容量。CoWoS 是臺積電的一種「2.5D」封裝技術(shù),其中多個(gè)有源硅芯片 (通常的配置是邏輯和 HBM 堆棧)集成在無(wú)源硅中介層上。中介層充當頂部有源芯片的通信層。然后將內插器和有源硅連接到包含要放置在系統 PCB 上的 I/O 的封裝基板。
HBM 和 CoWoS 是相輔相成的。HBM 的高焊盤(pán)數和短跡線(xiàn)長(cháng)度要求需要 2.5D 先進(jìn)封裝技術(shù),如 CoWoS,以實(shí)現這種密集的短連接,這在 PCB 甚至封裝基板上是無(wú)法實(shí)現的。CoWoS 是主流封裝技術(shù),以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有的 HBM 系統都封裝在 Co Wos 上,所有先進(jìn)的人工智能加速器都使用 HBM,因此幾乎所有領(lǐng)先的數據中心 GPU 都是臺積電封裝在 Co Wos 上的。
雖然 3D 封裝技術(shù),如臺積電的 SoIC 可以直接在邏輯上堆疊芯片,但由于熱量和成本,它對 HBM 沒(méi)有意義。SoIC 在互連密度方面處于不同的數量級,更適合用芯片堆疊來(lái)擴展片內緩存,這一點(diǎn)可以從 AMD 的 3D V-Cache 解決方案中看出。AMD 的 Xilinx 也是多年前將多個(gè) FPGA 芯片組合在一起的第一批 CoWoS 用戶(hù)。
雖然還有一些其他應用程序使用 CoWoS,例如網(wǎng)絡(luò ) (其中一些用于網(wǎng)絡(luò ) GPU 集群,如 Broadcom 的 Jericho3-AI)、超級計算和 FPGA,但絕大多數 CoWoS 需求來(lái)自人工智能。與半導體供應鏈的其他部分不同,其他主要終端市場(chǎng)的疲軟意味著(zhù)有足夠的閑置空間來(lái)吸收 GPU 需求的巨大增長(cháng),CoWoS 和 HBM 已經(jīng)是大多數面向人工智能的技術(shù),因此所有閑置空間已在第一季度被吸收。隨著(zhù) GPU 需求的爆炸式增長(cháng),供應鏈中的這些部分無(wú)法跟上并成為 GPU 供應的瓶頸。
臺積電首席執行官魏哲家表示:「就在最近這兩天,我接到一個(gè)客戶(hù)的電話(huà),要求大幅增加后端容量,特別是在 CoWoS 中。我們仍在評估這一點(diǎn)?!?/p>
臺積電一直在為更多的封裝需求做好準備,但可能沒(méi)想到這一波生成式人工智能需求來(lái)得如此之快。6 月,臺積電宣布在竹南開(kāi)設先進(jìn)后端晶圓廠(chǎng) 6。該晶圓廠(chǎng)占地 14.3 公頃足以容納每年 100 萬(wàn)片晶圓的 3DFabric 產(chǎn)能。這不僅包括 CoWoS,還包括 SoIC 和 InFO 技術(shù)。
有趣的是,該工廠(chǎng)比臺積電其他封裝工廠(chǎng)的總和還要大。雖然這只是潔凈室空間,遠未配備齊全的工具來(lái)實(shí)際提供如此大的容量,但很明顯,臺積電正在做好準備,預計對其先進(jìn)封裝解決方案的需求會(huì )增加。
確實(shí)有點(diǎn)幫助的是,在 Wafer 級別的扇出封裝能力 (主要用于智能手機 SoC) 方面存在不足,其中一些可以在 CoWoS 過(guò)程中重新使用。特別是有一些重疊的過(guò)程,如沉積,電鍍,反磨,成型,放置,和 RDL 形成。我們將通過(guò) CoWoS 流程和所有的公司誰(shuí)看到了積極的需求,因為它在一個(gè)后續部分。設備供應鏈中存在著(zhù)有意義的轉變。
還有來(lái)自英特爾、三星和 OSAT 的其他 2.5D 封裝技術(shù) (如 ASE 的 FOEB),CoWoS 是唯一在大容量中使用的技術(shù),因為 TSMC 是人工智能加速器的最主要的晶圓廠(chǎng)。甚至英特爾哈巴納的加速器都是由臺積電制造和封裝的。
CoWoS 變體
CoWoS 有幾種變體,但原始 CoWoS-S 仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM 芯片通過(guò)帶有 TSV 的硅基中介層連接。然后將中介層放置在有機封裝基板上。
硅中介層的一項支持技術(shù)是一種稱(chēng)為「掩模版縫合」的技術(shù)。由于光刻工具狹縫/掃描最大尺寸,芯片的最大尺寸通常為 26mmx33mm。隨著(zhù) GPU 芯片本身接近這一極限,并且還需要在其周?chē)惭b HBM,中介層需要很大,并且將遠遠超出這一標線(xiàn)極限。臺積電解決了這與網(wǎng)線(xiàn)拼接,這使他們的模式插入式多次的刻線(xiàn)限制 (目前最高 3.5 倍與 AMD MI 300)。
CoWOS-R 使用在具有再分布層(RDL)的有機襯底上,而不是硅中間層。這是一個(gè)成本較低的變體,犧牲的 I/O 密度,由于使用有機 RDL,而不是基于硅的插入物。正如我們已經(jīng)詳細介紹的,AMD 的 MI300 最初是在 CoWoS-R 上設計的,但我們認為,由于翹曲和熱穩定性問(wèn)題,AMD 不得不使用 CoWoS-S。
CoWoS-L 預計將在今年晚些時(shí)候推出,它采用 RDL 內插器,但包含有源和/或無(wú)源硅橋,用于嵌入內插器中的管芯到管芯互連。這是臺積電的相當于英特爾的 EMIB 封裝技術(shù)。這將允許更大的封裝尺寸,因為硅插入物越來(lái)越難以擴展。MI300 Co WO S-S 可能是一個(gè)單一的硅插入器的限制附近。
這將是更經(jīng)濟的更大的設計去與 CoWoS-L 臺積電正在研究一個(gè) CoWoS-L 的超級載波內插器在 6 倍分劃板的大小。對于 CoWOS-S,他們沒(méi)有提到 4x reticle 之外的任何內容。這是因為硅插入物的脆弱性。這種硅中間層只有 100 微米厚,在工藝流程中,隨著(zhù)中間層尺寸的增大,存在分層或開(kāi)裂的風(fēng)險。
評論