
Nvidia的AI芯片路線(xiàn)圖分析與解讀在2023年10月的投資者會(huì )議上,Nvidia展示了其全新的GPU發(fā)展藍圖 [1]。與以往兩年一次的更新節奏不同,這次的路線(xiàn)圖將演進(jìn)周期縮短至一年。預計在2024年,Nvidia將推出H200和B100 GPU;到2025年,X100 GPU也將面世。其AI芯片規劃的戰略核心是“One Architecture”統一架構,支持在任何地方進(jìn)行模型訓練和部署,無(wú)論是數據中心還是邊緣設備,無(wú)論是x86架構還是Arm架構。其解決方案適用于超大規模數據中心的訓練任務(wù),也可以滿(mǎn)足企業(yè)級用戶(hù)的邊緣計算需求。AI芯片從兩年一次的更新周期轉變?yōu)橐荒暌淮蔚母轮芷?/span>,反映了其產(chǎn)品開(kāi)發(fā)速度的加快和對市場(chǎng)變化的快速響應。其AI芯片布局涵蓋了訓練和推理兩個(gè)人工智能關(guān)鍵應用,訓練推理融合,并側重推理。同時(shí)支持x86和Arm兩種不同硬件生態(tài)。在市場(chǎng)定位方面,同時(shí)面向超大規模云計算和企業(yè)級用戶(hù),以滿(mǎn)足不同需求。Nvidia旨在通過(guò)統一的架構、廣泛的硬件支持、快速的產(chǎn)品更新周期以及面向不同市場(chǎng)提供全面的差異化的AI解決方案,從而在人工智能領(lǐng)域保持技術(shù)和市場(chǎng)的領(lǐng)先地位。Nvidia是一個(gè)同時(shí)擁有 GPU、CPU和DPU的計算芯片和系統公司。Nvidia通過(guò)NVLink、NVSwitch和NVLink C2C技術(shù)將CPU、GPU進(jìn)行靈活連接組合形成統一的硬件架構,并于CUDA一起形成完整的軟硬件生態(tài)。
在A(yíng)I計算芯片架構方面,注重訓練和推理功能的整合,側重推理。圍繞GPU打造ARM和X86兩條技術(shù)路線(xiàn)。在Nvidia的AI路線(xiàn)圖中,并沒(méi)有顯示提及Grace CPU的技術(shù)路線(xiàn),而是將其納入Grace+GPU的SuperChip超級芯片路標中。Nvidia Grace CPU會(huì )跟隨GPU的演進(jìn)節奏并與其組合成新一代超級芯片;而其自身也可能根據市場(chǎng)競爭的需求組合成CPU超級芯片,實(shí)現“二打一”的差異化競爭力。從需求角度來(lái)看,CPU的技術(shù)演進(jìn)速度并不像GPU那樣緊迫,并且CPU對于成本更加敏感。CPU只需按照“摩爾”或“系統摩爾”,以每?jì)赡晷阅芊兜乃俣冗M(jìn)行演進(jìn)即可。而GPU算力需要不到一年就要實(shí)現性能翻倍,保持每年大約2.5倍的速率增長(cháng)。這種差異催生了超級芯片和超節點(diǎn)的出現。Nvidia將延用SuperChip超級芯片架構,NVLink-C2C和NVLink互聯(lián)技術(shù)在Nvidia未來(lái)的AI芯片架構中將持續發(fā)揮關(guān)鍵作用。其利用NVLink-C2C互聯(lián)技術(shù)構建GH200、GB200和GX200超級芯片。更進(jìn)一步,通過(guò)NVLink互聯(lián)技術(shù),兩顆GH200、GB200和GX200可以背靠背連接,形成GH200NVL、GB200NVL和GX200NVL模組。Nvidia可以通過(guò)NVLink網(wǎng)絡(luò )組成超節點(diǎn),通過(guò)InfiniBand或Ethernet網(wǎng)絡(luò )組成更大規模的AI集群。在交換芯片方面,仍然堅持InfiniBand和Ethernet兩條開(kāi)放路線(xiàn),瞄準不同市場(chǎng),前者瞄準AI Factory,后者瞄準AIGC Cloud。但其并未給出NVLink和NVSwitch自有生態(tài)的明確計劃。224G代際的速度提升,可能率先NVLink和NVSwitch上落地。以InfiniBand為基礎的Quantum系列和以Ethernet基礎的Spectrum-X系列持續升級。預計到2024年,將商用基于100G SerDes的800G接口的交換芯片;而到2025年,將迎來(lái)基于200G SerDes的1.6T接口的交換芯片。其中800G對應51.2T交換容量的Spectrum-4芯片,而1.6T則對應下一代Spectrum-5,其交換容量可能高達102.4T。從演進(jìn)速度上看,224G代際略有提速,但從長(cháng)時(shí)間周期上看,其仍然遵循著(zhù)SerDes速率大約3到4年翻倍、交換芯片容量大約2年翻倍的規律。雖然有提到2024年Quantum將會(huì )升級到800G,但目前我們只能看到2021年發(fā)布的基于7nm工藝,400G接口的25.6T Quantum-2交換芯片。路線(xiàn)圖中并未包含NVSwitch 4.0和NVLink 5.0的相關(guān)計劃。有預測指出Nvidia可能會(huì )首先在NVSwitch和NVLink中應用224G SerDes技術(shù)。NVLink和NVSwitch作為Nvidia自有生態(tài),不會(huì )受到標準生態(tài)的掣肘,在推出時(shí)間和技術(shù)路線(xiàn)選擇上更靈活,從而實(shí)現差異化競爭力。
SmartNIC智能網(wǎng)卡/DPU數據處理引擎的下一跳ConnectX-8/BlueField-4目標速率為 800G,與1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路標仍不明晰,NVLink5.0和NVSwitch4.0可能提前發(fā)力。Nvidia ConnectX系列SmartNIC智能網(wǎng)卡與InfiniBand技術(shù)相結合,可以在基于NVLink網(wǎng)絡(luò )的超節點(diǎn)基礎上構建更大規模的AI集群。而B(niǎo)lueField DPU則主要面向云數據中心場(chǎng)景,與Ethernet技術(shù)結合,提供更強大的網(wǎng)絡(luò )基礎設施能力。相較于NVLink總線(xiàn)域網(wǎng)絡(luò ),InfiniBand和Ethernet屬于傳統網(wǎng)絡(luò )技術(shù),兩種網(wǎng)絡(luò )帶寬比例大約為1比9。例如,H00 GPU用于連接SmartNIC和DPU的PCIE帶寬為128GB/s,考慮到PCIE到Ethernet的轉換,其最大可以支持400G InfiniBand或者Ethernet接口,而NVLink雙向帶寬為900GB/s或者3.6Tbps,因此傳統網(wǎng)絡(luò )和總線(xiàn)域網(wǎng)絡(luò )的帶寬比為1比9。雖然SmartNIC和DPU的速率增長(cháng)需求沒(méi)有總線(xiàn)域網(wǎng)絡(luò )的增速快,但它們與大容量交換芯片需要保持同步的演進(jìn)速度。它們也受到由IBTA (InfiniBand) 和IEEE802.3 (Ethernet) 定義互通標準的產(chǎn)業(yè)生態(tài)成熟度的制約。互聯(lián)技術(shù)在未來(lái)的計算系統的擴展中起到至關(guān)重要的作用。Nvidia同步布局的還有LinkX系列光電互聯(lián)技術(shù)。包括傳統帶oDSP引擎的可插拔光互聯(lián) (Pluggable Optics),線(xiàn)性直驅光互聯(lián)LPO (Linear Pluggable Optics),傳統DAC電纜、重驅動(dòng)電纜 (Redrived Active Copper Cable)、芯片出光 (Co-Packaged Optics) 等一系列光電互聯(lián)技術(shù)。隨著(zhù)超節點(diǎn)和集群網(wǎng)絡(luò )的規模不斷擴大,互聯(lián)技術(shù)將在未來(lái)的AI計算系統中發(fā)揮至關(guān)重要的作用,需要解決帶寬、時(shí)延、功耗、可靠性、成本等一系列難題。對Nvidia而言,來(lái)自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在加大。這些公司在軟件和硬件方面都在積極發(fā)展,試圖挑戰Nvidia在該領(lǐng)域的主導地位,這或許是Nvidia提出相對激進(jìn)技術(shù)路線(xiàn)圖的原因。Nvidia為了保持其市場(chǎng)地位和利潤率,采取了一種大膽且風(fēng)險重重的多管齊下的策略。他們的目標是超越傳統的競爭對手如Intel和AMD,成為科技巨頭,與Google、Microsoft、Amazon、Meta和Apple等公司并駕齊驅。Nvidia的計劃包括推出H200、B100和“X100”GPU,以及進(jìn)行每年度更新的AI GPU。此外,他們還計劃推出HBM3E高速存儲器、PCIE 6.0和PCIE 7.0、以及NVLink、224G SerDes、1.6T接口等先進(jìn)技術(shù),如果計劃成功,Nvidia將超越所有潛在的競爭對手 [2]。盡管硬件和芯片領(lǐng)域的創(chuàng )新不斷突破,但其發(fā)展仍然受到第一性原理的限制,存在天然物理邊界的約束。通過(guò)深入了解工藝制程、先進(jìn)封裝、內存和互聯(lián)等多個(gè)技術(shù)路線(xiàn),可以推斷出未來(lái)Nvidia可能采用的技術(shù)路徑。盡管基于第一性原理的推演成功率高,但仍需考慮非技術(shù)因素的影響。例如,通過(guò)供應鏈控制,在一定時(shí)間內壟斷核心部件或技術(shù)的產(chǎn)能,如HBM、TSMC CoWoS先進(jìn)封裝工藝等,可以影響技術(shù)演進(jìn)的節奏。根據Nvidia 2023年Q4財報,該公司季度收入達到76.4億美元,同比增長(cháng)53%,創(chuàng )下歷史新高。全年收入更是增長(cháng)61%,達到269.1億美元的紀錄。數據中心業(yè)務(wù)在第四季度貢獻了32.6億美元的收入,同比增長(cháng)71%,環(huán)比增長(cháng)11%。財年全年數據中心收入增長(cháng)58%,達到創(chuàng )紀錄的106.1億美元 [3]。因此Nvidia擁有足夠大的現金流可以在短時(shí)間內對供應鏈,甚至產(chǎn)業(yè)鏈施加影響。另外,也存在一些黑天鵝事件也可能產(chǎn)生影響,比如以色列和哈馬斯的戰爭就導致了Nvidia取消了原定于10月15日和16日舉行的AI SUMMIT [4]。業(yè)界原本預期,Nvidia將于峰會(huì )中展示下一代B100 GPU芯片 [5]。值得注意的是,Nvidia的網(wǎng)絡(luò )部門(mén)前身Mellanox正位于以色列。為了避免陷入不可知論,本文的分析主要基于物理規律的第一性原理,而不考慮經(jīng)濟手段(例如控制供應鏈)和其他可能出現的黑天鵝事件(例如戰爭)等不確定性因素。當然,這些因素有可能在技術(shù)鏈條的某個(gè)環(huán)節產(chǎn)生重大影響,導致技術(shù)或者產(chǎn)品演進(jìn)節奏的放緩,或者導致整個(gè)技術(shù)體系進(jìn)行一定的微調,但不會(huì )對整個(gè)技術(shù)演進(jìn)趨勢產(chǎn)生顛覆式的影響??紤]到這些潛在的變化,本文的分析將盡量采取一種客觀(guān)且全面的方式來(lái)評估這些可能的技術(shù)路徑。我們將以“如果 A 那么 X;如果 B 那么 Y;…”的形式進(jìn)行思考和分析,旨在涵蓋所有可能影響技術(shù)發(fā)展的因素,以便提供更準確、更全面的分析結果。此外,本文分析是基于兩到三年各個(gè)關(guān)鍵技術(shù)的路標假設,即2025年之前。當相應的前提條件變化,相應的結論也應該作適當的調整,但是整體的分析思路是普適的。
Nvidia的AI布局Nvidia在人工智能領(lǐng)域的布局堪稱(chēng)全面,其以系統和網(wǎng)絡(luò )、硬件和軟件為三大支柱,構建起了深厚的技術(shù)護城河 [6]。有分析稱(chēng)Nvidia的H100顯卡有高達90%的毛利率。Nvidia通過(guò)扶持像Coreweave這樣的GPU云服務(wù)商,利用供貨合同讓他們從銀行獲取資金,然后購買(mǎi)更多的H100顯卡,鎖定未來(lái)的顯卡需求量。這種模式已經(jīng)超出傳統硬件公司的商業(yè)模式,套用馬克思在資本論中所述“金銀天然不是貨幣,貨幣天然是金銀?!?,有人提出了“貨幣天然不是H100,但H100天然是貨幣”的說(shuō)法 [7]。這一切的背后在于對于對未來(lái)奇點(diǎn)臨近的預期 [8],在于旺盛的需求,同時(shí)更在于其深厚的技術(shù)護城河。Nvidia 2019年3月發(fā)起對Mellanox的收購 [9],并且于2020年4月完成收購 [10],經(jīng)過(guò)這次收購Nvidia獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力。面向GPU互聯(lián),自研NVLink互聯(lián)和NVLink網(wǎng)絡(luò )來(lái)實(shí)現GPU算力Scale Up擴展,相比于基于InfiniBand網(wǎng)絡(luò )和基于Ethernet的RoCE網(wǎng)絡(luò )形成差異化競爭力。NVLink自2014年推出以來(lái),已經(jīng)歷了四個(gè)代際的演進(jìn),從最初的2014年20G NVLink 1.0,2018年25G NVLink2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0,預計到2024年,NVLink將進(jìn)一步發(fā)展至200G NVLink 5.0。在應用場(chǎng)景上,NVLink 1.0至3.0主要針對PCIE板內和機框內互聯(lián)的需求,通過(guò)SerDes提速在與PCIE互聯(lián)的競爭中獲取顯著(zhù)的帶寬優(yōu)勢。值得注意的是,除了NVLink1.0采用了20G特殊速率點(diǎn)以外,NVLink2.0~4.0皆采用了與Ethernet相同或者相近的頻點(diǎn),這樣做的好處是可以復用成熟的Ethernet互聯(lián)生態(tài),也為未來(lái)實(shí)現連接盒子或機框組成超節點(diǎn)埋下伏筆。NVSwitch 1.0、2.0、3.0分別與NVLink2.0、3.0、4.0配合,形成了NVLink總線(xiàn)域網(wǎng)絡(luò )的基礎。NVLink4.0配合NVSwitch3.0組成了超節點(diǎn)網(wǎng)絡(luò )的基礎,這一變化的外部特征是NVSwitch脫離計算單板而單獨成為網(wǎng)絡(luò )設備,而NVLink則從板級互聯(lián)技術(shù)升級成為設備間互聯(lián)技術(shù)。
在計算芯片領(lǐng)域,Nvidia于2020年9月發(fā)起ARM收購,期望構建人工智能時(shí)代頂級的計算公司 [11],這一收購提案因為面臨重大監管挑戰阻礙了交易的進(jìn)行,于2022年2月終止 [12]。但是,在同年3月其發(fā)布了基于A(yíng)RM的Grace CPU Superchip超級芯片 [13]。成為同時(shí)擁有CPU、GPU和DPU的計算芯片和系統公司。從業(yè)務(wù)視角看,Nvidia在系統和網(wǎng)絡(luò )、硬件、軟件三個(gè)方面占據了主導地位 [6]。系統和網(wǎng)絡(luò )、硬件、軟件這三個(gè)方面是人工智能價(jià)值鏈中許多大型參與者無(wú)法有效或快速復制的重要部分,這意味著(zhù)Nvidia在整個(gè)生態(tài)系統中占據著(zhù)主導地位。要擊敗Nvidia就像攻擊一個(gè)多頭蛇怪。必須同時(shí)切斷所有三個(gè)頭才有可能有機會(huì ),因為它的每個(gè)“頭”都已經(jīng)是各自領(lǐng)域的領(lǐng)導者,并且Nvidia正在努力改進(jìn)和擴大其護城河。在一批人工智能硬件挑戰者的失敗中,可以看到,他們都提供了一種與Nvidia GPU相當或略好的硬件,但未能提供支持該硬件的軟件生態(tài)和解決可擴展問(wèn)題的方案。而Nvidia成功地做到了這一切,并成功抵擋住了一次沖擊。這就是為什么Nvidia的戰略像是一個(gè)三頭水蛇怪,后來(lái)者必須同時(shí)擊敗他們在系統和網(wǎng)絡(luò )、硬件以及軟件方面的技術(shù)和生態(tài)護城河。目前,進(jìn)入Nvidia平臺似乎能夠占據先機。OpenAI、微軟和Nvidia顯然處于領(lǐng)先地位。盡管Google和Amazon也在努力建立自己的生態(tài)系統,但Nvidia提供了更完整的硬件、軟件和系統解決方案,使其成為最具吸引力的選擇。要贏(yíng)得先機,就必須進(jìn)入其硬件、軟件和系統級業(yè)務(wù)生態(tài)。然而,這也意味著(zhù)進(jìn)一步被鎖定,未來(lái)更難撼動(dòng)其地位。從Google和Amazon等公司的角度來(lái)看,如果不選擇接入Nvidia的生態(tài)系統,可能會(huì )失去先機;而如果選擇接入,則可能意味著(zhù)失去未來(lái)。
Nvidia布局了兩種類(lèi)型網(wǎng)絡(luò ),一種是傳統InfiniBand和Ethernet網(wǎng)絡(luò ),另一種是NVLink總線(xiàn)域網(wǎng)絡(luò )。在傳統網(wǎng)絡(luò )中,Ethernet面向AIGC Cloud多AI訓練和推理等云服務(wù),而InfiniBand面向AI Factory,滿(mǎn)足大模型訓練和推理的應用需求。在交換芯片布局方面,有基于開(kāi)放Ethernet增強的Spectrum-X交換芯片和基于InfiniBand的封閉高性能的Quantum交換芯片。當前Ultra Ethernet Consortium (UEC) 正在嘗試定義基于Ethernet的開(kāi)放、互操作、高性能的全棧架構,以滿(mǎn)足不斷增長(cháng)的AI和HPC網(wǎng)絡(luò )需求 [14],旨在與Nvidia的網(wǎng)絡(luò )技術(shù)相抗衡。UEC的目標是構建一個(gè)類(lèi)似于InfiniBand的開(kāi)放協(xié)議生態(tài),從技術(shù)層面可以理解為將Ethernet進(jìn)行增強以達到InfiniBand網(wǎng)絡(luò )的性能,或者說(shuō)是實(shí)現一種InfiniBand化的Ethernet。從某種意義上說(shuō)UEC在重走InfiniBand道路??偩€(xiàn)域網(wǎng)絡(luò )NVLink的主要特征是要在超節點(diǎn)范圍內實(shí)現內存語(yǔ)義級通信和總線(xiàn)域網(wǎng)絡(luò )內部的內存共享,它本質(zhì)上是一個(gè)Load-Store網(wǎng)絡(luò ),是傳統總線(xiàn)網(wǎng)絡(luò )規模擴大以后的自然演進(jìn)。從NVLink接口的演進(jìn)歷程可以看出,其1.0~3.0版本明顯是對標PCIE的,而4.0版本實(shí)際上對標InfiniBand和Ethernet的應用場(chǎng)景,但其主要目標還是實(shí)現GPU的Scale Up擴展。
從原始需求的角度來(lái)看,NVLink網(wǎng)絡(luò )在演進(jìn)過(guò)程中需要引入傳統網(wǎng)絡(luò )的一些基本能力,例如編址尋址、路由、均衡、調度、擁塞控制、管理控制和測量等。同時(shí),NVLink還需要保留總線(xiàn)網(wǎng)絡(luò )基本特征,如低時(shí)延、高可靠性、內存統一編址共享以及內存語(yǔ)義通信。這些特征是當前InfiniBand或Ethernet網(wǎng)絡(luò )所不具備的或者說(shuō)欠缺的。與InfiniBand和Ethernet傳統網(wǎng)絡(luò )相比,NVLink總線(xiàn)域網(wǎng)絡(luò )的功能定位和設計理念存在著(zhù)本質(zhì)上的區別。我們很難說(shuō)NVLink網(wǎng)絡(luò )和傳統InfiniBand網(wǎng)絡(luò )或者增強Ethernet網(wǎng)絡(luò )最終會(huì )殊途同歸。Nvidia在A(yíng)I集群競爭態(tài)勢中展現出了全面布局,涵蓋了計算(芯片、超級芯片)和網(wǎng)絡(luò )(超節點(diǎn)、集群)領(lǐng)域。在計算芯片方面,Nvidia擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局;在超節點(diǎn)網(wǎng)絡(luò )層面,Nvidia提供了NVLink和InfiniBand兩種定制化網(wǎng)絡(luò )選項;在集群網(wǎng)絡(luò )方面,Nvidia有基于Ethernet的交換芯片和DPU芯片布局。AMD緊隨其后,更專(zhuān)注于CPU和GPU計算芯片,并采用基于先進(jìn)封裝的Chiplet芯粒技術(shù)。與Nvidia不同的是,AMD當前沒(méi)有超級芯片的概念,而是采用了先進(jìn)封裝將CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link內存一致接口進(jìn)行GPU、CPU、GPU和CPU間的互聯(lián),而GPU和CPU之間的互聯(lián)仍然保留傳統的PCIE連接方式。此外,AMD計劃推出XSwitch交換芯片,下一代MI450加速器將利用新的互連結構,其目的顯然是與Nvidia的NVSwitch競爭 [15]。BRCM則專(zhuān)注于網(wǎng)絡(luò )領(lǐng)域,在超節點(diǎn)網(wǎng)絡(luò )有對標InfiniBand的Jericho3-AI+Ramon的DDC方案;在集群網(wǎng)絡(luò )領(lǐng)域有基于Ethernet的Tomahawk系列和Trident系列交換芯片。近期BRCM推出其新的軟件可編程交換Trident 5-X12集成了NetGNT神經(jīng)網(wǎng)絡(luò )引擎實(shí)時(shí)識別網(wǎng)絡(luò )流量信息,并調用擁塞控制技術(shù)來(lái)避免網(wǎng)絡(luò )性能下降,提高網(wǎng)絡(luò )效率和性能 [16]。Cerebras/Telsa Dojo則“劍走偏鋒”,走依賴(lài)“晶圓級先進(jìn)封裝”的深度定制硬件路線(xiàn)。
工程工藝洞察和推演假設
半導體工藝演進(jìn)洞察根據IRDS的樂(lè )觀(guān)預測,未來(lái)5年,邏輯器件的制造工藝仍將快速演進(jìn),2025年會(huì )初步實(shí)現Logic器件的3D集成。TSMC和Samsung將在2025年左右開(kāi)始量產(chǎn)基于GAA (MBCFET)的2nm和3nm制程的產(chǎn)品 [17]。
按照TSMC給出的工藝演進(jìn)路標,2023~2025年基本以3nm工藝為主,2nm工藝在2025年以后才會(huì )發(fā)布。3nm技術(shù)已經(jīng)進(jìn)入量產(chǎn)階段,N3工藝和N3E版本已經(jīng)于2023年推出。2024年下半年開(kāi)始生產(chǎn)N3P版本,該版本將提供比N3E更高的速度、更低的功耗和更高的芯片密度。此外,N3X版本將專(zhuān)注于高性能計算應用,提供更高的時(shí)鐘頻率和性能,預計將于2025年開(kāi)始量產(chǎn) [18]。工藝演進(jìn)的收益對于邏輯器件的收益小于50%,因此,未來(lái)單芯片算力提升將更依賴(lài)于先進(jìn)封裝技術(shù)。
先進(jìn)封裝演進(jìn)洞察TSMC的CoWoS先進(jìn)封裝工藝封裝基板的尺寸在2023年為4倍Reticle面積,2025年將達到6倍Reticle面積 [19]。當前Nvidia H100 GPU的封裝基板尺寸小于2倍Reticle面積,AMD的MI300系列GPU的封裝基板尺寸大約為3.5倍Reticle面積,逼近當前TSMC CoWoS-L工藝的極限。
HBM內存演進(jìn)洞察HBM內存的容量預計將在2024年達到24GB,并在2025年進(jìn)一步增長(cháng)至36GB [20]。HBM4預計將帶來(lái)兩個(gè)重要的變化:首先,HBM接口位寬將從1024擴展到2048;其次,業(yè)界正在嘗試將HBM內存Die直接堆疊在邏輯Die的上方 [21][22]。這兩個(gè)變化意味著(zhù)HBM內存的帶寬和單個(gè)封裝內能容納的容量都將持續增長(cháng)。據報道,SK海力士已經(jīng)開(kāi)始招聘CPU和GPU等邏輯半導體的設計人員。該公司顯然正在考慮將HBM4直接堆疊在處理器上,這不僅會(huì )改變邏輯和存儲器設備的傳統互連方式,還會(huì )改變它們的制造方式。事實(shí)上,如果SK海力士成功實(shí)現這一目標,這可能會(huì )徹底改變芯片代工行業(yè) [21][22]。
推演假設本文基于兩個(gè)前提假設來(lái)推演Nvidia未來(lái)AI芯片的架構演進(jìn)。首先,每一代AI芯片的存儲、計算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;其次,工程工藝演進(jìn)是漸進(jìn)且可預測的,不存在跳變,至少在2025年之前不會(huì )發(fā)生跳變。到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來(lái)的收益預計不會(huì )超過(guò)50%。同時(shí),先進(jìn)封裝技術(shù)預計將在2025年達到6倍 Reticle面積的水平。此外,HBM內存容量也將繼續增長(cháng),預計在2024年將達到24GB,而在2025年將達到36GB。
Nvidia AI芯片架構解讀
互聯(lián)技術(shù)在很大程度上決定了芯片和系統的物理架構。Nvidia利用NVLink-C2C這種低時(shí)延、高密度、低成本的互聯(lián)技術(shù)來(lái)構建SuperChip超級芯片,旨在兼顧性能和成本打造差異化競爭力。與傳統的SerDes互聯(lián)相比,NVLink C2C采用了高密度單端架構和NRZ調制,使其在實(shí)現相同互聯(lián)帶寬時(shí)能夠在時(shí)延、功耗、面積等方面達到最佳平衡點(diǎn);而與Chiplet Die-to-Die互聯(lián)相比,NVLink C2C具備更強的驅動(dòng)能力,并支持獨立封裝芯片間的互聯(lián),因此可以使用標準封裝,滿(mǎn)足某些芯片的低成本需求。為了確保CPU和GPU之間的內存一致性操作 (Cache-Coherency),對于NVLink C2C接口有極低時(shí)延的要求。H100 GPU的左側需要同時(shí)支持NVLink C2C和PCIE接口,前者H100 GPU的左側需要同時(shí)支持NVLink C2C和PCIE接口,前者用于實(shí)現與Nvidia自研Grace CPU組成Grace-Hopper SuperChip,后者用于實(shí)現與PCIE交換芯片、第三方CPU、DPU、SmartNIC對接。NVLink C2C的互聯(lián)帶寬為900GB/s,PCIE互聯(lián)帶寬為128GB/s。而當Hopper GPU與Grace CPU組成SuperChip時(shí),需要支持封裝級的互聯(lián)。值得注意的是,Grace CPU之間也可以通過(guò)NVLink C2C互聯(lián)組成Grace CPU SuperChip??紤]到成本因素,Nvidia沒(méi)有選擇采用雙Die合封的方式組成Grace CPU,而是通過(guò)封裝間的C2C互聯(lián)組成SuperChip超級芯片。從時(shí)延角度來(lái)看,NVLink C2C采用40Gbps NRZ調制,可以實(shí)現無(wú)誤碼運行 (BER<1e-12),免除FEC,接口時(shí)延可以做到小于5ns。相比之下,112G DSP架構的SerDes本身時(shí)延可以高達20ns,因為采用了PAM4調制,因此還需要引入FEC,這會(huì )額外增加百納秒量級的時(shí)延。此外,NVLink C2C采用了獨立的時(shí)鐘線(xiàn)來(lái)傳遞時(shí)鐘信號,因此數據線(xiàn)上的信號不需要維持通信信號直流均衡的編碼或擾碼,可以進(jìn)一步將時(shí)延降低到極致。因此,引入NVLink C2C的主要動(dòng)機是滿(mǎn)足芯片間低時(shí)延互聯(lián)需求。從互聯(lián)密度來(lái)看,當前112G SerDes的邊密度可以達到12.8Tbps每邊長(cháng),遠遠大于當前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm2 vs. 552Gbps/mm2)。而當前NVLink C2C的邊密度還略低于SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。從驅動(dòng)能力來(lái)看,112G SerDes的驅動(dòng)能力遠大于NVLink C2C。這在一定程度上會(huì )制約NVLink C2C的應用范圍,未來(lái)類(lèi)似于NVLink C2C的單端傳輸線(xiàn)技術(shù)有可能進(jìn)一步演進(jìn),拓展傳輸距離,尤其是在224G 及以上SerDes時(shí)代,芯片間互聯(lián)更加依賴(lài)于電纜解決方案,這對與計算系統是不友好的,會(huì )帶來(lái)諸如芯片布局、散熱困難等一系列工程挑戰,同時(shí)也需要解決電纜方案成本過(guò)高的問(wèn)題。從功耗來(lái)看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯(lián)帶寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨考慮芯片間互聯(lián)時(shí),功耗降低很多,但是H100 GPU芯片整體功耗大約為700W,因此互聯(lián)功耗在整個(gè)芯片功耗中所占比例較小。從成本角度來(lái)看,NVLink C2C的面積和功耗優(yōu)于SerDes互聯(lián)。因此,在提供相同互聯(lián)帶寬的情況下,它可以節省更多的芯片面積用于計算和緩存。然而,考慮到計算芯片并不是IO密集型芯片,因此這種成本節約的比例并不顯著(zhù)。但是,如果將雙Chiplet芯粒拼裝成更大規模的芯片時(shí),NVLink C2C可以在某些場(chǎng)景下可以避免先進(jìn)封裝的使用,這對降低芯片成本有明顯的幫助,例如Grace CPU SuperChip超級芯片選擇標準封裝加上NVLink C2C互聯(lián)的方式進(jìn)行擴展可以降低成本。在當前工藝水平下,先進(jìn)封裝的成本遠高于邏輯Die本身。C2C互聯(lián)技術(shù)的另一個(gè)潛在的應用場(chǎng)景是大容量交換芯片,當其容量突破200T時(shí),傳統架構的SerDes面積和功耗占比過(guò)高,給芯片的設計和制造帶來(lái)困難。在這種情況下,可以利用出封裝的C2C互聯(lián)技術(shù)來(lái)實(shí)現IO的扇出,同時(shí)盡量避免使用先進(jìn)的封裝技術(shù),以降低成本。然而,目前的NVLink C2C技術(shù)并不適合這一應用場(chǎng)景,因為它無(wú)法與標準SerDes實(shí)現比特透明的轉換。因此,需要引入背靠背的協(xié)議轉換,這會(huì )增加時(shí)延和面積功耗。Grace CPU 具有上下翻轉對稱(chēng)性,因此單個(gè)芯片設計可以支持同構 Die 組成 SuperChip 超級芯片。Hopper GPU 不具備上下和左右翻轉對稱(chēng)性,未來(lái)雙 Die B100 GPU 芯片可能由兩顆異構 Die 組成。
NVLink 和 NVLink C2C 技術(shù)提供了更靈活設計,實(shí)現了 CPU 和 GPU 靈活配置,可以構建滿(mǎn)足不同應用需求的系統架構。NVLink C2C 可以提供靈活的CPU、GPU算力配比,可組成 1/0,0.5/1,0.5/2,1/4,1/8 等多種組合的硬件系統。NVLink C2C支持Grace CPU和Hopper GPU芯片間內存一致性操作 (Cache-Coherency),讓 Grace CPU 成為 Hopper GPU 的內存控制器和 IO 擴展器,實(shí)現了 4倍 IO 帶寬和5倍內存容量的擴展。這種架構打破了HBM的瓶頸,實(shí)現了內存超發(fā)。對訓練影響是可以緩存更大模型,利用ZeRO等技術(shù)外存緩存模型,帶寬提升能減少Fetch Weight的IO開(kāi)銷(xiāo)。對推理影響是可以緩存更大模型,按需加載模型切片推理,有可能在單CPU-GPU超級芯片內完成大模型推理 [23]。
有媒體測算Nvidia的H100利潤率達到90%。同時(shí)也給出了估算的H100的成本構成,Nvidia向臺積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。Nvidia從 SK 海力士(未來(lái)可能有三星、美光)采購六顆 HBM3芯片,成本大概 2000 美元。臺積電生產(chǎn)出來(lái)的 GPU 和Nvidia采購的 HBM3 芯片,一起送到臺積電 CoWoS 封裝產(chǎn)線(xiàn),以性能折損最小的方式加工成 H100,成本大約 723 美元 [24]。先進(jìn)封裝成本高,是邏輯芯片裸Die成本的3 到4倍以上, GPU內存的成本占比超過(guò) 60%。按照DDR: 5美金/GB,HBM: 15美金/GB以及參考文獻 [25][26] 中給出的GPU計算Die和先進(jìn)封裝的成本測算,H100 GPU HBM成本占比為62.5%;GH200中HBM和LPDDR的成本占比為78.2%。
雖然不同來(lái)源的信息對各個(gè)部件的絕對成本估算略有不同,但可以得出明確的結論:內存在A(yíng)I計算系統中的成本占比可高達60%到70%以上;先進(jìn)封裝的成本是計算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達到80%的情況下,先進(jìn)封裝無(wú)法有效地降低成本。因此,應該遵循非必要不使用的原則。
與AMD和Intel GPU 架構對比AMD的GPU相對于Nvidia更加依賴(lài)先進(jìn)封裝技術(shù)。MI250系列GPU采用了基于EFB硅橋的晶圓級封裝技術(shù),而MI300系列GPU則應用了AID晶圓級有源封裝基板技術(shù)。相比之下,Nvidia并沒(méi)有用盡先進(jìn)封裝的能力,一方面在當前代際的GPU中保持了相對較低的成本,另一方面也為下一代GPU保留了一部分工程工藝的價(jià)值發(fā)揮空間。
Intel Ponte Vecchio GPU將Chiplet和先進(jìn)封裝技術(shù)推向了極致,它涉及5個(gè)工藝節點(diǎn)(包括TSMC和Intel兩家廠(chǎng)商的不同工藝),47個(gè)有源的Tile,并同時(shí)采用了EMIB 2.5D和Foveros 3D封裝技術(shù)??梢哉f(shuō),它更像是一個(gè)先進(jìn)封裝技術(shù)的試驗場(chǎng)。Intel 的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。值得注意的是Gaudi系列AI芯片是由TSMC代工的Gaudi 2采用的是TSMC 7nm工藝,Gaudi 3采用的是TSMC 5nm工藝。
Nvidia未來(lái)AI芯片架構推演
NVLink和NVLink C2C演進(jìn)推演互聯(lián)技術(shù)在很大程度上塑造了芯片和系統的物理架構。從互聯(lián)技術(shù)的發(fā)展歷程出發(fā),以芯片布局為線(xiàn)索,并考慮工程工藝的物理限制,可以對Nvidia未來(lái)AI芯片架構進(jìn)行預測。這種推演也有助于發(fā)掘對互聯(lián)技術(shù)的新需求。互聯(lián)技術(shù)的演進(jìn)是一個(gè)漸進(jìn)的過(guò)程,其基本技術(shù)要素如帶寬、調制和編碼等都遵循著(zhù)其內在的發(fā)展規律。這些物理規律相對穩定,通過(guò)將這些技術(shù)進(jìn)行組合并結合當前工程工藝的發(fā)展趨勢以及需求,就可以大致描繪和預測出互聯(lián)技術(shù)的發(fā)展方向。在這里不深入探討晦澀難懂的互聯(lián)技術(shù)本身的發(fā)展,而是從宏觀(guān)技術(shù)邏輯和外在可觀(guān)察的指標兩個(gè)角度出發(fā),探討NVLink和NVLink C2C的歷史演進(jìn),并對其未來(lái)發(fā)展進(jìn)行預測。從NVLink的演進(jìn)看,當前其演進(jìn)了四個(gè)代際,NVLink C2C當前只有一個(gè)代際,通過(guò)與當下不同協(xié)議的速率演進(jìn)對比及NVLink宣傳材料,可以清晰的看到每個(gè)代際的NVLink技術(shù)的競爭對手和其要解決的痛點(diǎn)問(wèn)題。當前接口有兩大開(kāi)放的互聯(lián)生態(tài),PCIE互聯(lián)生態(tài)和Ethernet互聯(lián)生態(tài),CXL協(xié)議依托于PCIE互聯(lián)生態(tài),而InfiniBand則依托與Ethernet互聯(lián)生態(tài)。NVLink的主要目標是解決GPU之間的互聯(lián)問(wèn)題,而早期的GPU一定需要保留與CPU互聯(lián)的PCIE接口,用于GPU互聯(lián)是也天然的繼承了這一技術(shù),因此NVLink早期的競爭對手是PCIE。從PCIE、Ethernet和NVLink的發(fā)展軌跡來(lái)看,NVLink的SerDes速率介于同時(shí)期PCIE和Ethernet SerDes速率之間。這意味著(zhù)NVLink利用了Ethernet生態(tài)成熟的互聯(lián)技術(shù)來(lái)對抗PCIE,實(shí)現接口速率超越PCIE。通過(guò)復用Ethernet生態(tài)的成熟互聯(lián)技術(shù),NVLink在成本方面也具有優(yōu)勢。值得注意的是,NVLink并未完全遵循Ethernet的互聯(lián)技術(shù)規范。例如,在50G NVLink3.0采用了NRZ調制,而不是Ethernet所采用的PAM4調制 [30]。這意味著(zhù)NVLink3.0利用了100Gbps PAM4 SerDes代際的技術(shù),并通過(guò)采用更低階NRZ調制來(lái)實(shí)現鏈路的無(wú)誤碼運行,免去FEC實(shí)現低時(shí)延。同樣以低時(shí)延著(zhù)稱(chēng)的InfiniBand在50G這一代際則完全遵從了Ethernet的PAM4調制,這在一定程度上使其在50G這一代際喪失了低時(shí)延的技術(shù)優(yōu)勢,市場(chǎng)不得不選擇長(cháng)期停留在25G代際的InfiniBand網(wǎng)絡(luò )上。當然,InfiniBand網(wǎng)絡(luò )也有其無(wú)奈之處,因為它需要復用Ethernet光模塊互聯(lián)生態(tài),所以它必須完全遵循Ethernet的互聯(lián)電氣規范,而與之對應的NVLink3.0則只需要解決盒子內或機框內互聯(lián)即可。同樣的事情也會(huì )在100G代際的NVLink4.0上發(fā)生,NVLink4.0完全擺脫了盒子和框子的限制,實(shí)現了跨盒子、跨框的互聯(lián),此時(shí)為了復用Ethernet的光模塊互聯(lián)生態(tài),NVLink4.0的頻點(diǎn)和調制格式也需要遵從Ethernet互聯(lián)的電氣規范。以前InfiniBand遇到的問(wèn)題,NVLink也同樣需要面對。在100G時(shí)代,可以觀(guān)察到Ethernet、InfiniBand和NVLink的SerDes速率在時(shí)間節奏上齊步走的情況。實(shí)際上,這三種互聯(lián)接口都采用了完全相同的SerDes互聯(lián)技術(shù)。同樣的情況在200G這一代際也會(huì )發(fā)生。與InfiniBand和Ethernet不同的是,NVLink是一個(gè)完全私有的互聯(lián)生態(tài),不存在跨速率代際兼容、同代際支持多種速率的接口和多廠(chǎng)商互通的問(wèn)題。因此,在技術(shù)選擇上,NVLink可以完全按照具體應用場(chǎng)景下的需求來(lái)選擇設計甜點(diǎn),在推出節奏上可以根據競爭情況自由把控,也更容易實(shí)現差異化競爭力和高品牌溢價(jià)。
NVLink的發(fā)展可以分為兩個(gè)階段。NVLink1.0~3.0主要在盒子內、機框內實(shí)現GPU高速互聯(lián),對標PCIE。它利用了Ethernet SerDes演進(jìn)更快的優(yōu)勢,采用了更高速的SerDes,同時(shí)在NVLink2.0時(shí)代開(kāi)始引入NVSwitch技術(shù),在盒子內、機框內組成總線(xiàn)域網(wǎng)絡(luò ),在帶寬指標上對PCIE形成了碾壓式的競爭優(yōu)勢。NVLink4.0以后NVLink走出盒子和機框,NVSwitch走出計算盒子和機框,獨立成為網(wǎng)絡(luò )設備,此時(shí)對標的是InfiniBand和Ethernet網(wǎng)絡(luò )。雖然NVLink4.0沒(méi)有公開(kāi)的技術(shù)細節,但是從NVLink網(wǎng)絡(luò )的Load-Store網(wǎng)絡(luò )定位和滿(mǎn)足超節點(diǎn)內部?jì)却婀蚕淼男枨笊峡?,一個(gè)合理的推測是,NVLink4.0很可能采用了輕量FEC加鏈路級重傳的技術(shù)支持低時(shí)延和高可靠互聯(lián)。在時(shí)延和可靠性競爭力指標上對InfiniBand和Ethernet形成碾壓式的競爭力,這更有利于實(shí)現內存語(yǔ)義網(wǎng)絡(luò ),支持超節點(diǎn)內內存共享。提供傳統網(wǎng)絡(luò )所不能提供的關(guān)鍵特性,才是NVLink作為總線(xiàn)域網(wǎng)絡(luò )獨立存在的理由。
基于NVLink C2C的產(chǎn)品目前只有GH200這一代,但是從Nvidia在該領(lǐng)域公開(kāi)發(fā)表的論文中可以大致看出其技術(shù)發(fā)展的脈絡(luò )。從技術(shù)演進(jìn)上看,它是封裝內Die間互聯(lián)的在均衡上的增強。從Nvidia SuperChip超級芯片路標來(lái)看,它將在未來(lái)的AI芯片中繼續發(fā)揮重要作用。對于這類(lèi)接口,仍需保持連接兩個(gè)獨立封裝芯片的能力和極低的時(shí)延和功耗。當前的NVLink C2C采用9*40Gbps NRZ調制方式。未來(lái)NVLink-C2C可能會(huì )向更高速率和雙向傳輸技術(shù)方向演進(jìn)。而50G NRZ是C2C互聯(lián)場(chǎng)景下在功耗和時(shí)延方面的設計甜點(diǎn)。繼續維持NRZ調制,選擇合適工作頻率,走向雙向傳輸將是實(shí)現速率翻倍的重要技術(shù)手段。雖然NVLink C2C針對芯片間互聯(lián)做了優(yōu)化設計,但由于它與標準SerDes之間不存在速率對應關(guān)系,無(wú)法實(shí)現與標準SerDes之間比特透明的信號轉換,因此其應用場(chǎng)景受限。在與標準SerDes對接時(shí)需要多引入一層協(xié)議轉化會(huì )增加時(shí)延、面積和功耗開(kāi)銷(xiāo)。未來(lái)可能存在一種可能性,即采用類(lèi)似NVLink C2C這種高密單端傳輸技術(shù),同時(shí)與標準SerDes實(shí)現多對一的速率匹配,這種技術(shù)一旦實(shí)現將極大地擴展C2C高密單端互聯(lián)技術(shù)的應用空間,也有可能開(kāi)啟SerDes面向更高速率演進(jìn)的新賽道。

從NVLink和NVSwitch的演進(jìn)來(lái)看,每一代速率會(huì )是上一代的1.5到2倍。下一代NVLink5.0大概率會(huì )采用200G每通道,每個(gè)GPU能夠出的NVLink接口數量從18個(gè)增加到32個(gè),甚至更高。而NVSwitch4.0在端口速率達到200G以外,交換芯片的端口數量可能在NVSwitch3.0交換芯片64端口的基礎上翻2倍甚至4倍,總交換容量從12.8T到25.6T甚至51.2T [30]。
B100 GPU架構推演以H100 GPU芯片布局為基礎,通過(guò)先進(jìn)的封裝技術(shù)將兩顆類(lèi)似H100大小的裸Die進(jìn)行合封,可以推演B100 GPU架構。B100 GPU有兩種“雙Die”推演架構:IO邊縫合和HBM邊縫合[31][32]?!癏BM邊縫合”利用H100的HBM邊進(jìn)行雙Die連接,這種方案的優(yōu)點(diǎn)在于,它可以使得IO可用邊長(cháng)翻倍,從而有利于擴展IO帶寬。然而,它的缺點(diǎn)在于HBM可用邊長(cháng)并沒(méi)有改變,因此無(wú)法進(jìn)一步擴展HBM容量?!癐O邊縫合”利用H100的IO邊進(jìn)行雙Die連接,這種方案的優(yōu)勢在于HBM可用邊長(cháng)能夠翻倍,從而有利于擴展內存。然而,它的缺點(diǎn)在于IO可用邊長(cháng)并未改變,因此需要進(jìn)一步提升IO密度??紤]到每代芯片與上一代相比,在內存、算力、互聯(lián)三個(gè)層面需要實(shí)現兩倍以上的性能提升,采用“IO 邊縫合”方案的可能性更大。采用“IO 邊縫合”的方案需要提升 IO 的邊密度。
H100不具備旋轉對對稱(chēng)性,而雙Die的B100仍需支持 GH200 SuperChip 超級芯片,因此B100可能由兩顆異構 Die組成。按照不同的長(cháng)寬比采用“IO邊縫合的方式”B100 的面積達到3.3到3.9倍的Reticle面積,小于當前TSMC CoWoS先進(jìn)封裝能夠提供的4倍Reticle面積的能力極限。計算 Die 之間互聯(lián)可以復用 NVLink C2C 互聯(lián)技術(shù),既利用 NVLink C2C出封裝的連接能力覆蓋Die間互聯(lián)的場(chǎng)景。為了實(shí)現計算Die的歸一化,可以將IO從計算Die中分離出來(lái),形成獨立的IO Die。這樣,計算Die的互聯(lián)接口就實(shí)現了歸一化,使計算Die具備了旋轉對稱(chēng)性。在這種情況下,仍然存在兩種架構:一種是同構計算Die與IO Die合封,另一種是計算Die與IO Die分別封裝并用C2C互聯(lián)將二者連接。計算Die的同構最大的優(yōu)勢在于可以實(shí)現芯片的系列化。通過(guò)靈活組合計算Die和IO Die,可以實(shí)現不同規格的芯片以適應不同的應用場(chǎng)景的需求。

Nvidia B100 有“異構 Die 合封”,“計算Die與IO Die分離,同構計算 Die 與 IO Die 合封”,“計算 Die 與 IO Die 分離并分別封裝,并用C2C互聯(lián)將二者連接”三種架構選項。Nvidia B100 如果采用單封裝雙 Die 架構,封裝基板面積達到 3.3~3.9倍 Reticle面積,功耗可能超過(guò) 1kW。計算 Die 之間互聯(lián)可以復用 NVLink C2C 互聯(lián)技術(shù)。將計算 Die 和 IO Die 分離可以實(shí)現計算 Die 的同構化,降低成本。利用 NVLink C2C 出封裝互聯(lián)的能力,可以將 IO 扇出,降低 IO 邊密度壓力。需要注意的是,當前 NVLink C2C 速率與 PCIE & NVLink 的 SerDes 無(wú)法匹配,因此需要 IO Die 上作協(xié)議轉換,無(wú)法做到協(xié)議無(wú)關(guān)。如果 C2C 互聯(lián)和 SerDes 速率能夠進(jìn)行多對一的匹配實(shí)現比特透明的 CDR,這樣可以消除協(xié)議轉換的開(kāi)銷(xiāo)??紤]到B100 2024年推出的節奏,方案一、三匹配當前先進(jìn)封裝能力,但方案三需要引入額外的協(xié)議轉換;方案二超出當前先進(jìn)封裝能力。
X100 GPU架構推演Nvidia X100如果采用單Socket封裝四Die架構,封裝基板面積將超過(guò)6倍Reticle面積,這將超出2025年的先進(jìn)封裝路標的目標。而如果采用雙Socket封裝架構,則需要使用10~15cm的C2C互聯(lián)技術(shù)來(lái)實(shí)現跨封裝的計算 Die間的互聯(lián),這可能需要對當前NVLink C2C的驅動(dòng)能力進(jìn)一步增強。
Nvidia X100 GPU如果采用四Die架構,如果要控制封裝基板面積在6倍Reticle面積以下,匹配2025年先進(jìn)封裝路標,則需要在計算Die上通過(guò)3D堆疊的方式集成HBM [21][22]。因此X100如果不采用SuperChip超級芯片的架構而是延續單封裝架構,要想在2025年推出,技術(shù)挑戰非常大。一方面需要先進(jìn)封裝基板達到6倍Reticle面積,另一方面需要實(shí)現在計算Die上堆疊HBM,同時(shí)要解決HBM和計算Die堆疊帶來(lái)的芯片散熱問(wèn)題。
在滿(mǎn)足2025年的工程約束的前提下,X100也可以采用SuperChip超級芯片架構在B100雙Die架構的基礎上進(jìn)行平面擴展。在這種情況下,Nvidia X100 也有“異構 Die 合封”,“同構計算 Die 與 IO Die 合封”,“計算 Die 與 IO Die 分別封裝”三種架構選項。如果采用封裝間互聯(lián)的超級芯片的擴展方式,先進(jìn)封裝的基板面積約束將不再會(huì )是瓶頸,此時(shí)只需要增強NVLink C2C的驅動(dòng)能力。
H100/H200, B100, X100 GPU架構演進(jìn)總結
基于以下兩個(gè)前提:每一代AI芯片的存儲、計算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;工程工藝演進(jìn)是漸進(jìn)且可預測的,不存在跳變,至少在2025年之前不會(huì )發(fā)生跳變。因此,可以對2023年的H100、2024年的B100和2025年的X100的架構進(jìn)行推演總結。
對于工程工藝的基本假設如下:到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來(lái)的收益預計不會(huì )超過(guò)50%。同時(shí),先進(jìn)封裝技術(shù)預計將在2025年達到6倍 Reticle面積的水平。此外,HBM內存容量也將繼續增長(cháng),預計在2024年將達到24GB,而在2025年將達到36GB。
在上述前提假設條件下,針對H100/H200, B100, X100 GPU可以得到如下推演結論: 1. H200是基于H100的基礎上從HBM3升級到HBM3e,提升了內存的容量和帶寬。 2. B100將采用雙Die架構。如果采用異構Die合封方式,封裝基板面積將小于當前先進(jìn)封裝4倍Reticle面積的約束。而如果采用計算Die和IO Die分離,同構計算Die和IO Die合封的方式,封裝基板面積將超出當前先進(jìn)封裝4倍Reticle面積的約束。如果采用計算Die和IO Die分離,同構計算Die和IO Die分開(kāi)封裝的方式,則可以滿(mǎn)足當前的工程工藝約束??紤]到B100 2024年推出的節奏,以及計算Die在整個(gè)GPU芯片中的成本占比并不高,因此用異構Die合封方式的可能性較大。 3. 如果X100采用單Socket封裝,四個(gè)異構Die合封裝的方式,需要在計算Die上堆疊HBM,同時(shí)需要先進(jìn)封裝的基板達到6倍Reticle面積。但是,如果采用SuperChip超級芯片的方式組成雙Socket封裝模組,可以避免計算Die上堆疊HBM,并放松對先進(jìn)封裝基板面積的要求,此時(shí)需要對NVLink C2C的驅動(dòng)能力做增強。基于B100雙Die架構,采用雙Socket板級3D擴展可以實(shí)現與X100同等的算力。類(lèi)似的方法也可以應用到X100中進(jìn)一步擴展算力。板級擴展可以降低對工程工藝的要求,以較低的成本實(shí)現算力擴展。雖然基于人們對于先進(jìn)封裝的Chiplet芯粒架構充滿(mǎn)了期待,但是其演進(jìn)速度顯然無(wú)法滿(mǎn)足AI計算系統“三年三個(gè)數量級”的增長(cháng)需求 [33]。在A(yíng)I計算領(lǐng)域基于先進(jìn)封裝Die間互聯(lián)Chiplet芯粒架構,很可能因為無(wú)法滿(mǎn)足AI計算領(lǐng)域快速增長(cháng)的需求而面臨“二世而亡”的窘境,業(yè)界需要重新尋找旨在提升AI算力的新技術(shù)路徑,比如SuperChip超級芯片和SuperPOD超節點(diǎn)。因此,類(lèi)似于NVLink C2C的低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來(lái)AI計算芯片的Scale Up算力擴展中將起到至關(guān)重要的作用;面向AI集群Scale Out算力擴展的互聯(lián)技術(shù)也同等重要。這兩中互聯(lián)技術(shù),前者是AI計算芯片算力擴展的基礎,而后者是AI計算集群算力擴展的基礎。
總結與思考本文嘗試從第一性原理出發(fā),對Nvidia的AI芯片發(fā)展路線(xiàn)進(jìn)行了深入分析和解讀,并對未來(lái)的B100和X100芯片架構進(jìn)行了推演預測。并且,希望通過(guò)這種推演提取出未來(lái)AI計算系統對互聯(lián)技術(shù)的新需求。本文以互聯(lián)技術(shù)為主線(xiàn)展開(kāi)推演分析,同時(shí)考慮了芯片代際演進(jìn)的性能提升需求和工程工藝約束。最終得出的結論是:在A(yíng)I計算領(lǐng)域,基于先進(jìn)封裝Die間互聯(lián)的Chiplet芯粒架構無(wú)法滿(mǎn)足AI計算領(lǐng)域快速增長(cháng)的需求,可能面臨“二世而亡”的窘境。低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來(lái)AI計算芯片的Scale Up算力擴展中將起到至關(guān)重要的作用;雖然未展開(kāi)討論,同樣的結論也適用于面向AI集群Scale Out算力擴展的互聯(lián)技術(shù)。224G及以上代際中,面向計算集群的互聯(lián)技術(shù)也存在非常大的挑戰。需要明確指出的是,互聯(lián)技術(shù)并不是簡(jiǎn)單地將芯片、盒子、機框連接起來(lái)的問(wèn)題,它并不是一根連線(xiàn)而已,它需要在需求、技術(shù)、產(chǎn)業(yè)生態(tài)等各個(gè)方面進(jìn)行綜合考慮,需要極具系統性的創(chuàng )新以及長(cháng)時(shí)間的、堅持不懈的投入和努力。除了互聯(lián)技術(shù)以外,通過(guò)對Nvidia相關(guān)技術(shù)布局的分析也引發(fā)了如下思考:1. 真正的差異化競爭力源于系統性地、全面地掌握整個(gè)價(jià)值鏈中主導無(wú)法快速復制的關(guān)鍵環(huán)節。Nvidia在系統和網(wǎng)絡(luò )、硬件、軟件這三個(gè)方面占據了主導地位,而這三個(gè)方面恰恰是人工智能價(jià)值鏈中許多大型參與者無(wú)法有效或快速復制的重要部分。然而,要在這三個(gè)方面中的任何一方面建立領(lǐng)導地位都離不開(kāi)長(cháng)時(shí)間堅持不懈的投入和努力帶來(lái)的技術(shù)沉淀和積累。指望在一個(gè)技術(shù)單點(diǎn)形成突破,期望形成技術(shù)壁壘或者技術(shù)護城河的可能性為零?!爸匾覠o(wú)法快速復制”是核心特征,其中“重要”更容易被理解,而“無(wú)法快速復制”則意味著(zhù)“長(cháng)時(shí)間堅持不懈的投入和努力”帶來(lái)的沉淀和積累,這是人們往往忽視的因素。2. 開(kāi)放的產(chǎn)業(yè)生態(tài)并不等同于技術(shù)先進(jìn)性和競爭力。只有深入洞察特定領(lǐng)域的需求,進(jìn)行技術(shù)深耕,做出差異化競爭力,才能給客戶(hù)帶來(lái)高價(jià)值,給自身帶來(lái)高利潤。Nvidia基于NVLink C2C的SuperChip超級芯片以及基于NVLink網(wǎng)絡(luò )的SuperPOD超節點(diǎn)就是很好的例子。真正構筑核心競爭力的技術(shù)是不會(huì )開(kāi)放的,至少在有高溢價(jià)的早期不會(huì )開(kāi)放,比如Nvidia的NVLink和NVLink C2C技術(shù),比如Intel的QPI和UPI。開(kāi)放生態(tài)只是后來(lái)者用來(lái)追趕強者的借口(比如UEC),同時(shí)也是強者用來(lái)鞏固自己地位的工具(比如PCIE)。然而,真正的強者并不會(huì )僅僅滿(mǎn)足于開(kāi)放生態(tài)所帶來(lái)的優(yōu)勢,而是會(huì )通過(guò)細分領(lǐng)域和構筑特定領(lǐng)域的封閉生態(tài),實(shí)現差異化競爭力來(lái)保持領(lǐng)先地位。3. 構筑特定領(lǐng)域的差異化競爭力與復用開(kāi)放的產(chǎn)業(yè)生態(tài)并不矛盾。其關(guān)鍵在于要在開(kāi)放的產(chǎn)業(yè)生態(tài)中找到真正的結合點(diǎn),并能夠果斷地做出取舍,勇敢地拋棄不必要的負擔,只選擇開(kāi)放產(chǎn)業(yè)生態(tài)中的精華部分,構建全新的技術(shù)體系。為了構筑特定領(lǐng)域的差異化競爭力,更應該積極擁抱開(kāi)放的產(chǎn)業(yè)生態(tài),主動(dòng)引導其發(fā)展以實(shí)現這種差異化。比如,InfiniBand與Ethernet在低時(shí)延方面的差異化并不是天生的,而是人為構造出來(lái)的。兩者在基礎技術(shù)上是相同的。InfiniBand在25G NRZ代際以前抓住了低時(shí)延這一核心特征,摒棄跨速率代際兼容的需求,卸掉了技術(shù)包袱,并且在HPC領(lǐng)域找到了合適的戰場(chǎng),因此在低時(shí)延指標上一直碾壓Ethernet,成功實(shí)現了高品牌溢價(jià)。而InfiniBand在56G PAM4這一代際承襲了Ethernet的互聯(lián)規范,因此這種低時(shí)延上的競爭力就逐漸喪失了。人為制造差異化競爭力的典型例子還有:同時(shí)兼容支持InfiniBand和Ethernet的CX系列網(wǎng)卡和BlueField系列DPU;內置在NVSwitch和InfiniBand交換機中的SHARP在網(wǎng)計算協(xié)議和技術(shù);Nvidia基于NVLink C2C構筑SuperChip超級芯片以及基于NVLink網(wǎng)絡(luò )構筑SuperPOD超節點(diǎn)。4. “天下沒(méi)有免費的午餐”,這是恒古不變的真理和底層的商業(yè)邏輯。商業(yè)模式中的“羊毛出在狗身上,由豬買(mǎi)單”其實(shí)就是變相的轉移支付,羊毛終將是出在羊身上,只是更加隱蔽罷了。這一規律同樣適用于對復雜系統中的技術(shù)價(jià)值的判斷上。自媒體分析H100的BOM物料成本除以售價(jià)得到90%的毛利率是片面的,因為高價(jià)值部分是H100背后的系統競爭力,而不僅僅是那顆眼鏡片大小的硅片。這里包含了H100背后的海量的研發(fā)投入和技術(shù)積累。而隱藏在這背后的實(shí)際上是人才。如何對中長(cháng)期賽道上耕耘的人提供既緊張又輕松的研究環(huán)境,使研究人員能安心與具有長(cháng)期深遠影響的技術(shù)研究,是研究團隊面臨的挑戰和需要長(cháng)期思考的課題。從公開(kāi)發(fā)表的D2D和C2C相關(guān)文獻中可以看到,Nvidia在這一領(lǐng)域的研究投入超過(guò)十年,針對C2C互聯(lián)這一場(chǎng)景的研究工作也超過(guò)五年。在五到十年的維度上長(cháng)期進(jìn)行迭代研究,需要相當強的戰略定力,同時(shí)也需要非常寬松的研究環(huán)境和持續的研究投入。5. 在人工智能時(shí)代,通過(guò)信息不對稱(chēng)來(lái)獲取差異化競爭力或獲得收益的可能性越來(lái)越低。這是因為制造信息不對稱(chēng)的難度和代價(jià)不斷飆升,而其所帶來(lái)的收益卻逐漸減少。在不久的未來(lái),制造信息不對稱(chēng)的代價(jià)將會(huì )遠遠超過(guò)收益。妄圖通過(guò)壟斷信息而達到差異化的競爭力,浪費的是時(shí)間,而失去的是機會(huì )。隨著(zhù)大模型的進(jìn)一步演進(jìn)發(fā)展,普通人可以通過(guò)人工智能技術(shù)輕松地獲取并加工海量的信息且不會(huì )被淹沒(méi)。未來(lái)的核心競爭力是如何駕馭包括人工智能在內的工具,對未來(lái)技術(shù)走向給出正確的判斷。6. Nvidia并非不可戰勝,在激進(jìn)的技術(shù)路標背后也隱藏著(zhù)巨大的風(fēng)險。如何向資本證明其在A(yíng)I計算領(lǐng)域的能夠長(cháng)期維持統治地位,保持長(cháng)期的盈利能力,以維持其高股價(jià)、實(shí)現持續高速增長(cháng),極具挑戰性。一旦2025年發(fā)布的X100及其配套關(guān)鍵技術(shù)不及預期,這將直接影響投資者的信心。這是Nvidia必須面臨的資本世界的考驗,在這一點(diǎn)上它并沒(méi)有制度優(yōu)勢。在一些基礎技術(shù)層面,業(yè)界面臨的挑戰是一樣的。以互聯(lián)技術(shù)為例,用于A(yíng)I計算芯片Scale Up算力擴展的C2C互聯(lián)技術(shù),以及面向AI集群Scale Out算力擴展的光電互聯(lián)技術(shù)都存在非常大的挑戰。誰(shuí)能在未來(lái)互聯(lián)技術(shù)演進(jìn)的探索中,快速試錯,最快地找到最佳路徑,少犯錯誤,誰(shuí)就抓住了先機。在未來(lái)的競爭中有可能實(shí)現超越。來(lái)源: 極客重生
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。