英偉達最強AI芯片曝重大設計缺陷,中國特供版意外曝光!
英偉達GPU,一直是OpenAI等大模型公司研發(fā)AI的命脈。
而現在,由于Blackwell GPU的設計缺陷,英偉達發(fā)貨時(shí)間不得不推遲3個(gè)月,甚至更長(cháng)的時(shí)間。
Information獨家報道稱(chēng),最近幾周,臺積電工程師在為Blackwell芯片量產(chǎn)做準備時(shí),才發(fā)現了缺陷。
就在上周,老黃曾在SIGGRAPH上表示,英偉達已經(jīng)向世界各地客戶(hù)遞交Blackwell工程樣本。
他滿(mǎn)臉輕松的樣子,根本沒(méi)有暗示任何意想不到的延誤。
,時(shí)長(cháng)00:16
那么,芯片設計究竟哪里出現了缺陷?
正是這一問(wèn)題,才導致臺積電生產(chǎn)GB200良率下降。

最新芯片推遲發(fā)貨,意味著(zhù)對于Meta、谷歌、微軟等科技大廠(chǎng)來(lái)說(shuō),AI訓練進(jìn)程將會(huì )受到影響。
而且,他們數據中心建設也將不可避免地延期。
據稱(chēng),Blackwell芯片大量出貨,預計要到明年第一季度。
在SemiAnalysis最新報告中,同樣詳細闡述了英偉達面臨的技術(shù)挑戰,推遲發(fā)貨后的時(shí)間表,以及新系統MGX GB200A Ultra NVL36。
Blackwell推遲三月,哀聲一片
還記得GTC 2024大會(huì )上,老黃手捧最強Blackwell架構GPU,向世界宣告了最強的性能野獸。5月,他曾公開(kāi)表示,「計劃在今年晚些時(shí)候,將大量出貨Blackwell架構的芯片」。
甚至,他還在財報會(huì )議上信心滿(mǎn)滿(mǎn)地表示,「今年我們會(huì )看到大量的Blackwell收入」。
英偉達股東們更是對Blackwell GPU寄予厚望。
來(lái)自Keybanc Capital Markets的分析師估算,Blackwell芯片將為英偉達數據中心帶來(lái),將從2024年的475億美元,提升到2025年超2000億美元的收入。
也就是說(shuō),Blackwell系列GPU,對于英偉達未來(lái)的銷(xiāo)量和收入起著(zhù)決定性作用。
卻沒(méi)想到,設計缺陷直接影響了英偉達在今年下半年,以及明年上半年的生產(chǎn)目標。
參與Blackwell芯片設計內部人士透露,英偉達正與臺積電進(jìn)行測試芯片生產(chǎn)運行,來(lái)盡快解決難題。
不過(guò)目前,英偉達的彌補措施是,繼續延長(cháng)Hopper系列芯片發(fā)貨量,盡可能按計劃在今年下半年加速生產(chǎn)Blackwell GPU。
豪擲數百億美金,AI訓練延期不僅如此,這個(gè)鏈式效應,將對大模型開(kāi)發(fā)商、數據中心云服務(wù)提供商,造成了致命的打擊。
為了訓AI,Meta、微軟、谷歌等金主爸爸們,不惜重金斥資數百億美元,訂購了大量Blackwell芯片。
谷歌已經(jīng)訂購了超40萬(wàn)個(gè)GB200,外加服務(wù)器硬件,谷歌訂單成本遠超100億美元。
今年,這家巨頭已經(jīng)在芯片和其他設備財產(chǎn)上,支出預計約為500億美元,比去年增長(cháng)了超過(guò)50%。
另外,Meta也下了至少100億美元的訂單,而微軟訂單規模近幾周增加了20%。
不過(guò),這兩家公司的具體訂單規模,尚未得知。
知情人士透露,微軟計劃到2025年第一季度,要為OpenAI準備5.5萬(wàn)-6.5萬(wàn)個(gè)GB200芯片。
而且,微軟管理層原計劃在25年1月,向OpenAI提供Blackwell驅動(dòng)的服務(wù)器。
現在看來(lái),原計劃需要推遲到3月,或者來(lái)年春天。
按原本預定的時(shí)間,他們將在2025年第一季度開(kāi)始運行新超算集群。
包括OpenAI在內AI公司,都在等著(zhù)使用新芯片開(kāi)發(fā)開(kāi)發(fā)下一代LLM。
因為大模型的訓練還需要多倍的算力,從而能夠更好回答復雜問(wèn)題、自動(dòng)化多步任務(wù),生成更逼真的視頻。
可以說(shuō),下一代超強AI,就指望著(zhù)英偉達最新的AI芯片了。
史上罕見(jiàn)的延遲
不過(guò),這次大規模芯片訂單延遲,不僅在所有人意料之外,更是罕見(jiàn)的。臺積電最初計劃在第三季度,開(kāi)始量產(chǎn)Blackwell芯片,并從第四季度開(kāi)始大規模向英偉達客戶(hù)發(fā)貨。
內部人士透露,Blackwell芯片現在預計將在第四季度進(jìn)入量產(chǎn)階段,如果沒(méi)有進(jìn)一步的問(wèn)題,服務(wù)器將在隨后的季度內大規模出貨。
其實(shí),早在2020年,英偉達旗艦GPU早期版本,也因為一些問(wèn)題不得不延遲。
但當時(shí)英偉達所面臨的風(fēng)險較低,客戶(hù)們并不急于訂單到貨,而且從數據中心中實(shí)現盈利也相對較少。
而這次,在量產(chǎn)前發(fā)現重大設計缺陷,確實(shí)非常罕見(jiàn)。
芯片設計師通常會(huì )與臺積電晶圓廠(chǎng)合作,進(jìn)行多次生產(chǎn)測試和模擬,以確保產(chǎn)品的可行性和順利的制造過(guò)程,然后才會(huì )接受客戶(hù)的大量訂單。
對于臺積電來(lái)說(shuō),停止生產(chǎn)線(xiàn),并重新設計一個(gè)即將量產(chǎn)的產(chǎn)品,也并不多見(jiàn)。他們專(zhuān)為GB200量產(chǎn)做了充分準備,包括分配專(zhuān)門(mén)的機器產(chǎn)能。
而現在,在問(wèn)題解決之前,這些機器人不得不暫時(shí)閑置。
設計缺陷還將影響英偉達NVLink服務(wù)器機架的生產(chǎn)和交付,因為負責服務(wù)器的公司必須等待新的芯片樣品,才能最終確定服務(wù)器機架設計。
被迫推出重制版
技術(shù)挑戰也讓英偉達不得不緊急開(kāi)發(fā)一套全新的系統及組件架構,比如MGX GB200A Ultra NVL36。而這種全新的設計,也將對數十家上下游供應商產(chǎn)生了重大影響。
作為Blackwell系列中技術(shù)最先進(jìn)的芯片,英偉達在系統層面上對GB200做出了大膽的技術(shù)選擇。
這個(gè)72 GPU機架的功率密度達到了前所未有的每機架125kW。相比之下,數據中心大多數架只有12kW到20kW。
如此復雜的系統,也導致了許多與電力傳輸問(wèn)題、過(guò)熱、水冷供應鏈增長(cháng)、快速斷開(kāi)的水冷系統泄漏以及各種電路板復雜性問(wèn)題相關(guān)的問(wèn)題,并讓一些供應商和設計師措手不及。
不過(guò),這并不是導致英偉達減少產(chǎn)量或重大路線(xiàn)圖調整的原因。
真正影響出貨的核心問(wèn)題是——英偉達Blackwell架構的設計本身。
Blackwell封裝是第一個(gè)使用臺積電的CoWoS-L技術(shù)進(jìn)行大規模量產(chǎn)設計的封裝。
CoWoS-L需要使用帶有局部硅互連(LSI)和嵌入橋接芯片的RDL中介層,來(lái)橋接封裝內各種計算和存儲之間的通信。
相比起目前采用的CoWoS-S技術(shù),CoWoS-L要復雜得多,但它是未來(lái)。
英偉達和臺積電制定了一個(gè)非常激進(jìn)的增長(cháng)計劃,每季度超過(guò)一百萬(wàn)顆芯片的目標。
但各種各樣的問(wèn)題,也因此出現了。
其中一個(gè)問(wèn)題是將多個(gè)細間距凸點(diǎn)橋嵌入有機中介層和硅中介層中,可能會(huì )導致硅芯片、橋、有機中介層和基板之間的熱膨脹系數(CTE)不匹配,導致翹曲。
橋接芯片的布局需要非常高的精度,特別是涉及到2個(gè)主要計算芯片之間的橋接時(shí),因為這些橋接對于支持10 TB/s的芯片間互連至關(guān)重要。
據傳,一個(gè)主要的設計問(wèn)題與橋接芯片有關(guān)。同時(shí),頂部幾層全局布線(xiàn)金屬層和芯片的凸點(diǎn)也需要重新設計。這是導致多個(gè)月延遲的主要原因之一。
另一個(gè)問(wèn)題是,臺積電沒(méi)有足夠的CoWoS-L產(chǎn)能。
過(guò)去幾年中,臺積電建立了大量的CoWoS-S產(chǎn)能,其中英偉達占了大部分份額。
現在,隨著(zhù)英偉達迅速將需求轉向CoWoS-L,臺積電正在為CoWoS-L建造一個(gè)新的工廠(chǎng)AP6,并在A(yíng)P3改造現有的CoWoS-S產(chǎn)能。
為此,臺積電需要改造舊的CoWoS-S產(chǎn)能,否則這些產(chǎn)能將被閑置,而CoWoS-L的增長(cháng)速度將會(huì )更慢。而這個(gè)改造過(guò)程將使得增長(cháng)變得非常不均勻。
結合這兩個(gè)問(wèn)題,臺積電顯然是無(wú)法按照英偉達的需求供應足夠的Blackwell芯片。
因此,英偉達幾乎將所有產(chǎn)能都集中在GB200 NVL 36x2和NVL72機架規模系統上。并取消了搭載B100和B200的HGX計算模組。
作為替代,英偉達將推出一款基于B102芯片并配有4層HBM顯存的Blackwell GPU——B200A,用以滿(mǎn)足中低端AI系統的需求。
有趣的是,這款B102芯片也將用于中國「特供版」的B20上。
由于B102是一個(gè)單片計算芯片,因此英偉達不僅可以將其封裝在CoWoS-S上,而且還能讓除臺積電以外的其他供應商進(jìn)行2.5D封裝,如Amkor、ASE SPIL和三星。
B200A將以700W和1000W的HGX形態(tài)出現,配備高達144GB的HBM3E顯存和高達4 TB/s的帶寬。值得注意的是,這比H200的顯存帶寬要少。
接下來(lái)是中級增強版——Blackwell Ultra。
標準的CoWoS-L Blackwell Ultra,即B210或B200 Ultra,不僅在顯存刷新方面達到高達288GB的12層HBM3E,還在FLOPS性能方面提升了高達50%。
B200A Ultra則會(huì )有更高的FLOPS,但在顯存上不會(huì )進(jìn)行升級。
除了有和原版B200A一樣的HGX配置外,B200A Ultra還引入了一個(gè)全新的MGX NVL 36形態(tài)。
在訓練少于5000個(gè)GPU的工作負載時(shí),HGX Blackwell的性能/TCO非常出色。
盡管如此,由于基礎設施更加靈活,MGX NVL36仍是許多下一代模型的理想選擇。
由于Llama 3 405B已經(jīng)接近H200 HGX服務(wù)器的極限,下一代MoE LLAMA 4肯定無(wú)法適應單個(gè)Blackwell HGX服務(wù)器節點(diǎn)。
再結合上對于MGX B200A Ultra NVL36價(jià)格的估計,SemiAnalysis認為HGX B200A賣(mài)得不會(huì )太好。
MGX GB200A Ultra NVL36架構
MGX GB200A NVL36 SKU是一款風(fēng)冷40kW/機架服務(wù)器,配備36個(gè)通過(guò)NVLink完全互連的GPU。其中,每個(gè)機架將配備9個(gè)計算托盤(pán)和9個(gè)NVSwitch托盤(pán)。每個(gè)計算托盤(pán)為2U,包含1個(gè)Grace CPU和4個(gè)700W的B200A Blackwell GPU。每個(gè)1U NVSwitch托盤(pán)則只有1個(gè)交換機ASIC,每個(gè)交換機ASIC的帶寬為28.8 Tbit/s。
相比之下,GB200 NVL72 / 36x2包含2個(gè)Grace CPU和4個(gè)1200W的Blackwell GPU。
由于每個(gè)機架僅為40kW并可采用空氣冷卻,因此現有的數據中心運營(yíng)商可以在不重新調整基礎設施的情況下輕松部署MGX NVL36。
與GB200 NVL72 / 36x2不同的是,4個(gè)GPU對1個(gè)CPU的比例,意味著(zhù)每個(gè)GPU只能獲得一半的C2C帶寬。
因此,MGX NVL36無(wú)法使用C2C互連,而是需要采用集成的ConnectX-8 PCIe交換機來(lái)完成GPU與CPU的通信。
此外,與所有其他現有的AI服務(wù)器(HGX H100/B100/B200, GB200 NVL72 / 36x2, MI300)不同,每個(gè)后端NIC現在將負責2個(gè)GPU。
這意味著(zhù)盡管ConnectX-8 NIC設計可以提供800G的后端網(wǎng)絡(luò ),但每個(gè)GPU只能訪(fǎng)問(wèn)400G的后端InfiniBand/RoCE帶寬。(同樣也是在GB200 NVL72 / 36x2的一半)
GB200 NVL72/NVL36x2計算托盤(pán)的核心是Bianca板,其包含2個(gè)Blackwell B200 GPU和1個(gè)Grace CPU。
由于每個(gè)計算托盤(pán)配有2個(gè)Bianca板,因此總共會(huì )搭載2個(gè)Grace CPU和4個(gè)1200W的Blackwell GPU。
相比之下,MGX GB200A NVL36的CPU和GPU將會(huì )位于不同的PCB上,類(lèi)似于HGX服務(wù)器的設計。
但與HGX服務(wù)器不同的是,每個(gè)計算托盤(pán)的4個(gè)GPU將被細分為2個(gè)2-GPU板。每個(gè)2-GPU板則搭載了類(lèi)似Bianca板的Mirror Mezz連接器。
然后,這些Mirror Mezz連接器將用于連接到ConnectX-8中間板,并將ConnectX-8 ASIC與其集成的PCIe交換機連接到GPU、本地NVMe存儲和Grace CPU。
由于ConnectX-8 ASIC距離GPU非常近,因此GPU和ConnectX-8 NIC之間并不需要重新定時(shí)器。而HGX H100/B100/B200需要。
此外,由于Grace CPU和Blackwell GPU之間沒(méi)有C2C互連,因此Grace CPU會(huì )位于一個(gè)完全獨立的PCB上,即CPU主板。該主板將包含BMC連接器、CMOS電池、MCIO連接器等。
每個(gè)GPU的NVLink帶寬將為每個(gè)方向900GB/s,這與GB200 NVL72 / 36x2相同。按每FLOP計算,這顯著(zhù)增加了GPU到GPU的帶寬,使MGX NVL36在某些工作負載中更具優(yōu)勢。
由于只有一層交換機連接36個(gè)GPU,因此僅需9個(gè)NVSwitch ASIC即可提供無(wú)阻塞網(wǎng)絡(luò )。
此外,由于每個(gè)1U交換托盤(pán)只有1個(gè)28.8Tbit/s的ASIC,因此非常容易進(jìn)行空氣冷卻。比如Quantum-2 QM9700這樣的25.6Tbit/s 1U交換機就可以。
在后端網(wǎng)絡(luò )上,由于每個(gè)計算托盤(pán)只有2個(gè)800G端口,因此它將使用2軌優(yōu)化的行尾網(wǎng)絡(luò )。
對于每8個(gè)GB200A NVL36機架,將有2個(gè)Quantum-X800 QM3400交換機。
在每個(gè)GPU 700W的情況下,GB200A NVL36每個(gè)機架的功耗可能在40kW左右,即2U空間散熱4kW。
如此一來(lái),將需要專(zhuān)門(mén)設計的散熱片和高速風(fēng)扇來(lái)進(jìn)行空氣冷卻。
部署MGX GB200A NVL 36的挑戰
由于GB200A NVL36完全依靠風(fēng)冷,而且在2U機箱前端除了PCIe形態(tài)的NIC外,還要有一個(gè)專(zhuān)用的PCIe交換機,這將顯著(zhù)增加熱管理的挑戰。因此,在GB200A NVL36上進(jìn)行定制后端NIC基本上是不可能的。
由于許多機器學(xué)習依賴(lài)項是為x86 CPU編譯和優(yōu)化的,且Grace CPU和Blackwell GPU位于單獨的PCB上,因此很可能還會(huì )有一個(gè)x86 + B200A NVL36版本。
不過(guò),x86 CPU雖然可以提供更高的峰值性能,但功耗也會(huì )相應高出100W,從而極大增加了OEM的熱管理挑戰。
此外,考慮到Grace CPU的銷(xiāo)量問(wèn)題,即便英偉達推出了x86 B200A NVL36解決方案,他們也會(huì )push客戶(hù)去選擇GB200A NVL36。
當然,GB200A NVL36也有自己的賣(mài)點(diǎn)——每機架40kW的風(fēng)冷系統。
畢竟,很多客戶(hù)并不能負擔得起每機架約125 kW的GB200 NVL72(或總功耗超過(guò)130kW的36x2)所需的液冷和電力基礎設施。
H100的TDP為700W,目前使用的是4U高的3DVC,而1000W的H200使用的是6U高的3DVC。
相比之下,MGX B200A NVL36的TDP也是700W但機箱只有2U,空間相當受限。因此將需要一個(gè)水平擴展的陽(yáng)臺狀散熱片來(lái)增加散熱片的表面積。
除了需要更大的散熱片外,風(fēng)扇還需要提供比GB200 NVL72 / 36x2 2U計算托盤(pán)或HGX 8 GPU設計更強的氣流。
根據估計,在40kW機架中,15%到17%的總系統功率將用于內部機箱風(fēng)扇。相比之下,HGX H100的風(fēng)扇也只消耗總系統功率的6%到8%。
由于需要大量的風(fēng)扇功率來(lái)使 MGX GB200A NVL36 正常工作,這是一種效率極低的設計。
為什么取消GB200A NVL64
在英偉達最終確定MGX GB200A NVL36之前,他們也在嘗試設計一個(gè)空氣冷卻的NVL64機架——功耗60kW,搭載64個(gè)通過(guò)NVLink完全互連的GPU。然而,在經(jīng)過(guò)廣泛的工程分析之后,SemiAnalysis認為這個(gè)產(chǎn)品并不可行,且不會(huì )上市。
在提議的NVL64 SKU中,有16個(gè)計算托盤(pán)和4個(gè)NVSwitch托盤(pán)。每個(gè)計算托盤(pán)是2U,包含1個(gè)Grace CPU和4個(gè)700W的Blackwell GPU,就像MGX GB200A NVL36一樣。
主要的修改在于NVSwitch托盤(pán)——英偉達沒(méi)有將GB200每個(gè)托盤(pán)的2個(gè)NVSwitch減少到1個(gè),而是嘗試將其增加到4個(gè)ASIC交換機。
顯然,僅靠空氣冷卻功耗如此之高的龐然大物幾乎是不可能的。(英偉達提出的是60kW,SemiAnalysis估算是70kW)
這通常需要使用后門(mén)熱交換器,但這破壞了空氣冷卻機架架構的意義,因為仍然依賴(lài)于液冷供應鏈。此外,這種解決方案仍然需要大多數數據中心進(jìn)行設施級別的改造,以便將冷卻水輸送到后門(mén)熱交換器。
另一個(gè)非常棘手的熱問(wèn)題是NVSwitch托盤(pán)將在1個(gè)1U機箱中包含4個(gè)28.8Tbit/s的ASIC交換機,需要近1500W的散熱功率。
單獨來(lái)看,1U機箱實(shí)現1500W并不困難。但是,當考慮到從ASIC交換機到背板連接器的Ultrapass飛線(xiàn)會(huì )阻擋大量氣流,冷卻挑戰就變得非常大了。
鑒于空氣冷卻的MGX NVL機架需要以極快的速度推向市場(chǎng),英偉達試圖在設計開(kāi)始后6個(gè)月內就交付產(chǎn)品。然而,對于一個(gè)已經(jīng)資源緊張的行業(yè)來(lái)說(shuō),設計新的交換托盤(pán)和供應鏈是非常困難的。
GB200A NVL64的另一個(gè)主要問(wèn)題是每個(gè)機架有64個(gè)800G后端端口,但每個(gè)XDR Quantum-X800 Q3400交換機搭載的是72個(gè)800G下游端口。也就是說(shuō),每個(gè)交換機將有16個(gè)800G端口空置。
在昂貴的后端交換機上有空置端口會(huì )顯著(zhù)影響網(wǎng)絡(luò )性能和總擁有成本,因為交換機非常昂貴,尤其是像Quantum-X800這樣高端口密度的模塊化交換機。
此外,在同一個(gè)NVLink域中使用64個(gè)GPU并不理想。
表面上看,64是一個(gè)很好的數字,因為它有2、4、8、16和32作為公因數,這對于不同的并行配置來(lái)說(shuō)非常合適。
例如,張量并行TP=8,專(zhuān)家并行EP=8,或TP=4,完全分片數據并行FSDP=16。
不幸的是,由于硬件的不可靠性,英偉達建議每個(gè)NVL機架至少保留1個(gè)計算托盤(pán)作為備用,以便在維護時(shí)將GPU下線(xiàn)并作為熱備份使用。
如果每個(gè)機架沒(méi)有至少1個(gè)計算托盤(pán)處于熱備用狀態(tài),即使是1個(gè)GPU故障也會(huì )導致整個(gè)機架被迫停用相當長(cháng)的時(shí)間。這類(lèi)似于在8-GPU的HGX H100服務(wù)器上,只要有1個(gè)GPU故障,就會(huì )迫使所有8個(gè)H100停用。
如果保留至少一個(gè)計算托盤(pán)作為熱備份,意味著(zhù)每個(gè)機架只有60個(gè)GPU能夠處理工作負載。這樣一來(lái),剛剛提到的那些優(yōu)勢就不復存在了。
而NVL36×2或NVL72則搭載了72個(gè)GPU,也就是說(shuō),用戶(hù)不僅可以把2個(gè)計算托盤(pán)作為熱備用,而且每個(gè)機架上仍有64個(gè)GPU可供使用。
GB200A NVL36則可以有1個(gè)計算托盤(pán)作為熱備用,此時(shí)有2、4、8、16作為并行方案的公因數。
對供應鏈的影響
同時(shí),Hopper的出貨量將在2024年第四季度至2025年第一季度有所增加。
此外,GPU的訂單將在下半年從HGX Blackwell和GB200 NVL36x2轉移到MGX GB200A NVL36上。
這將影響所有的ODM和組件供應商,因為出貨和收入計劃將在2024年第三季度至2025年第二季度發(fā)生顯著(zhù)變化。
來(lái)源:新智元
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。