Nvidia的Blackwell AI GPU過(guò)熱問(wèn)題似乎被過(guò)度夸大——半導體分析師透露,冷卻問(wèn)題已大多得到解決
Nvidia的GB200 NVL72服務(wù)器機架過(guò)熱問(wèn)題似乎被夸大了。根據《商業(yè)內幕》的報道,Blackwell的冷卻設計缺陷已經(jīng)得到解決。Semianalysis的首席分析師Dylan Patel向《商業(yè)內幕》表示,Blackwell的設計問(wèn)題已經(jīng)存在幾個(gè)月,但大多數問(wèn)題已經(jīng)得到解決,過(guò)熱問(wèn)題被夸大了。
本文引用地址:http://dyxdggzs.com/article/202411/464808.htmSemianalysis的五位半導體行業(yè)分析師表示,導致多個(gè)供應商進(jìn)行“返工”的冷卻系統問(wèn)題是一個(gè)“小問(wèn)題”。Blackwell的冷卻問(wèn)題尤其在Nvidia的大型72芯片服務(wù)器機架中出現,后者的功率需求可達到120kW。機架設計中的缺陷迫使Nvidia多次重新評估設計,因為機架內的GPU過(guò)熱。這導致Nvidia的GB200硬件出貨延遲,并因需要進(jìn)行設計更改而進(jìn)一步推遲。
Nvidia的B200 GPU是AI工作負載中最強大的處理芯片。例如,GB200超級芯片的可配置熱設計功率(TDP)高達幾千瓦,峰值功率可達2700瓦。這些極高的功率使得在標準機架形式中幾乎不可能使用空氣冷卻。
這一物理問(wèn)題迫使Nvidia在最新的Blackwell GPU上使用液體冷卻。同時(shí),它還要求數據中心重新改造服務(wù)器農場(chǎng),以容納支持液冷服務(wù)器所需的基礎設施。
Nvidia可以通過(guò)制造較低功率的空氣冷卻GPU來(lái)解決這個(gè)問(wèn)題——該公司仍然制造這種類(lèi)型的GPU,例如H200 NVL。然而,為了在A(yíng)I GPU競賽中保持領(lǐng)先,Nvidia優(yōu)先考慮性能,而不顧成本,這就是為什么該公司選擇制造需要數千瓦功率的GPU,而犧牲空氣冷卻的原因。
好消息是,Nvidia的72芯片Blackwell冷卻問(wèn)題似乎較輕微,且已大致得到解決。此外,只有Nvidia的旗艦72芯片服務(wù)器機架存在這個(gè)問(wèn)題。
評論