黃仁勛:Blackwell良率問(wèn)題100%是英偉達的錯,改進(jìn)版即將規模量產(chǎn)
10月24日消息,據路透社報道,英偉達首席執行官黃仁勛本周在接受采訪(fǎng)時(shí)承認,此前曝光的導致Blackwell GPU良率問(wèn)題的設計缺陷是由英偉達自身造成的,但是該設計缺陷在幾個(gè)月前就已經(jīng)在臺積電的幫助下得到了修復,B100/B200 處理器的改進(jìn)版本即將進(jìn)入大規模生產(chǎn)。
“我們在 Blackwell 中遇到了一個(gè)設計缺陷,它的功能很好,但設計缺陷導致良率很低?!秉S仁勛說(shuō):“這 100% 是英偉達的錯?!?/p>
當關(guān)于設計缺陷的第一批報道出現時(shí),一些媒體報道說(shuō)臺積電是罪魁禍首,并暗示這可能會(huì )導致英偉達與臺積電之間的合作緊張關(guān)系。但是,根據黃仁勛的說(shuō)法,情況并非如此,英偉達自己的誤判導致了問(wèn)題。黃仁勛還駁斥了有關(guān)兩家公司之間緊張關(guān)系的報道,稱(chēng)其為“假新聞”。
英偉達的 Blackwell B100 和 B200 GPU 使用臺積電的 CoWoS-L 封裝技術(shù)將其兩個(gè)小芯片連接起來(lái),該技術(shù)依賴(lài)于配備本地硅互連 (LSI) 橋接器的 RDL 中介層(以實(shí)現約 10 TB/s 的數據傳輸速率)。這些橋梁的放置至關(guān)重要。然而,GPU 小芯片、LSI 橋片、RDL 中介層和主板基板之間的熱膨脹特性被認為不匹配,導致系統翹曲和失效。據報道,英偉達不得不修改 GPU 硅的頂部金屬層和凸起,以提高產(chǎn)量。雖然該公司沒(méi)有透露有關(guān)修復的具體細節,但它確實(shí)提到需要新的光罩。
良率扼殺問(wèn)題和主要功能問(wèn)題在半導體領(lǐng)域并非聞所未聞。通常,公司通過(guò)修改一個(gè)(或兩個(gè))金屬層并將其稱(chēng)為新的臺階來(lái)修復它們。
舉個(gè)例子:據報道,英特爾的 Sapphire Rapids 有 500 個(gè)錯誤,該公司發(fā)布了大約十幾個(gè)步驟來(lái)修復它們(五個(gè)是基礎重新旋轉)。每個(gè)新步驟大約需要三個(gè)月才能完成(包括識別問(wèn)題、修復問(wèn)題和生產(chǎn)新版本的芯片),因此英偉達和臺積電修復 Blackwell GPU 的速度令人印象深刻。
用于 AI 和超級計算機的現已修復的 Blackwell GPU 將于 10 月下旬進(jìn)入大規模生產(chǎn),并應在明年初開(kāi)始發(fā)貨。也就是說(shuō),英偉達今年早些時(shí)候透露,為了滿(mǎn)足 AWS、谷歌和Microsoft等主要云服務(wù)提供商對其 Blackwell GPU 的需求,它仍必須在 2024 年底前出貨一些最初的低產(chǎn)量 Blackwell 處理器。目前尚不清楚 2024 年將有多少 Blackwell GPU 運往數據中心客戶(hù)。
編輯:芯智訊-浪客劍
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。