臺積電董事長(cháng)劉德音預測:未來(lái) 15 年每瓦 GPU 性能提升 1000 倍,GPU 晶體管數破萬(wàn)億
GTC 2024 大會(huì )上,老黃祭出世界最強 GPU——Blackwell B200 ,整整封裝了超 2080 億個(gè)晶體管。
本文引用地址:http://dyxdggzs.com/article/202403/457011.htm比起上一代 H100(800 億),B200 晶體管數是其 2 倍多,而且訓 AI 性能直接飆升 5 倍,運行速度提升 30 倍。
若是,將千億級別晶體管數擴展到 1 萬(wàn)億,對 AI 界意味著(zhù)什么?
今天,IEEE 的頭版刊登了臺積電董事長(cháng)和首席科學(xué)家撰寫(xiě)的文章 ——「我們如何實(shí)現 1 萬(wàn)億個(gè)晶體管 GPU」?
這篇千字長(cháng)文,主打就是為了讓 AI 界人們意識到,半導體技術(shù)的突破給 AI 技術(shù)帶來(lái)的貢獻。
從 1997 年戰勝?lài)H象棋人類(lèi)冠軍的「深藍」,到 2023 年爆火的 ChatGPT,25 年來(lái) AI 已經(jīng)從實(shí)驗室中的研究項目,被塞入每個(gè)人的手機。
這一切都要歸功于,3 個(gè)層面的重大突破:ML 算法創(chuàng )新、海量數據,以及半導體工藝的進(jìn)步。
臺積電預測,在未來(lái) 10 年,GPU 集成的晶體管數將達到 1 萬(wàn)億!與此同時(shí),未來(lái) 15 年,每瓦 GPU 性能將提高 1000 倍。
半導體工藝不斷演變,才誕生了 ChatGPT
從軟件和算法到架構、電路設計乃至器件技術(shù),每一層系統都極大地提升了 AI 的性能。但是基礎的晶體管器件技術(shù)的不斷提升,才讓這一切成為可能:
IBM 訓練「深藍」使用的芯片工藝是 0.6 微米和 0.35 微米。
Ilya 團隊訓練贏(yíng)得 ImageNet 大賽的深度神經(jīng)網(wǎng)絡(luò )采用的 40 納米工藝。
2016 年,DeepMind 訓出的 AlphaGo 戰勝了李世石,使用了 28 納米工藝。
而訓練 ChatGPT 的芯片基于的是 5 納米工藝,而最新版的 ChatGPT 推理服務(wù)器的芯片工藝已經(jīng)達到了 4 納米。
可以看出,從 1997 年到現在,半導體工藝節點(diǎn)取得的進(jìn)步,推動(dòng)了如今 AI 飛躍式的發(fā)展。
如果 AI 革命想要繼續保持當前的發(fā)展速度,那么它更需要半導體行業(yè)的創(chuàng )新和支持。
如果仔細研究 AI 對于算力的要求會(huì )發(fā)現,最近 5 年,AI 訓練所需的計算和內存訪(fǎng)問(wèn)量增長(cháng)了好幾個(gè)數量級。
以 GPT-3 為例,它的訓練需要的計算量相當于每秒進(jìn)行超過(guò) 5 千萬(wàn)億億次的運算,持續整整一天(相當于 5000 千兆浮點(diǎn)運算天數),同時(shí)需要 3TB(3 萬(wàn)億字節)的內存容量。
隨著(zhù)新一代生成式 AI 應用的出現,對計算能力和內存訪(fǎng)問(wèn)的需求仍在迅速增加。
這就帶來(lái)了一個(gè)迫在眉睫的問(wèn)題:半導體技術(shù)如何才能跟上這種發(fā)展的速度?
從集成芯片到集成芯片組
自從集成電路誕生以來(lái),半導體行業(yè)一直在想辦法把芯片造得更小,這樣才能在一個(gè)指甲蓋大小的芯片中集成更多的晶體管。
如今,晶體管的集成工藝和封裝的技術(shù)已經(jīng)邁向更高層次 —— 行業(yè)已經(jīng)從 2D 空間的縮放,向 3D 系統集成邁進(jìn)。
芯片行業(yè)正在將多個(gè)芯片整合到一個(gè)集成度更高、高度互連的系統中,這標志著(zhù)半導體集成技術(shù)的巨大飛躍。
AI 的時(shí)代,芯片制造的一個(gè)瓶頸在于,光刻芯片制造工具只能制造面積不超過(guò)大約 800 平方毫米的芯片,這就是所謂的光刻極限。
但現在,臺積電可以通過(guò)將多個(gè)芯片連接在一塊內嵌互連線(xiàn)路的硅片上來(lái)突破這一極限,實(shí)現在單一芯片上無(wú)法達到的大規模集成。
舉個(gè)例子,臺積電的 CoWoS 技術(shù)能夠將多達 6 個(gè)光刻極限范圍內的芯片,以及十二個(gè)高帶寬內存(HBM)芯片封裝在一起。
高帶寬內存(HBM)是 AI 領(lǐng)域越來(lái)越依賴(lài)的一項關(guān)鍵半導體技術(shù),它通過(guò)將芯片垂直堆疊的方式來(lái)集成系統,這一技術(shù)在臺積電被稱(chēng)為系統集成芯片(SoIC)。
HBM 由多層 DRAM 芯片垂直堆疊而成,他們都位于一個(gè)控制邏輯 IC 之上。它利用硅穿孔(TSV)這種垂直連接方式讓信號穿過(guò)每層芯片,并通過(guò)焊球來(lái)連接各個(gè)內存芯片。
目前,最先進(jìn)的 GPU 都非常依賴(lài) HBM 技術(shù)。
未來(lái),3D SoIC 技術(shù)將提供一種新的解決方案,與現有的 HBM 技術(shù)相比,它能在堆疊芯片之間實(shí)現更密集的垂直連接。
通過(guò)最新的混合鍵合技術(shù),可以將 12 層芯片堆疊起來(lái),從而開(kāi)發(fā)出全新的 HBM 結構,這種銅對銅(copper-to-copper)的連接方式比傳統的焊球連接更為緊密。
論文地址:https://ieeexplore.ieee.org/document/9265044
這種內存系統在一個(gè)更大的基礎邏輯芯片上以低溫鍵合,整體厚度僅為 600 微米。
隨著(zhù)由眾多芯片組成的高性能計算系統運行大型 AI 模型,高速有線(xiàn)通信可能成為計算速度的下一個(gè)瓶頸。
目前,數據中心已經(jīng)開(kāi)始使用光互連技術(shù)連接服務(wù)器架。
文章地址:https://spectrum.ieee.org/optical-interconnects
不久的將來(lái),臺積電將需要基于硅光子技術(shù)的光接口,把 GPU 和 CPU 封裝到一起。
論文地址:https://ieeexplore.ieee.org/document/10195595
這樣才能實(shí)現 GPU 之間的光通信,提高帶寬的能源和面積效率,從而讓數百臺服務(wù)器能夠像一個(gè)擁有統一內存的巨型 GPU 那樣的方式高效運行。
所以,由于 AI 應用的推動(dòng),硅光子技術(shù)將成為半導體行業(yè)中最為關(guān)鍵的技術(shù)之一。
邁向一萬(wàn)億晶體管 GPU
當前用于 AI 訓練的 GPU 芯片,約有 1000 億的晶體管,已經(jīng)達到了光刻機處理的極限。若想繼續增加晶體管數量,就需要采用多芯片,并通過(guò) 2.5D、3D 技術(shù)進(jìn)行集成,來(lái)完成計算任務(wù)。
目前,已有的 CoWoS 或 SoIC 等先進(jìn)封裝技術(shù),可以在 GPU 中集成更多晶體管。
臺積電預計,在未來(lái)十年內,采用多芯片封裝技術(shù)的單個(gè) GPU,將擁有超 1 萬(wàn)億晶體管。
此同時(shí),還需要將這些芯片通過(guò) 3D 堆疊技術(shù)連接起來(lái)。但幸運的是,半導體行業(yè)已經(jīng)能夠大幅度縮小垂直連接的間距,從而增加了連接密度。
而且,未來(lái)在提高連接密度方面還有巨大的潛力。臺積電認為,連接密度增長(cháng)一個(gè)數量級,甚至更多是完全有可能的。
▲ 3D 芯片中的垂直連接密度的增長(cháng)速度與 GPU 中的晶體管數量大致相同
GPU 的能效性能趨勢
那么,這些領(lǐng)先的硬件技術(shù),是如何提升系統整體性能的呢?
通過(guò)觀(guān)察服務(wù)器 GPU 的發(fā)展,可以明顯看到一個(gè)趨勢:所謂的能效性能(EEP)—— 一個(gè)反映系統能效和運行速度的綜合指標 —— 正穩步提升。
過(guò)去 15 年中,半導體行業(yè)已經(jīng)實(shí)現了,每?jì)赡陮?EEP 提高約 3 倍的壯舉。
而在臺積電看來(lái),這種增長(cháng)趨勢將會(huì )延續,將會(huì )得益于眾多方面的創(chuàng )新,包括新型材料的應用、設備與集成技術(shù)的進(jìn)步、EUV 技術(shù)的突破、電路設計的優(yōu)化、系統架構的革新,以及對所有這些技術(shù)要素進(jìn)行的綜合優(yōu)化等因素的共同推動(dòng)。
此外,系統技術(shù)協(xié)同優(yōu)化(STCO)這一概念將變得日益重要。
在 STCO 中,GPU 內不同的功能模塊將被分配到專(zhuān)屬的小芯片(chiplets)上,每個(gè)模塊都采用最適合其性能和成本效益的技術(shù)進(jìn)行打造。
這種針對每個(gè)部件的最優(yōu)化選擇,將對提高整體性能和降低成本發(fā)揮關(guān)鍵作用。
▲ 得益于半導體技術(shù)的進(jìn)步,EEP 指標有望每?jì)赡晏嵘?3 倍
3D 集成電路的革命性時(shí)刻
1978 年,加州理工學(xué)院的 Carver Mead 教授和 Xerox PARC 的 Lynn Conway,共同開(kāi)發(fā)了一種革命性的計算機輔助設計方法。
他們制定了一系列設計規則,簡(jiǎn)化了芯片設計的過(guò)程,讓工程師即使不深諳過(guò)程技術(shù),也能輕松設計出復雜的大規模集成電路。
論文地址:https://ai.eecs.umich.edu/people/conway/VLSI/VLSIText/PP-V2/V2.pdf
而在 3D 芯片設計領(lǐng)域,也面臨著(zhù)類(lèi)似的需求。
設計師不僅要精通芯片和系統架構設計,還需要掌握硬件與軟件優(yōu)化的知識。
而制造商則需要深入了解芯片技術(shù)、3D 集成電路技術(shù)和先進(jìn)封裝技術(shù)。
就像 1978 年那樣,我們需要一種共通語(yǔ)言,讓電子設計工具能夠理解這些技術(shù)。
如今,一種全新的硬件描述語(yǔ)言 ——3Dblox,已經(jīng)得到了當下多數技術(shù)和電子設計自動(dòng)化公司的支持。
它賦予了設計師自由設計 3D 集成電路系統的能力,且無(wú)需擔心底層技術(shù)的限制。
走出隧道,迎接未來(lái)
在人工智能的大潮中,半導體技術(shù)成為了推動(dòng) AI 和應用發(fā)展的關(guān)鍵力量。
新一代 GPU 已經(jīng)打破了傳統的尺寸和形狀限制。半導體技術(shù)的發(fā)展,也不再局限于僅在二維平面上縮小晶體管。
一個(gè) AI 系統可以集成盡可能多的節能晶體管,擁有針對特定計算任務(wù)優(yōu)化的高效系統架構,以及軟硬件之間的優(yōu)化關(guān)系。
過(guò)去 50 年,半導體技術(shù)的進(jìn)步就像是在一條明確的隧道中前進(jìn),每個(gè)人都清楚下一步應該怎么做:不斷縮小晶體管的尺寸。
現在,我們已經(jīng)走到了這條隧道的盡頭。未來(lái)的半導體技術(shù)開(kāi)發(fā)將面臨更多挑戰,但同時(shí),隧道外也有著(zhù)更加廣闊的可能性。
而我們將不再被過(guò)去的限制所束縛。
評論