破局GPU的AI霸權 Intel Gaudi3幫國內廠(chǎng)商探路
如果說(shuō)人工智能是最近當紅的技術(shù)話(huà)題一哥,那么這個(gè)應用背后的硬件則是中國半導體產(chǎn)業(yè)不可名狀的悲傷。從2022年對高性能3nm GAA-FET的EDA應用審批開(kāi)始,美國政府針對中國或全球半導體的各種禁令在公開(kāi)層面的主要目標只有一個(gè),就是中國AI硬件產(chǎn)業(yè)。
美國政府針對中國AI產(chǎn)業(yè)先是禁了高端AI芯片在中國市場(chǎng)的銷(xiāo)售,隨后叫停了美籍人員參與中國芯片設計的資格,第三步是直接要求先進(jìn)代工廠(chǎng)拒絕為滿(mǎn)足一定性能和工藝的中國AI芯片代工,最后干脆今年清明節開(kāi)始對含有部分禁售性能邊緣芯片的整機設備也一刀切禁掉。打蛇打七寸,沒(méi)有了高性能AI處理器芯片,中國企業(yè)進(jìn)行AI訓練和部署的效率必然大打折扣,至少在高端AI應用上事倍功半。在目前新項目融資言必提及AI的美國華爾街,AI市場(chǎng)未來(lái)預期分析一致認為,中美兩國的AI應用水平幾乎領(lǐng)先全球其他地方至少3-5年,而兩者之間的差距則微乎其微。如果把AI當作未來(lái)工業(yè)5.0時(shí)代的標準技術(shù),要繼續穩固美國的AI霸權,目前最直接和唯一有效的手段也只能是扼住AI芯片在中國應用的咽喉了。
在這一背景下,不管是英偉達最新劃時(shí)代的B200還是英特爾隨后推出的Gaudi 3,都在中文網(wǎng)絡(luò )反響平平,畢竟當一眾看客還在驚嘆于兩家公司新推出的AI處理器性能多么彪悍的背后,很多人似乎忘記了這兩款產(chǎn)品從誕生之初就必然跟中國市場(chǎng)無(wú)緣,甚至為了圍追堵截進(jìn)入中國的通幽曲徑,美國干脆連一些跟中國關(guān)系不錯的市場(chǎng)也一并禁掉了。
當然,貴為如今半導體銷(xiāo)售額第一第二的英特爾和英偉達也不想放棄中國市場(chǎng),畢竟按照某美國不靠譜分析機構在被管制之前的調研,中國AI相關(guān)大算力硬件市場(chǎng)規模占了全球40%以上。只是不管是英特爾的Gaudi2特供版還是英偉達的4090特供版,似乎業(yè)界反響都很一般,畢竟閹割后的硬件比國內的AI芯片又能強得了多少?不過(guò)據說(shuō)搶在禁令前的某批特供版似乎是滿(mǎn)血規格,市場(chǎng)搶購速度堪比小米SU7(畢竟兩者價(jià)格類(lèi)似)。與之相對應的是,當年至少三家國內企業(yè)的GPU新品發(fā)布時(shí)直接對標性能不輸A100,但是面對閹割版的4090時(shí)似乎都沒(méi)有信心一戰,禁令后國產(chǎn)GPU新品再無(wú)“碰瓷”A100的宣傳口徑也值得唏噓。
但是,服務(wù)器加速和AI推理訓練應用真的只能GPU一家獨大么?GPU,FPGA和NPU,作為從服務(wù)器加速演進(jìn)到AI算力池構建的三大計算加速利器,卻因為英偉達在CUDA上的十年生態(tài)鋪墊最后演變成GPU的一家獨大。這也導致國內部署AI算力的初創(chuàng )公司紛紛以GPU為切入點(diǎn),甚至跳過(guò)PC級GPU的研發(fā)直接沖刺服務(wù)器和AI訓練用GPU。從單純芯片設計角度,GPU的結構相對并不復雜,但GPU高性能的關(guān)鍵特性國內廠(chǎng)商一個(gè)都沒(méi)有,沒(méi)有EDA授權先進(jìn)工藝就用不了這意味著(zhù)密度上不去,高速傳輸美國不讓用導致傳輸效率提不起來(lái),現在英偉達干脆直接要在未來(lái)禁止第三方硬件直接套用CUDA,那么對國產(chǎn)GPU芯片設計公司來(lái)說(shuō),連GPU在A(yíng)I算力構建中最核心的優(yōu)勢都不復存在,既然如此為何不考慮轉型走差異化道路呢?
說(shuō)到AI處理器的差異化競爭,無(wú)論是服務(wù)器加速,還是AI算力構建,從技術(shù)上并不是只有GPU一條路可以走。雖然GPU目前在密度和大規模簡(jiǎn)單計算方面存在明顯的優(yōu)勢,但既然這條路受到各種各樣的限制,為何不嘗試其他幾條路呢?這兩天英特爾發(fā)布的Gaudi 3 就是國產(chǎn)AI芯片廠(chǎng)商值得學(xué)習的一個(gè)思路。作為同時(shí)擁有CPU、GPU、NPU和FPGA的處理器傳統巨頭,即使已經(jīng)推出了用于服務(wù)器加速的GPU,并且在至強內核上增加了NPU單元,但英特爾真正看重的AI應用還是Gaudi 3。
我們先來(lái)看看Gaudi 3和Gaudi 2的區別,Gaudi 3將64個(gè)Tensor processor Core(TPCs)封裝在兩個(gè)計算Tile中,128GB HBM和共享96MB緩存池且擁有8個(gè)MME,24*200GbE和16個(gè)PCIe5 傳輸接口,借助高速互連技術(shù)兩個(gè)計算Tile片內傳輸效率極高。而上一代Gaudi 2 只有24個(gè)TPC,48MB緩存,以及2個(gè)MME。在算力表現方面,Gaudi 3在BF16精度下可提供4倍的AI計算能力、1.5倍的內存帶寬、2倍的網(wǎng)絡(luò )帶寬,支持大規模系統橫向擴展,最多可擴展至8192個(gè)芯片的參考架構。相比于Gaudi 2在發(fā)布時(shí)性能方面只能拉著(zhù)數年前英偉達的A100進(jìn)行比較,Gaudi 3在性能方面則挑戰2022年的英偉達主打產(chǎn)品H100:對比NVIDIA H100,它在流行LLM上的推理性能領(lǐng)先50%、訓練時(shí)間快40%。Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時(shí)間。在Llama 70億/700億參數、Falcon 1800億參數大型語(yǔ)言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。英特爾宣稱(chēng)Gaudi 3的AI表現能力不遜色于去年英偉達推出的H200,但現場(chǎng)并未展示對比性能數據。不過(guò)從Gaudi 2 選擇跟H100一樣的臺積電7nm工藝,到Gaudi 3 選擇跟H200一樣的臺積電5nm工藝,究竟Gaudi 3 瞄準的是哪一款英偉達產(chǎn)品已經(jīng)不言而喻。
為什么我們要說(shuō)Gaudi 3 的發(fā)布給了很多中國AI企業(yè)沖擊美國GPU在A(yíng)I算力方面霸權的很好思路借鑒呢?首先,從工藝角度,英特爾放棄自己生產(chǎn)線(xiàn)而選擇臺積電,這還是在英特爾宣稱(chēng)的4年5代工藝趕超計劃進(jìn)展順利的基礎上,現在從官宣量產(chǎn)工藝上英特爾已經(jīng)突破了4nm這個(gè)節點(diǎn),甚至一直宣稱(chēng)自己工藝密度方面比TSMC更好。Gaudi 2和Gaudi 3依然選擇臺積電代工,說(shuō)明英特爾把自己挑戰者的姿態(tài)擺得很明白,選擇同樣的工藝確保在密度和成本上不會(huì )有太明顯的差異。更重要的原因是,作為很早就放棄ASIC工藝的英特爾,估計自己也沒(méi)信心去打造可靠的類(lèi)ASIC晶圓以打造自己對抗英偉達的主力軍吧。筆者建議如果英特爾希望更好地挑戰英偉達的AI霸主地位,還是重拾ASIC制造技藝,同時(shí)好好研究怎么跟自己的Foveros 3D封裝更好地結合(不過(guò)近期據說(shuō)英特爾內部結算中制造業(yè)務(wù)錄得的負利潤有點(diǎn)可怕,利潤差可能需要1個(gè)蘋(píng)果這樣量級的客戶(hù)才能抹平)。其次,Gaudi 3的堆料在NPU方面已經(jīng)堪稱(chēng)恐怖,當然這也是性能提升基礎條件,畢竟習慣于做復雜運算的英特爾曾經(jīng)并不喜歡用堆料來(lái)提升處理能力。對于A(yíng)I加速和AI推理應用的處理需求,對比英特爾傳統的CPU計算需求,大概可以類(lèi)比于算2的平方和算2的平方差,計算難度不可同日而語(yǔ),可是如果只需要計算2的平方,GPU的運算單元幾乎十倍于CPU,這時(shí)候堆運算單元才是正解。所以這次Gaudi 3 直接把TPC從24提升到64,MME更是從2擴充到8個(gè),那么AI加速性能表現大幅提升一點(diǎn)也不奇怪。甚至從整個(gè)Gaudi 3目前流出來(lái)的架構示意中,我們依稀可以看到更加明顯的類(lèi)ASIC化趨勢,如果仔細研究一下從eFPGA到后來(lái)的eASIC以及兩大FPGA巨頭的硬件重新ASIC化的趨勢,AI處理器的關(guān)鍵需求正在推動(dòng)未來(lái)NPU和AI加速器芯片重回ASIC。
即使已經(jīng)推出服務(wù)器加速GPU的英特爾還是選擇Gaudi 3作為AI加速突破口,國內廠(chǎng)商應該也需要接受短期內很難正面對抗英偉達GPU在A(yíng)I應用的優(yōu)勢,特別是CUDA不讓用就更應該早點(diǎn)暗度陳倉。Gaudi 3第一個(gè)值得國產(chǎn)AI處理器企業(yè)學(xué)習的就是選擇新的路線(xiàn)去針對性瞄準AI的一個(gè)應用方向堆料??赡苷麄€(gè)AI的綜合表現不如GPU,但在某一個(gè)點(diǎn)能有突破才能有破局的機會(huì ),否則只會(huì )被壓制的越來(lái)越狠?,F在的AI內核很多,不止有RISC-V這種開(kāi)源架構,還有Arm的Ethos-U AI 加速器及物聯(lián)網(wǎng)參考設計平臺Corstone-320,以及各種IP供應商的NPU內核,都是可以進(jìn)行相關(guān)AI加速和AI推理等處理器的設計。而且部分內核IP更適合ASIC化,雖然在成本和靈活性方面有所不足,但是可以彌補在性能方面的不足。按照美國對中國AI產(chǎn)業(yè)的禁運標準,性能才是目前中國AI芯片最需要突破的一環(huán),先把性能做上去再靠著(zhù)大規模應用的優(yōu)勢把成本一點(diǎn)點(diǎn)降下來(lái),這才是合理的路徑。最重要的一點(diǎn),ASIC化的芯片雖然失去一些靈活性但是性能表現可以在一定程度彌補工藝的不足。因為國內現在幾乎無(wú)法設計先進(jìn)工藝的AI芯片(美國不讓?zhuān)?,因此我們估計AI芯片的節點(diǎn)暫時(shí)最理想也是用7nm,但是國內目前先進(jìn)封裝還是有機會(huì )繼續選用的,那么最終產(chǎn)品的性能表現似乎也不會(huì )相比于國際頂尖水平差太多。最最重要的是,美國目前禁運的技術(shù)指標參考的兩點(diǎn)是芯片內傳輸速率和計算能力TFLOPS,但是如果你做成ASIC后,這兩個(gè)指標的要求其實(shí)可以適當降低,但不影響最終芯片的整體性能表現(ASIC固化的優(yōu)勢),這樣是不是就可以一定程度上繞開(kāi)美國禁令中禁止代工廠(chǎng)生產(chǎn)中國廠(chǎng)商AI芯片的部分性能要求,從而能夠做出實(shí)際應用表現超越管制技術(shù)規格的產(chǎn)品。
當然最后一條似乎也是當初中國特供版Gaudi2 的一些技巧,雖然中國特供版Gaudi2晚了一年問(wèn)世,但目前看Gaudi 3短期內是不要想有特供版了,除非鎖死一半的TCPs以及降低三分之一片內傳輸速率,否則根本沒(méi)可能繞開(kāi)禁令中的性能和傳輸要求。當然如果真那樣了,那跟現在的Gaudi2 又有什么區別呢?
作為旁觀(guān)者,我們不妨去關(guān)注Gaudi 3 挑戰H200的實(shí)際表現和市場(chǎng)接受程度,雖然中國市場(chǎng)幾乎不太可能體驗到Gaudi 3 但卻為國內AI處理器設計廠(chǎng)商提供了正面挑戰英偉達 GPU在A(yíng)I應用霸權的新思路,希望這能為國產(chǎn)AI芯片百花齊放帶來(lái)有益借鑒。
評論