國產(chǎn)GPU距離“平替”英偉達還有多遠?

2024年7月的上海是沉悶的雨季,但對于國內AI行業(yè)來(lái)說(shuō),卻迎來(lái)了堪比搖滾集會(huì )的WAIC(世界人工智能大會(huì ))。
會(huì )上,阿里巴巴的通義千問(wèn)、智譜AI基座大模型、商湯科技的Vimi可控人物視頻生成模型等“鎮館之寶”充分發(fā)揮,展示了其強大的AGI能力。引人注目的效果。但除了在觀(guān)眾面前展示AI前端效果的大型模型外,國產(chǎn)AI的基地:國產(chǎn)算力也集中亮相。國內一大批AI芯片企業(yè)密集展示產(chǎn)品線(xiàn)。這些產(chǎn)品線(xiàn)涵蓋訓練到推理,包括設備端和云端,無(wú)論是通用GPU還是搭載各種場(chǎng)景的AI加速卡,可以說(shuō)給英偉達帶來(lái)了“小小的中國震撼”。
當觀(guān)眾徜徉在國內算力博物館,觀(guān)察完整的產(chǎn)品線(xiàn)和出色的單卡性能時(shí),直觀(guān)的感受就是這個(gè)行業(yè)“百花齊放”、“生機勃勃”。與大洋彼岸相比,并不遜色多少。但當我每天打開(kāi)新聞看到對方不斷收緊的制裁時(shí),似乎很難支持“國產(chǎn)AI芯片”正處于行業(yè)爆發(fā)期的結論。那么我們今天必須面對的問(wèn)題是:眼前的“繁榮”可能嗎?基礎扎實(shí)嗎?
國產(chǎn)大模型的蓬勃發(fā)展遭遇國外芯片制裁。就像割下一塊純鈉扔進(jìn)水池里一樣,瞬間引爆了國內GPU市場(chǎng)。
如果縱觀(guān)中國芯片自主化的緊迫歷史,從早期的龍芯、飛騰沖擊Wintel聯(lián)盟,到松山湖的麒麟芯片之戰,業(yè)界的注意力一直集中在設備的核心處理器上,所以CPU類(lèi)型的核心從政府和投資者的角度來(lái)看是一個(gè)更核心的突破點(diǎn)。已獲得政府新創(chuàng )訂單及大量資金投入。2023年底麒麟的回歸,是對國產(chǎn)芯片外部封鎖的一個(gè)強力反擊。
但在處理器前端取得突破的同時(shí),曾經(jīng)的側翼戰場(chǎng)GPU卻突然轉戰主戰場(chǎng)。隨著(zhù)2023年大型AI模型的出現,作為大模型引擎的GPU的需求急劇增加。英偉達2023年營(yíng)收增長(cháng)125%,2024年第一季度報告將增長(cháng)262%,速度無(wú)與倫比。將其他芯片巨頭拋在了后面。
相比之下,計算機時(shí)代的芯片王者英特爾和移動(dòng)互聯(lián)網(wǎng)時(shí)代的王者高通,合計市值剛剛超過(guò)3000億美元,不到英偉達的1/8。新國王們面臨著(zhù)人工智能培訓的旺盛需求。英偉達登上了王位。
但尷尬的是,美國人并不打算在這次人工智能熱潮中給中國留一張頭等艙機票。在美國政府的要求下,英偉達和AMD只能切斷A100、H100等高端GPU型號的供應,轉而向中國提供H20等“中國特別版”產(chǎn)品?!疤貏e版”相對于“正版”來(lái)說(shuō)有點(diǎn)雞肋。在一些科技媒體的評測中,H20的綜合算力僅相當于H100的20%,而且由于其他硬件配置的加入,算力成本大幅增加。
在這種半卡頓的局面下,國產(chǎn)大模型與國產(chǎn)AI芯片的協(xié)同自然就成了理所應當的事情。此外,中國對算力中心的強勁需求也給國產(chǎn)GPU帶來(lái)了巨大的市場(chǎng)。要知道,截至2023年底,我國數據中心機架總規模已超過(guò)810萬(wàn)個(gè),算力總規模達到驚人的230EFlops,成為僅次于美國的算力第一大國。
所以我們也可以看到國產(chǎn)芯片在數據中心落地的非常實(shí)際的案例:
壁仞科技成為中國電信算力合作伙伴,配備必利系列通用GPU算力。該產(chǎn)品的中國移動(dòng)智能計算中心(呼和浩特)已于近日成功上線(xiàn)。該智能計算中心屬于國家N節點(diǎn)萬(wàn)卡訓練場(chǎng),單機算力達到6.7EFLOPS(FP16)。也驗證了壁仞聲稱(chēng)的產(chǎn)品可以應用于千卡集群建設方案,并可以擴展到萬(wàn)卡規模。
摩爾線(xiàn)程還為其AI旗艦產(chǎn)品KUAE推出了一整套解決方案,包括KUAE集群管理平臺(KUAE Platform)和KUAE大模型服務(wù)平臺(KUAE ModelStudio)。這是針對萬(wàn)卡數據中心在這么多計算卡高速連接的情況下如何保持穩定運行和高效計算資源分配的問(wèn)題。同時(shí)還簽約了青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項目、青海高原庫阿埃萬(wàn)卡集群項目、廣西東盟萬(wàn)卡集群項目。
除了云端之外,客戶(hù)端能夠匹配大型AI模型的需求也是很多AI芯片公司的切入點(diǎn)。另外不可忽視的一點(diǎn)是,國內資本市場(chǎng)也為GPU行業(yè)的發(fā)展帶來(lái)了巨大的支持。
可以說(shuō),國產(chǎn)計算中心、國產(chǎn)大機型正在從硬件配套和軟件生態(tài)兩個(gè)方向支撐國產(chǎn)。這是國內GPU玩家敢于與國際巨頭周旋的底氣。但是,一切真的有那么合乎邏輯嗎?
喧囂的新聞稿背后,計算中心和大型模型公司都在想方設法搶奪Nvidia GPU的一席之地。僅2023年,英偉達中國營(yíng)收就高達806億元,而同期國產(chǎn)GPU的成績(jì)可謂是屈指可數。
A股GPU第一股:景嘉微2024年第一季度實(shí)現營(yíng)收1.08億元,盡管同比增長(cháng)66.27%。據新聞報道和券商研報顯示,算力頭部公司寒武紀一季度營(yíng)收為2500萬(wàn)。從人工智能應用端轉型開(kāi)發(fā)人工智能芯片的云天勵飛,2023年芯片營(yíng)收將達到2400萬(wàn)元。
芯片企業(yè)在一級市場(chǎng)的收入不透明。有的公司估值達數十億甚至數百億。在每天發(fā)布的合作和訂單協(xié)議的背景下,實(shí)際交付的收入只有幾千萬(wàn)。。
可以說(shuō),熱鬧之下,大多數“戰略合作”和“戰略簽約”更像是示范而不是實(shí)際執行。
我不得不承認一個(gè)現實(shí)。單純用紙面參數去PK NVIDIA 并沒(méi)有多大意義。千億參數的大模型及其背后的萬(wàn)卡數據中心穩定、持續、高效的運行從來(lái)都不是單點(diǎn)。維度問(wèn)題從來(lái)都不是一朝一夕就能完成的事情。
事實(shí)上,即使是最簡(jiǎn)單的大模型評估維度也至少包含5個(gè)方面:
對于每一款國產(chǎn)GPU來(lái)說(shuō),可能都有一個(gè)亮點(diǎn)。比如,華為的單卡性能可能并不弱于NVIDIA,百度的昆侖芯片在支持自家文心一言等大型模型的訓練效率上有著(zhù)顯著(zhù)的優(yōu)勢。不過(guò),只有NVIDIA能做到五邊形勇士,其他人如果五邊形缺了一個(gè)角,就很難落地。。
例如,CUDA生態(tài)系統被認為是Nvidia的護城河之一??梢哉f(shuō),如果沒(méi)有CUDA,大多數程序員都不知道如何在GPU硬件平臺上進(jìn)行開(kāi)發(fā)。其軟件生態(tài)已滲透到人工智能、科研等領(lǐng)域的方方面面。百度前首席科學(xué)家吳恩達評論道:在CUDA出現之前,全球會(huì )用GPU編程的人可能不超過(guò)100人,但目前全球有數百萬(wàn)CUDA開(kāi)發(fā)者。
這一切都得益于NVIDIA早在2006年就大力支持CUDA系統在A(yíng)I領(lǐng)域的研發(fā)和推廣。當時(shí),NVIDIA每年投入5億美元的研發(fā)資金來(lái)不斷更新和維護CUDA,而其同期營(yíng)收僅為30億美元。同時(shí),NVIDIA還允許美國大學(xué)和科研機構免費使用CUDA系統,讓CUDA系統在A(yíng)I和通用計算領(lǐng)域迅速開(kāi)花結果。
在支持大型機型領(lǐng)域,NVIDIA很早就走在了大家的前列。很少人知道的是,NVIDIA在2016年斥巨資打造了全球首臺AI超級計算機DGX-1后,首先將其捐贈給了尚處于起步階段的Open AI,并且還與大模型生態(tài)系統形成了早期聯(lián)盟。它有著(zhù)深厚的淵源。
在高功率芯片互連領(lǐng)域,NVlink也領(lǐng)先于競爭對手,就連美國顯卡巨頭AMD也不得不落后。一個(gè)常識是,GPU的計算能力不會(huì )簡(jiǎn)單疊加。無(wú)論單筆數據交易有多高,如果沒(méi)有好的連接技術(shù),1+1從一開(kāi)始就小于2。10+10能否達到15還有一個(gè)問(wèn)號。
當其他廠(chǎng)商還僅限于傳統的 PCIe 時(shí),NVIDIA 也已經(jīng)布局了 10 多年。早在2014年,NVIDIA就發(fā)布了NVLink 1.0,并在P100 GPU芯片之間實(shí)現,已經(jīng)是當時(shí)PCle 3傳輸速度的5倍;2020年,NVIDIA完成了對Mellanox的收購,獲得了InfiniBand、Ethernet、SmartNIC、DPU和LinkX的互聯(lián)能力,更加強大;現在,NVlink可以在每個(gè)GPU之間實(shí)現高達每秒600GB的帶寬,比PCIe 4.0高出十倍。
因此,在一些評論家眼中,英偉達是一條“三頭龍”。其強大的GPU算力、豐富的軟件生態(tài)、高速廣連接使其構筑了攻守兼備、難以突破的產(chǎn)品防線(xiàn)。。一旦你試圖規避它的生態(tài),你可能會(huì )面臨購買(mǎi)萬(wàn)卡卻只能擺脫千卡算力數據封鎖的困境。你在編程開(kāi)發(fā)過(guò)程中也可能會(huì )遇到?jīng)]有合適的應用程序開(kāi)發(fā)工具的問(wèn)題。這種損失對于投入巨資的AI算力中心來(lái)說(shuō)無(wú)疑是難以接受的,對于工程量極大、優(yōu)化工作繁重的大型模型開(kāi)發(fā)者來(lái)說(shuō)也是難以承受的。
更顯著(zhù)的差距是,英偉達仍在急于為客戶(hù)降低成本。
黃仁勛對他的顧客有一句名言:“買(mǎi)得越多,省得越多。”被譽(yù)為黃氏數學(xué)。切換到現在的AI大模型視角就是如何在硬件層面降低大模型訓練和token生成的成本。今年6月,基于Blackwell架構的GB100芯片將成本和能耗較H100降低至1/25。在參數1750億的GPT-3 LLM基準測試中,GB200的性能達到了H100的7倍。倍,訓練速度達到H100的4倍,這使得這款售價(jià)7萬(wàn)美元的芯片性?xún)r(jià)比高了不少。
可以說(shuō),在軟件生態(tài)和通信互聯(lián)未經(jīng)時(shí)間和案例驗證的硬件上構建千億參數的大模型和萬(wàn)卡數據中心,無(wú)異于沒(méi)有摸清地基底下的地形而自行其是。。的摩天大樓。直接全面使用國產(chǎn)GPU來(lái)支持國產(chǎn)大模型的代幣生成,也將把國內大模型公司的成本推向難以承受的水平。
因此,雷聲多、執行少,成為行業(yè)的無(wú)奈之舉。
“速勝論”不可取,我們也不會(huì )陷入“速敗論”。盡管Nvidia如此強大,但它也無(wú)法贏(yíng)得每場(chǎng)戰斗。
剛剛過(guò)去的 7 月 30 日,蘋(píng)果發(fā)布研究論文顯示,蘋(píng)果在谷歌開(kāi)發(fā)的 TPU 芯片人工智能系統“Apple Intelligence”中使用了 AI 模型 Apple Foundation Model(AFM)。據報道,蘋(píng)果此次采購了超過(guò) 10,000 顆谷歌 TPUv5p 和 TPUv4 芯片,以取代 Nvidia GPU。
為什么蘋(píng)果和谷歌有信心開(kāi)始部分取代英偉達?
另一方面,由于蘋(píng)果是全球領(lǐng)先的消費電子公司,采購數萬(wàn)塊TPU只是研發(fā)投入的九牛一毛。用它們來(lái)布置防卡脖子的情況并不罕見(jiàn)。
因此,只有耐心先行掌握終端市場(chǎng),利用龐大的終端市場(chǎng)帶來(lái)的巨額現金流來(lái)維持研發(fā)投入,不斷培養和測試有特殊需求的市場(chǎng),才能面對先發(fā)對手的絕佳戰術(shù)。優(yōu)勢太明顯。
在這方面,華為的麒麟芯片就是一個(gè)很好的實(shí)證案例。中國PC時(shí)代,出現了“貿工技”與“技工貿”的對立。最終,單攻芯片的企業(yè)缺乏資金,單攻市場(chǎng)的企業(yè)缺乏后勁。這也給柳傳志和倪光南留下了終生的遺憾。。
不過(guò),華為并沒(méi)有反對這兩條道路。它首先使用高通。同時(shí),利用中國的制造能力和軟件迭代優(yōu)勢,持續占領(lǐng)市場(chǎng)。同時(shí),它堅持自己的芯片。投資研發(fā)。當一個(gè)價(jià)值千億的市場(chǎng)和數千家適配供應商掌握在手中時(shí),我們自己的芯片就開(kāi)始占據主導地位。這種兩條腿走路,最終實(shí)現雙向沖刺的策略取得了真正的成功。
我們需要認識到一件事:一家成功的芯片公司也必須是一家成功的企業(yè),而一家成功的企業(yè)必須擁有源源不斷的現金流。
我們還需要明白,芯片并不是那么小的一塊硅片,而是無(wú)數的軟件廠(chǎng)商、硬件適配器廠(chǎng)商和無(wú)數的供應商。這需要資金作為集結點(diǎn)。
因此,在當前情況下,我們的首要任務(wù)不是立即打擊Nvidia,而是利用市場(chǎng)環(huán)境和中國人的習慣,首先在Open AI、Anthropic和LLama上建立一個(gè)不能落后的大型模型市場(chǎng)。另一邊。差異,否則到了那個(gè)時(shí)候,大眾就很難支持國產(chǎn)大車(chē)型了。而當國產(chǎn)大型機型穩定了13億人口的市場(chǎng),甚至可以憑借強大的國產(chǎn)消費電子硬件出海時(shí),國產(chǎn)芯片也能有航母支撐,無(wú)法單獨對抗海外巨頭。
此外,在生存的同時(shí),國產(chǎn)芯片企業(yè)仍然可以在時(shí)間維度上繼續蠶食英偉達的護城河。軟件生態(tài)不夠,可以依靠國內開(kāi)發(fā)商和各大廠(chǎng)商不斷彌補。如果連接能力不夠,它可以與您的數據中心一起優(yōu)化。事實(shí)上,這也正是國內芯片企業(yè)正在做的事情。
在連接方面,由于NVlink是NVIDIA獨有的,因此不僅國產(chǎn)GPU,海外芯片廠(chǎng)商也開(kāi)始嘗試聯(lián)合攻克這條護城河。2024年3月,AMD、博通、思科、谷歌、惠普、英特爾、Meta、微軟等八家巨頭宣布將開(kāi)發(fā)用于人工智能數據中心網(wǎng)絡(luò )的全新互連技術(shù)UALink。行業(yè)共同解決鏈路問(wèn)題也是大勢所趨。
可以說(shuō),填補英偉達的護城河并不是國內芯片企業(yè)的強項。英特爾CEO基辛格曾公開(kāi)批評CUDA,稱(chēng)護城河又淺又窄。整個(gè)行業(yè)都想消滅它。Nvidia 在過(guò)去的幾十年里打造了它。中國的生態(tài)確實(shí)很糟糕,但當一家公司壟斷了整個(gè)行業(yè)的利潤時(shí),時(shí)間就站在了一邊。
毫無(wú)疑問(wèn),雖然國產(chǎn)芯片的產(chǎn)品端已經(jīng)在WAIC上蓄勢待發(fā),但從點(diǎn)亮芯片到客戶(hù)適配再到穩定運營(yíng)和生態(tài)建設還有很長(cháng)的路要走。如果我們僅僅看到令人眼花繚亂的介紹就認為自己已經(jīng)具備了“優(yōu)勢”,那么“教訓英偉達”甚至主動(dòng)脫鉤無(wú)疑是一種魯莽之舉。但遠離國產(chǎn)芯片,不給試錯和驗證的機會(huì ),也是一個(gè)錯誤的做法。
產(chǎn)業(yè)發(fā)展的難點(diǎn)恰恰在于如何平衡外力與內力、成本與創(chuàng )新、獨立與全球化。這是一個(gè)需要不斷審視策略的策略,也是一個(gè)需要在獨木橋上不斷保持平衡的策略。到達彼岸的唯一可行的方法。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。