GTC2025演講回顧——黃仁勛的“終極摩爾定律”:買(mǎi)越多,賺越多
北京時(shí)間3 月18 日凌晨,當東半球當大部分人都處在睡夢(mèng)之中時(shí),AI 相關(guān)領(lǐng)域的相關(guān)從業(yè)者必定是一個(gè)無(wú)眠之夜。在地球的另一段,硅谷圣何塞的晨曦之中,NVIDIA 創(chuàng )始人黃仁勛標志性的皮衣身影再次登上GTC大會(huì )舞臺。這場(chǎng)被外界稱(chēng)為“年度AI 風(fēng)向標”的GTC大會(huì )主題演講,用兩小時(shí)編織了一張橫跨芯片、云計算、通信網(wǎng)絡(luò )和機器人技術(shù)的未來(lái)藍圖。
1 如今的挫折,不影響未來(lái)的輝煌
“到2030 年,全球數據中心資產(chǎn)投入將突破1 萬(wàn)億美元?!?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/黃仁勛">黃仁勛的開(kāi)場(chǎng)宣言直指英偉達的核心戰場(chǎng)。他用一張條形圖直接框定了英偉達如今的疆域:代表英偉達營(yíng)收的黃色區塊已占據2024 年數據中心服務(wù)市場(chǎng)的四分之一,而更大的野心藏在那些尚未被填滿(mǎn)的空白里。
這個(gè)預測基于一個(gè)簡(jiǎn)單卻暴烈的邏輯:全球AI 算力需求正以每年10 倍速度膨脹,但GPU 供給量?jì)H能維持2 倍增長(cháng)。當大模型參數規模突破百萬(wàn)億,當視頻生成AI 吃掉整座超算中心的算力,傳統云計算架構正在經(jīng)歷“核爆式重構”。黃仁勛特別展示了一組對比數據:搭載72 顆B200 芯片的NVL72 服務(wù)器,其推理吞吐量較前代產(chǎn)品提升7 倍,而能耗反而下降25%。這不禁讓人想起英偉達一直信奉的“黃氏定律”—— AI 計算推理性能每年翻一倍。
這背后的暗示不言而喻: 英偉達目前沒(méi)有被DeepSeek R1 所影響,雖然現在股價(jià)是跌了,但是未來(lái)大大的好,未來(lái)全是Money。
2 如今的CUDA還是很強
如果說(shuō)硬件是肌肉,CUDA 生態(tài)才是英偉達的真正骨骼。面對AMD、英特爾乃至亞馬遜自研芯片的圍攻,黃仁勛用整整20 分鐘系統闡釋了CUDA 的“軟實(shí)力”。從cuDNN 到NCCL,從Triton 推理服務(wù)器到新開(kāi)源的分布式推理庫,這些深藏于代碼層的工具鏈構成了難以復制的技術(shù)壁壘。
“我們最新開(kāi)源的推理加速庫,可以讓百億參數模型在異構計算集群上的部署效率提升40%?!秉S仁勛現場(chǎng)演示的案例中,一個(gè)包含文本生成、圖像識別和語(yǔ)音合成的多模態(tài)AI系統,通過(guò)動(dòng)態(tài)任務(wù)分配算法自動(dòng)調度CPU、GPU和DPU資源。這讓人聯(lián)想到三周前中國的DeepSeek開(kāi)源的DeepGEMM項目—— 當行業(yè)頂尖玩家都在拼命優(yōu)化底層算子時(shí),英偉達選擇將部分核心武器開(kāi)源,既鞏固了生態(tài)主導權,又為硬件銷(xiāo)售鋪就更深的護城河。
3 GTC金句:“買(mǎi)越多,賺越多”
隨后介紹的“6G 時(shí)代+ 邊緣計算”、汽車(chē)智駕的安全方案等等,都幾乎毫無(wú)波瀾。全場(chǎng)的第一個(gè)高潮自然還是GPU,在這一頁(yè)PPT 出現后,NVDA 的股票終于止住了從發(fā)布會(huì )開(kāi)始一直以來(lái)的跌幅,即118.9 → 116.5(2%),怒回117.5。
黃仁勛表示,未來(lái)推理的需求會(huì )暴增,而且是像R1 一樣的推理類(lèi)模型,而最適配R1 這類(lèi)推理模型的平臺,自然是他自己的NVL72(搭載了72 個(gè)B200 芯片的服務(wù)器)。
他從吞吐量和計算速度兩個(gè)維度反復說(shuō)明,用了一個(gè)AI 工廠(chǎng)的比喻,將推理比喻成Token 的生產(chǎn)工廠(chǎng)。那么最大的回報值一定是產(chǎn)生在吞吐量和計算速度的最優(yōu)函數中—— NVL72。
黃仁勛進(jìn)一步表示,在同樣的水平下,相較于H100 是45 K GPU,1400 個(gè)機架,產(chǎn)生300 M 的輸出;而NVL則是85 K GPU(更強),600 個(gè)機架(更少空間),以及12000 M 的輸出(40 倍)。隨即,老黃便說(shuō)出了今年GTC 的金句:“the more you buy, the more you make”(買(mǎi)得越多,賺得越多)。通過(guò)高效的AI 基礎設施和強大的計算能力,企業(yè)可以在A(yíng)I 應用中實(shí)現更高的收益。
4 Blackwell Ultra與Rubin架構:英偉達“核彈”的暴力美學(xué)
隨后黃仁勛公布了他的全新“核彈”—— Blackwell Ultra。這款專(zhuān)為推理任務(wù)優(yōu)化的GPU 怪獸,將顯存容量從192GB 暴力提升至288GB,配合Dynamo技術(shù)實(shí)現的推理性能躍升,使其單機架性能達到Hopper 架構的40 倍。這意味著(zhù)原本需要整個(gè)數據中心支撐的智能體系統,現在只需一個(gè)機柜就能完成實(shí)時(shí)響應。我們正在見(jiàn)證AI 工廠(chǎng)的誕生,就像工業(yè)革命中蒸汽機取代水力,Blackwell 正在重新定義智能生產(chǎn)的效率邊界。
這場(chǎng)性能革命的核心突破在于“推理時(shí)擴展”(Inference Scaling)的全新路徑。DeepSeek R1 模型在Blackwell 平臺上的表現驗證了這一點(diǎn)—— 通過(guò)動(dòng)態(tài)調整計算資源分配,模型在復雜決策任務(wù)中實(shí)現了近乎線(xiàn)性的性能擴展。這種突破不僅讓“Scaling Law 撞墻論”不攻自破,更開(kāi)辟了AI 系統從訓練到部署的全新范式。值得關(guān)注的是,英偉達首次將訓練與推理架構分離,Blackwell Ultra 專(zhuān)為推理優(yōu)化的設計理念,預示著(zhù)未來(lái)AI 芯片將進(jìn)入場(chǎng)景細分的定制化時(shí)代。
而隨著(zhù)以發(fā)現暗物質(zhì)的科學(xué)家“Vera Rubin”命名的下一代架構的公布,全場(chǎng)迎來(lái)的最高潮,其將在2026年下半年開(kāi)啟英偉達的“后Blackwell 時(shí)代”。
Vera Rubin 有兩個(gè)部分,一個(gè)稱(chēng)為Vera 的CPU 和一個(gè)稱(chēng)為Rubin 的新GPU。當它們協(xié)同使用時(shí),將首次實(shí)現了每秒50 千萬(wàn)億次浮點(diǎn)運算的推理性能,這是現有架構兩倍以上的算力密度。與此同時(shí),為了匹配這恐怖的算力,Rubin 的帶寬將會(huì )有大幅升級,HBM4 內存與NVLink 7 的組合—— 13 TB/s 的帶寬和260 TB/s 的互連吞吐量,讓數據洪流在芯片間奔涌時(shí)不再遭遇任何瓶頸。
自然, Rubin 架構也有ultra 版本,它將在2027 年問(wèn)世。作為算力怪物中的怪物,其在FP4 精度下的推理性能達到15 ExaFLOPS,相當于150 億億次運算每秒。配合4.6 PB/s 的內存帶寬,這意味著(zhù)單個(gè)機架就能承載相當于現在整個(gè)城市級數據中心的AI 負載。" 我們正在突破的不是技術(shù)極限,而是人類(lèi)想象力的邊界。" 黃仁勛用這句話(huà)為Rubin 架構的發(fā)布畫(huà)下驚嘆號。
從 Blackwell 到 Rubin,英偉達用三年時(shí)間完成了從 68 倍到 900 倍的浮點(diǎn)運算能力躍升,而總擁有成本(TCO)曲線(xiàn)卻以反比例態(tài)勢持續下探。筆者也是沒(méi)想到,幾年前還在為 Blackwell 的恐怖算力而驚嘆,現在它已經(jīng)在 Rubin 的襯托下,變成了一個(gè)“小老弟”。
5 發(fā)布會(huì )上的其他內容
馬斯克自己造了一個(gè)名為“Colossus”的超級訓練集群,從而力大磚飛一般的訓練出了“Grok3”。
如此巨量的網(wǎng)絡(luò )集群用于訓練,彼此之間的通信就顯得尤其重要。但是,如何解決這些巨量的網(wǎng)絡(luò )通信變得困難重重,這就是英偉達想要著(zhù)手解決的問(wèn)題,也就是Spectrum-X 以太網(wǎng)網(wǎng)絡(luò )平臺。在現場(chǎng),老黃為了解釋這個(gè)事情多么困難,還拿了兩根線(xiàn)纜來(lái)解釋10 萬(wàn)卡互聯(lián)有多恐怖。于是我們就看到他就在臺上花了2 分鐘解開(kāi)糾纏在一起的兩根繩子……確實(shí)是很困難了。
除此之外,外界普遍猜測的CPO 也是如約發(fā)布。在傳統光通信架構中,交換系統與光電轉換模塊各自獨立部署于電路板之上,信號需經(jīng)歷“光模塊光電轉換-電路板走線(xiàn)- 交換機處理”的三段式旅程。這種物理隔離的設計不僅增加信號衰減風(fēng)險,更因PCB 走線(xiàn)產(chǎn)生的寄生效應嚴重制約傳輸速率上限。CPO(共封裝光學(xué))技術(shù)通過(guò)將光引擎與交換芯片三維堆疊集成,將原本毫米級的傳輸距離壓縮至微米尺度,不僅顯著(zhù)縮短信號傳輸路徑,更通過(guò)混合鍵合工藝實(shí)現芯片級光電融合,使每瓦特功耗下的數據傳輸密度提升達20 倍,從根本上重構了高速互連的技術(shù)范式。
英偉達本次所發(fā)布的首款共封裝硅光子系統(CPO)。這項基于微環(huán)諧振器調制器的黑科技,通過(guò)臺積電先進(jìn)制程將光子引擎直接集成到交換機芯片,創(chuàng )造了每秒1.6 T 的傳輸神話(huà)。傳統架構中占據30% 功耗的收發(fā)器被徹底拋棄,512 徑基數的光交換矩陣讓GPU 集群擴展突破物理限制。這種突破不僅解除了大規模并行計算的規模魔咒,更讓“AI 工廠(chǎng)”的概念真正具備商業(yè)可行性—— 任何制造業(yè)企業(yè)都能以合理成本構建自己的智能生產(chǎn)中樞。
最后,老黃也表示全球勞動(dòng)力短缺的陰影逐漸籠罩制造業(yè)、物流業(yè)和醫療服務(wù)業(yè),在這個(gè)背景之下,機器人的重要性逐漸凸顯。因此,英偉達正式官宣了世界首個(gè)開(kāi)源、完全可定制的通用人形機器人模型——GROOT N1。
GROOT 所采用的“雙系統架構”與芯片設計中的異構計算理念異曲同工。系統2(慢思考)如同芯片中的中央處理器,通過(guò)視覺(jué)語(yǔ)言模型對環(huán)境進(jìn)行語(yǔ)義解析,將”把紅色零件裝入三號工位”的指令拆解為空間定位、路徑規劃等邏輯步驟;而系統1(快思考)則像專(zhuān)用加速器,將抽象指令轉化為每秒上千次計算的關(guān)節運動(dòng)軌跡。這種分層處理架構使得20 億參數的模型就能實(shí)現傳統百億級模型的復雜任務(wù)處理能力。
此外,英偉達還與DeepMind、迪士尼研究一起開(kāi)發(fā)下一代開(kāi)源的Newton 物理引擎,能夠讓機器人學(xué)習如何更精確處理復雜任務(wù)。
在發(fā)布會(huì )上,還展示了一下以星球大戰BDX 機器人為靈感的機器人Blue(確實(shí)還挺可愛(ài)的),它與老黃來(lái)了一波有趣的互動(dòng)。
6 結束語(yǔ)
從“交流電之父”尼古拉·特斯拉到暗物質(zhì)發(fā)現者薇拉·魯賓(Vera Rubin),這些命名揭示著(zhù)英偉達的終極野心:用計算的力量破解物理世界的本質(zhì)規律。這種野心在商業(yè)層面轉化為恐怖的執行力—— 每年迭代的架構節奏、三年四代的工藝躍進(jìn)、五年千倍的性能提升,正在將摩爾定律改寫(xiě)為“黃氏定律”。
站在GTC 2025 的時(shí)間節點(diǎn)回望,黃仁勛在2016 年那句“英偉達是家軟件公司”的論斷終于完全顯現其深意。當硬件性能開(kāi)始觸碰物理極限,通過(guò)架構創(chuàng )新、連接革命和生態(tài)協(xié)同構建的復合優(yōu)勢,正在開(kāi)辟超越制程進(jìn)步的“第二增長(cháng)曲線(xiàn)”。這種“三位一體”的創(chuàng )新范式,或許才是英偉達持續統治AI 計算王座的真正密碼。
這場(chǎng)被稱(chēng)作“AI 超級碗”的盛會(huì ),最終在開(kāi)發(fā)者經(jīng)久不息的掌聲中落下帷幕。但黃仁勛留下的不僅是一串驚人的技術(shù)參數,更是一個(gè)清晰的未來(lái)圖景:當每個(gè)工廠(chǎng)都擁有自己的AI 中樞,當百萬(wàn)GPU 集群在硅基神經(jīng)網(wǎng)絡(luò )中自由對話(huà),人類(lèi)將迎來(lái)生產(chǎn)力進(jìn)化的新紀元。在這個(gè)紀元里,算力不再是稀缺資源,而是像電力般流淌在智能世界的每根“血管”中—— 而這,正是英偉達為全人類(lèi)書(shū)寫(xiě)的未來(lái)腳本。
在最后的最后,筆者也有一個(gè)期待黃仁勛解答,但是沒(méi)有獲得老黃解答的問(wèn)題與各位讀者探討:算力通縮到底存不存在?
(本文來(lái)源于《EEPW》202504)
評論