3nm賽道,擠滿(mǎn)了ASIC芯片
最近,市場(chǎng)關(guān)注的兩家 ASIC 企業(yè)都發(fā)布了自家的財報。
本文引用地址:http://dyxdggzs.com/article/202503/468044.htm博通 2025 財年第一季度財報顯示,營(yíng)收 149.16 億美元,同比增長(cháng) 25%,凈利潤 55.03 億美元,同比增長(cháng) 315%。其中,第一季度與 AI 有關(guān)的收入同比增長(cháng) 77% 至 41 億美元。
Marvell 預計第一財季銷(xiāo)售額約為 18.8 億美元,同比增長(cháng) 27%。其中,AI 業(yè)務(wù)收入達 7 億美元左右,主要是亞馬遜等客戶(hù)定制 ASIC 等產(chǎn)品需求增長(cháng)的帶動(dòng)。
ASIC,越發(fā)豐富
今年以來(lái),大模型的更迭越發(fā)的激烈。DeepSeek 研究團隊再放大招,公開(kāi) NSA 算法。同日,馬斯克發(fā)布 Grok 3 模型,號稱(chēng)拳打 DeepSeek 腳踢 OpenAI。
DeepSeep 之風(fēng)正盛,將全球科技產(chǎn)業(yè)的重心從訓練推向推理階段。由于 DeepSeek 是 MOE 模型,能夠實(shí)現更低的激活比。算力、內存、互聯(lián)原有平衡發(fā)生劇變,新算力架構機會(huì )再次進(jìn)入同一起跑線(xiàn)。
這種條件下,定制化芯片 ASIC 似乎越來(lái)越適合 AI 時(shí)代。
ASIC 芯片的主要根據運算類(lèi)型分為了 TPU、DPU 和 NPU 芯片,分別對應了不同的基礎計算功能,也有不同的優(yōu)勢。
TPU
先來(lái)看 TPU。TPU 的核心是矩陣乘法單元,它采用脈動(dòng)陣列架構,這意味著(zhù)數據以類(lèi)似心臟跳動(dòng)的方式在芯片內流動(dòng)。這種架構允許高度并行的乘法和加法操作,使得 TPU 能夠在每個(gè)時(shí)鐘周期內處理大量的矩陣運算。
如果把 TPU 比作一個(gè)工廠(chǎng),這個(gè)工廠(chǎng)的任務(wù)是把兩堆數字(矩陣)相乘。每個(gè)工人(脈動(dòng)陣列的小格子)只需要做簡(jiǎn)單的乘法和加法,然后把結果傳給下一個(gè)工人。這樣,整個(gè)工廠(chǎng)就能高效地完成任務(wù),而且速度比普通的工廠(chǎng)(比如 CPU 或 GPU)快很多。
TPU 的優(yōu)勢是能夠高效處理大規模矩陣運算,支持神經(jīng)網(wǎng)絡(luò )的訓練和推理任務(wù)。所以,更加適合用在數據中心的 AI 訓練和推理任務(wù),如自然語(yǔ)言處理、計算機視覺(jué)和語(yǔ)音識別。
DPU
其次來(lái)看 DPU。DPU 能夠處理大量的網(wǎng)絡(luò )數據包,包括接收、分類(lèi)、轉發(fā)和過(guò)濾等。它通過(guò)硬件加速引擎(如網(wǎng)絡(luò )處理引擎)來(lái)加速網(wǎng)絡(luò )操作,減少 CPU 在網(wǎng)絡(luò )處理上的負載。
DPU 就像是一個(gè)快遞中心,它負責接收包裹(數據),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長(cháng)處理特定的任務(wù),比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU 就能讓整個(gè)快遞系統(數據中心)運行得更高效。
DPU 的優(yōu)勢是可以卸載 CPU 的部分任務(wù),減少 CPU 的負擔。優(yōu)化了數據傳輸路徑,從而提高系統的整體效率。所以,它的應用場(chǎng)景是數據中心的網(wǎng)絡(luò )加速、存儲管理、安全處理等。
NPU
再來(lái)看 NPU。NPU 是專(zhuān)門(mén)為神經(jīng)網(wǎng)絡(luò )計算設計的芯片,采用「數據驅動(dòng)并行計算」的架構。它能夠高效執行大規模矩陣運算,特別是卷積神經(jīng)網(wǎng)絡(luò )(CNN)中的卷積操作。
如果把 NPU 比作一個(gè)廚房,這個(gè)廚房有很多廚師(計算單元),每個(gè)廚師都能同時(shí)做自己的菜(處理數據)。比如,一個(gè)廚師負責切菜,一個(gè)廚師負責炒菜,另一個(gè)廚師負責擺盤(pán)。這樣,整個(gè)廚房就能同時(shí)處理很多道菜,效率非常高。NPU 就是這樣,通過(guò)并行處理,讓神經(jīng)網(wǎng)絡(luò )的計算變得更快。
NPU 的優(yōu)勢就是執行 AI 任務(wù)時(shí)功耗較低,適合邊緣設備。并且,專(zhuān)為神經(jīng)網(wǎng)絡(luò )設計,適合處理深度學(xué)習任務(wù)。所以,NPU 的應用場(chǎng)景是人臉識別、語(yǔ)音識別、自動(dòng)駕駛、智能相機等需要進(jìn)行深度學(xué)習任務(wù)的領(lǐng)域。
簡(jiǎn)而言之,TPU 適合深度學(xué)習、DPU 適合數據中心的數據管理、NPU 通過(guò)并行計算快速完成神經(jīng)網(wǎng)絡(luò )任務(wù),適合各種 AI 應用。
最近,還出現了 LPU,一種專(zhuān)門(mén)為處理語(yǔ)言任務(wù)而設計的芯片。它的推出就是專(zhuān)門(mén)針對語(yǔ)言處理優(yōu)化的架構和指令集,能夠更高效地處理文本、語(yǔ)音等數據,從而加速大語(yǔ)言模型的訓練和推理過(guò)程。
摩根士丹利預測 AI ASIC 的總可用市場(chǎng)將從 2024 年的 120 億美元增長(cháng)到 2027 年的 300 億美元,期間英偉達的 AI GPU 存在強烈的競爭。
現在,在 ASIC 賽道上的玩家,已經(jīng)越來(lái)越多。
擁擠的 ASIC 賽道
3nm ASIC 芯片的賽道上擠滿(mǎn)了大廠(chǎng)。
亞馬遜一直在致力于自研芯片以降低數據中心成本。
2022 年,AWS 發(fā)布了 Trainium 1 和 Inferentia 2 芯片。當時(shí),Trainium1 在訓練方面表現不是很好,更加適合 AI 推理工作。
之后,AWS 又發(fā)布了當前的 Trainium 2,采用 5nm 工藝。單個(gè) Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 實(shí)例的能效比同類(lèi) GPU 實(shí)例高出 25%,Trn2 UltraServer 的能效比 Trn1 實(shí)例高三倍。
去年 12 月,亞馬遜宣布要推出全新 Trainium3,采用的是 3nm 工藝。與上代 Trainium2 相比,計算能力增加 2 倍,能源效率提升 40%,預計 2025 年底問(wèn)世。
據了解,在 AWS 的 3nm Trainium 項目中,世芯電子(Alchip)和 Marvell 展開(kāi)了激烈的競爭。
世芯電子(Alchip)是第一家宣布其 3nm 設計和生產(chǎn)生態(tài)系統準備就緒的 ASIC 公司,支持臺積電的 N3E 工藝。Marvell 則在 Trainium 2 項目中已經(jīng)取得了顯著(zhù)進(jìn)展,并有望繼續參與 Trainium 3 的設計。
當前的競爭焦點(diǎn)在于:后端設計服務(wù)和 CoWoS 產(chǎn)能分配上??凑l(shuí)能夠在 Trainium 項目爭取到更多的份額。
之前我們提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片從 v1 到最新的 Trillium TPU。TPU 為 Gemini 2.0 的訓練和推理提供了 100% 的支持。據谷歌這邊說(shuō),Trillium 的早期客戶(hù) AI21 Labs 認為是有顯著(zhù)改進(jìn)的。AI21 Labs 首席技術(shù)官 Barak Lenz 表示:「Trillium 在規模、速度和成本效益方面的進(jìn)步非常顯著(zhù)?!宫F在谷歌的 TPU v7 正在開(kāi)發(fā)階段,同樣采用的是 3nm 工藝,預計量產(chǎn)時(shí)間是在 2026 年。
據產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌 TPU 芯片去年的生產(chǎn)量已經(jīng)達到 280 萬(wàn)到 300 萬(wàn)片之間,成為全球第三大數據中心芯片設計廠(chǎng)商。
從合作對象來(lái)說(shuō),谷歌和博通始終是在深度合作的。谷歌從 TPU v1 開(kāi)始,就和博通達成了深度合作,它與博通共同設計了迄今為止已公布的所有 TPU,而博通在這方面的營(yíng)收也因谷歌水漲船高。
微軟在 ASIC 方面也在發(fā)力。Maia 200是微軟為數據中心和 AI 任務(wù)定制的高性能加速器,同樣采用 3nm 工藝,預計在 2026 年進(jìn)入量產(chǎn)階段,至于現在 Maia 100,也是專(zhuān)為在 Azure 中的大規模 AI 工作負載而設計。支持大規模并行計算,特別適合自然語(yǔ)言處理(NLP)和生成式 AI 任務(wù)。從現在的信息來(lái)看,這款產(chǎn)品微軟選擇和 Marvell 合作。
LPU 與 GPU 對比
LPU 與 GPU 對比
早在今年 1 月就有消息傳出,美國推理芯片公司Groq 已經(jīng)在自己的 LPU 芯片上實(shí)機運行 DeepSeek,效率比最新的 H100 快上一個(gè)量級,達到每秒 24000token。值得關(guān)注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯達曼構建了中東地區最大的推理集群,該集群包括了 19000 個(gè) Groq LPU。
Open AI首款 AI ASIC 芯片即將完成,會(huì )在未來(lái)幾個(gè)月內完成其首款內部芯片的設計,并計劃送往臺積電進(jìn)行制造,以完成流片(taping out)。最新消息是,OpenAI 會(huì )在 2026 年實(shí)現在臺積電實(shí)現量產(chǎn)的目標。
ASIC 真的劃算嗎?
谷歌、AWS、Open AI 都在加大對自研 ASIC 的投入。那么,ASIC 真的劃算嗎?
先從性能上來(lái)看,ASIC 是為特定任務(wù)定制的芯片,其核心優(yōu)勢在于高性能和低功耗。在同等預算下,AWS 的 Trainium 2 可以比英偉達的 H100 GPU 更快速完成推理任務(wù),且性?xún)r(jià)比提高了 30%~40%。Trainium3 計劃于 2025 年下半年推出,計算性能提高 2 倍,能效提高 40%。
并且,GPU 由于架構的特性,一般會(huì )在 AI 計算中保留圖形渲染、視頻編解碼等功能模塊,但在 AI 計算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達 H100 GPU 上有大約 15% 的晶體管是未在 AI 計算過(guò)程中被使用的。
從成本上來(lái)看,ASIC 在大規模量產(chǎn)時(shí),單位成本顯著(zhù)低于 GPU。ASIC 在規模量產(chǎn)的情況下可以降至 GPU 的三分之一。但一次性工程費用 NRE(Non-Recurring Engineering)非常高。
以定制一款采用 5nm 制程的 ASIC 為例,NRE 費用可以高達 1 億至 2 億美元。然而一旦能夠大規模出貨,NRE 費用就可以很大程度上被攤薄。
此前有業(yè)內人士分析,中等復雜程度的 ASIC 盈虧平衡點(diǎn)在 10 萬(wàn)片左右,這對于很多廠(chǎng)商來(lái)說(shuō)已經(jīng)是遙不可及。
但對于大規模部署的云計算大廠(chǎng)或 AI 應用提供商,ASIC 的定制化優(yōu)勢能夠顯著(zhù)降低運營(yíng)成本,從而更快地實(shí)現盈利。
算力走向推理,ASIC 的需求只多不少
在溫哥華 NeurIPS 大會(huì )上,OpenAI 聯(lián)合創(chuàng )始人兼前首席科學(xué)家 Ilya Sutskever 曾作出「AI 預訓練時(shí)代將終結」的判斷。
巴克萊的一份報告預計,AI 推理計算需求將快速提升,預計其將占通用人工智能總計算需求的 70% 以上,推理計算的需求甚至可以超過(guò)訓練計算需求,達到后者的 4.5 倍。
英偉達 GPU 目前在推理市場(chǎng)中市占率約 80%,但隨著(zhù)大型科技公司定制化 ASIC 芯片不斷涌現,這一比例有望在 2028 年下降至 50% 左右。
不過(guò),在博通的觀(guān)察中,AI 訓練仍然是會(huì )占據主流。博通 CEO 陳福陽(yáng)最近表示:「公司把推理作為一個(gè)獨立的產(chǎn)品線(xiàn),推理與訓練芯片的架構非常不同。公司預計三個(gè)客戶(hù)未來(lái)需求市場(chǎng)總量將達 600 億~900 億美元,這個(gè)需求總量既包含了訓練,又包含了推理,但其中訓練的部分更大?!?/p>
對于第二季度來(lái)講,博通對于 ASIC 的預期仍舊保持樂(lè )觀(guān)。預計第二季度博通的 AI 半導體收入將繼續保持強勁增長(cháng)勢頭,達到 44 億美元。
Marvell 在電話(huà)會(huì )議上,同樣也展示了對于 ASIC 的信心。透露其定制的ARM CPU,將在客戶(hù)的數據中心中得到更廣泛的應用。并且定制的人工智能 XPU,其表現也非常出色,未來(lái)將有大量的量產(chǎn)。
評論