自研AI服務(wù)器芯片,競爭升級
有越來(lái)越多的互聯(lián)網(wǎng)和 IT 設備大廠(chǎng)開(kāi)始自研 AI 服務(wù)器芯片,最近,這一風(fēng)潮吹到了蘋(píng)果公司,據悉,該智能設備龍頭正在開(kāi)發(fā)用于 AI 服務(wù)器的定制芯片。
本文引用地址:http://dyxdggzs.com/article/202404/458241.htm與微軟和谷歌等競爭對手相比,蘋(píng)果在推出生成式 AI 方面進(jìn)展較慢,不過(guò),蘋(píng)果公司 CEO 庫克稱(chēng),AI 已經(jīng)在蘋(píng)果產(chǎn)品的幕后發(fā)揮作用,此前有媒體報道,蘋(píng)果計劃使用 AI 來(lái)提高搜索存儲在蘋(píng)果設備上的數據的能力。
今年 2 月,庫克在年度股東大會(huì )上表示,使用蘋(píng)果 AI 技術(shù)的功能包括 Vision Pro 的手部跟蹤工具和 Apple Watch 的心率警報。他還表示,MacBook 中的芯片能夠運行 AI。
庫克表示,今年晚些時(shí)候,將與大家分享如何在生成式 AI 領(lǐng)域開(kāi)辟新天地。蘋(píng)果公司通常在 6 月份的年度開(kāi)發(fā)者大會(huì )上宣布新的軟件產(chǎn)品和功能。
知名分析師郭明錤在 2023 年 10 月發(fā)布的一份報告顯示,預計蘋(píng)果在 2023 和 2024 年分別采購 2000–3000 臺、1.8 萬(wàn)–2 萬(wàn)臺 AI 服務(wù)器,分別占同期全球 AI 服務(wù)器出貨量的 1.3% 和 5%。估算蘋(píng)果在 2023 和 2024 年需要分別支出約 6.2 億和 47.5 億美元,用于 AI 服務(wù)器采購。
基于蘋(píng)果產(chǎn)品的功能需求,以及龐大的 AI 服務(wù)器資本支出,再結合該公司自研芯片的歷史,相信其自研 AI 服務(wù)器芯片是早晚的事,特別是蘋(píng)果放棄造車(chē),將資金和資源重點(diǎn)投入到 AI 技術(shù)和產(chǎn)品研發(fā)上,自研 AI 服務(wù)器芯片就更加順理成章了。
AI 服務(wù)器芯片的重要性
據統計,2024 年,全球服務(wù)器出貨量約 1365.4 萬(wàn)臺,其中,各家 ODM 的出貨以 AI 服務(wù)器最為強勁。分析師指出,2024 年,AI 服務(wù)器出貨年增長(cháng)率和占比都將達到兩位數,這主要得益于生成式 AI 市場(chǎng)的增長(cháng)。
預計生成式 AI 市場(chǎng)規模將從 2022 年的 400 億美元增長(cháng)到 2032 年的 1.3 萬(wàn)億美元,年復合增長(cháng)率高達 41.7%。由于全球生成式 AI 市場(chǎng)商機與增長(cháng)潛力巨大,對訓練 AI 系統的軟硬件需求量很大,使得市場(chǎng)對 AI 服務(wù)器及相關(guān)芯片的需求不斷增長(cháng)。
AI 大模型迭代速度越來(lái)越快,廠(chǎng)商對智能算力的投入大幅增加,支持存儲和訓練的高端 AI 服務(wù)器的需求激增,2023 和 2024 年,大模型訓練所需數據量激增,AI 大模型廠(chǎng)商需要的是能夠支持存儲和訓練的高端 AI 服務(wù)器,因此,各服務(wù)器廠(chǎng)商都在升級芯片規格、擴大卡組數量。
與傳統服務(wù)器相比,AI 服務(wù)器在多個(gè)方面有所不同。硬件方面,AI 服務(wù)器采用異構形式,內存容量更大,可滿(mǎn)足不同場(chǎng)景需求;卡的數量方面,由于 AI 服務(wù)器需要大量計算,至少配置 4 個(gè) GPU 卡,有的需要 8 個(gè);系統結構方面,AI 服務(wù)器在散熱、拓撲等方面進(jìn)行了專(zhuān)門(mén)設計,以實(shí)現穩定運行。
自研 AI 服務(wù)器芯片熱潮
根據應用場(chǎng)景不同,AI 服務(wù)器可分為深度學(xué)習訓練型和智能應用推理型;根據計算模塊結構不同,AI 服務(wù)器可分為 CPU+GPU、CPU+ASIC、CPU+FPGA 等,其中,最常見(jiàn)的是 CPU+多塊 GPU 組合模式。
雖然 AI 服務(wù)器計算系統主要由 CPU 和 GPU 組成,但就目前而言,GPU 占據了較大市場(chǎng)份額,CPU 份額相對較小。在這種情況下,GPU 廠(chǎng)商的行業(yè)地位就很凸出了。然而,雖然市場(chǎng)很大,但能夠提供高性能 GPU 的廠(chǎng)商卻很少,目前,能夠形成一定市場(chǎng)規模的廠(chǎng)商只有 3 家:英偉達,AMD 和英特爾。
基于這種市場(chǎng)供求關(guān)系,對 AI 服務(wù)器具有很大需求量的互聯(lián)網(wǎng)和 IT 設備大廠(chǎng)紛紛開(kāi)始自研相關(guān)芯片,如亞馬遜 AWS,谷歌,Meta,微軟和蘋(píng)果。
亞馬遜 AWS 自研芯片始于 2015 年,當時(shí)收購了 Annapurna Labs,2018 年,AWS 推出了基于 Arm 架構的 Graviton 處理器,這是其首款自研服務(wù)器芯片。2020 年,AWS 發(fā)布了 Graviton2。2023 年 12 月,AWS 推出了 Graviton4 和 Trainium2,Graviton4 的性能比 Graviton2 提升了 30%,Trainium2 在 AI 訓練速度上提升了 4 倍。
2016 年,谷歌推出了自研的 AI 張量處理單元(TPU),這些專(zhuān)為機器學(xué)習設計的芯片為谷歌云平臺上提供了 AI 加速能力,2022 年前后,谷歌開(kāi)始研發(fā)基于 Arm 架構的服務(wù)器 CPU,2024 年 4 月,谷歌發(fā)布了首款自研 Arm 構架 CPU——Axion,并宣布該芯片已經(jīng)在內部使用。
2020 年,微軟開(kāi)始為其 Azure 云服務(wù)定制芯片,2023 年 11 月,微軟推出了兩款自研芯片——Maia100 和 Cobalt100。Maia100 是一款專(zhuān)為大語(yǔ)言模型訓練和推理而設計的芯片,采用臺積電 5nm 制程,Cobalt100 是一款基于 Arm 架構的 128 核服務(wù)器 CPU。
今年 4 月初,Meta 發(fā)布了新一代 AI 訓練和推理加速器 MTIA,其計算和內存帶寬是上一代產(chǎn)品的兩倍多,最新版本芯片有助于驅動(dòng) Facebook 和 Instagram 上的排名和推薦廣告模型。
自研 AI 芯片的好處
互聯(lián)網(wǎng)和 IT 設備大廠(chǎng)自研 AI 芯片的核心動(dòng)機是降低成本。當然,自研芯片的前提是自身有很大的需求量,否則自研沒(méi)有意義。這些大廠(chǎng)的巨量規模能夠分攤芯片研發(fā)成本,隨著(zhù)產(chǎn)量的增加,單位芯片的成本會(huì )降低。通過(guò)自研,這些大廠(chǎng)可以直接控制芯片的設計和生產(chǎn)成本,從而減少對外部供應商的依賴(lài)。這種成本控制能力使它們能夠更有效地管理運營(yíng)支出,提高整體利潤率。自研芯片還可以?xún)?yōu)化供應鏈管理,減少中間環(huán)節,從而降低采購成本和物流成本。此外,自研芯片可以根據云服務(wù)的具體需求進(jìn)行定制,避免不必要的功能和性能過(guò)剩,進(jìn)一步降低生產(chǎn)成本。
通過(guò)自研芯片,這些大廠(chǎng)能夠掌握更多的議價(jià)權和定價(jià)權,避免成為英特爾、英偉達等傳統芯片商的「打工仔」。這不僅有助于提升利潤空間,還能夠在價(jià)格競爭中保持靈活性,根據市場(chǎng)情況調整定價(jià)策略。
自研芯片還可以幫助這些大廠(chǎng)完善軟硬件生態(tài)系統,它們能夠根據自家的業(yè)務(wù)需求和特點(diǎn)定制芯片,從而實(shí)現硬件與軟件之間的無(wú)縫對接和優(yōu)化。自研芯片還可以保持技術(shù)創(chuàng )新,隨著(zhù)云計算、大數據、人工智能的快速發(fā)展,數據中心面臨的工作負載越來(lái)越多樣化,自研芯片使這些大廠(chǎng)能夠快速響應市場(chǎng)變化,及時(shí)推出符合新需求的產(chǎn)品和服務(wù)。
自研 AI 服務(wù)器芯片的難度有多大?
AI 服務(wù)器芯片屬于超大規模集成電路,除了需要大量資金投入,其設計和制造的難度都很大,需要能夠精準把握技術(shù)路線(xiàn)選擇,另外,在團隊建設,以及與晶圓代工廠(chǎng)合作方面,需要具備業(yè)界頂級水平,才能把芯片做好。
AI 服務(wù)器需要訓練和推理兩類(lèi)處理器和系統,如何規劃技術(shù)發(fā)展路線(xiàn)是關(guān)鍵,也就是說(shuō),是發(fā)展訓練,還是推理,或是兼而有之,是不同的技術(shù)路線(xiàn),這要考慮到市場(chǎng)現狀及未來(lái)的發(fā)展情況。
訓練芯片主要用于 AI 算法訓練,即在云端將一系列經(jīng)過(guò)標記的數據輸入算法模型進(jìn)行計算,不斷調整、優(yōu)化算法參數,直至算法識別準確率達到較高水平。推理芯片主要用于 AI 算法推理,將在云端訓練好的算法模型進(jìn)行裁剪、優(yōu)化變「輕」之后,進(jìn)入應用階段,輸入數據直接得出識別結果。
不同用途(訓練和推理)、不同應用場(chǎng)景(端-邊-云)對 AI 芯片有著(zhù)不同的要求。訓練芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延時(shí)(完成推理過(guò)程所需要的時(shí)間盡可能短)、低功耗?!付?邊-云」這 3 個(gè)環(huán)節對 AI 芯片的要求也不同,在端和邊上進(jìn)行的大部分是 AI 推理,大部分的訓練是在云和數據中心進(jìn)行的,訓練過(guò)程對時(shí)延沒(méi)有什么要求,需要保證 AI 芯片在盡可能保證較高算力的情況下,功耗盡量低。
目前,英偉達 GPU 主導的 AI 訓練市場(chǎng)最為火熱,然而,隨著(zhù) AI 應用的深入展開(kāi),巨大的推理芯片市場(chǎng)會(huì )逐漸展現出來(lái),該市場(chǎng)比我們目前看到的要大得多,沒(méi)有任何一家廠(chǎng)商的芯片能夠滿(mǎn)足這個(gè)市場(chǎng)需求。這就是前文提到的亞馬遜、谷歌、微軟,甚至英偉達自研 CPU 的原因所在。
有統計顯示,AI 芯片市場(chǎng)包括約 15% 的訓練,45% 的數據中心推理和 40% 的邊緣推理。在這樣的行業(yè)背景下,大廠(chǎng)自研芯片,必須找準方向,權衡好中短期和中長(cháng)期應用需求,分配好訓練芯片和推理芯片的研發(fā)投入。
芯片研發(fā)團隊建設也很重要。
技術(shù)團隊搭建,是一個(gè)長(cháng)期積累的過(guò)程,需要時(shí)間,難度不小,因此,多家互聯(lián)網(wǎng)大廠(chǎng)對芯片設計外包服務(wù)的依賴(lài)度較高,這恐怕只能解決短期、少量需求問(wèn)題,長(cháng)期來(lái)看,還需要技術(shù)積累和芯片團隊建設。
下面看一下自研芯片大廠(chǎng)與晶圓代工廠(chǎng)的合作關(guān)系。
AI 服務(wù)器芯片采用的都是最先進(jìn)制程工藝,這方面,考慮到三星電子的先進(jìn)制程(4nm 和 3nm)良率遲遲提升不上去,臺積電幾乎是唯一的晶圓代工廠(chǎng)選擇。
根據專(zhuān)門(mén)研究半導體公司的金融分析師 Dan Nystedt 的估計,2023 年,蘋(píng)果公司占臺積電收入的 25%(175.2 億美元)。
2023 年,臺積電的前 10 名客戶(hù)占其收入的 91%,高于 2022 年的 82%,這些公司包括聯(lián)發(fā)科、AMD、高通、博通、索尼和 Marvell??梢钥闯?,沒(méi)有一家互聯(lián)網(wǎng)大廠(chǎng),除了蘋(píng)果,都是 IC 設計大廠(chǎng)。
多年來(lái),蘋(píng)果一直是臺積電的頭號客戶(hù),而且,在未來(lái)多年內將一直是臺積電的第一大客戶(hù)。據悉,蘋(píng)果自研的 AI 服務(wù)器芯片將采用臺積電的 3nm 制程工藝,將在 2025 下半年生產(chǎn),那時(shí),臺積電的 3nm 制程將升級到「N3E」版本。
對于互聯(lián)網(wǎng)和 IT 設備大廠(chǎng)來(lái)說(shuō),自研的 AI 服務(wù)器芯片,必須找到足夠好的晶圓代工廠(chǎng)生產(chǎn),要想保持長(cháng)期、穩定發(fā)展,就必須對晶圓代工廠(chǎng)的制程工藝有足夠的了解。這方面,與谷歌、亞馬遜和微軟相比,蘋(píng)果具有先天優(yōu)勢,因為該智能設備巨頭是臺積電多年的第一大客戶(hù),雙方有深入了解,能夠更好地把握好芯片生產(chǎn)規模、良率、成本,可以實(shí)現無(wú)縫過(guò)渡。
芯片設計服務(wù)商機無(wú)限
如前文所述,互聯(lián)網(wǎng)大廠(chǎng)自研 AI 服務(wù)器芯片,由于研發(fā)難度很大,這些大廠(chǎng)短時(shí)間內又難以形成有足夠技術(shù)和經(jīng)驗積累的團隊,因此,選擇外包,找芯片設計服務(wù)合作伙伴就成為了不二選擇。
例如,谷歌開(kāi)發(fā)的兩種 Arm 服務(wù)器 CPU,其中一款代號為「Maple」,是基于 Marvell 的技術(shù)。
另外,谷歌自研的 TPU 用于取代英偉達的 GPU,谷歌設計的芯片藍圖,都由博通進(jìn)行物理實(shí)現。物理實(shí)現是將邏輯電路轉換為有物理連接的電路圖的過(guò)程,博通繪制好物理版圖后,再送到臺積電流片,流片成功后的芯片正式進(jìn)入制造環(huán)節,整個(gè)過(guò)程都需要博通深度參與。
數據中心中成百上千個(gè)高性能處理器共同運作,它們之間的通信就成為了大問(wèn)題,這也是當下數據中心性能損耗的主要來(lái)源。
博通是通信巨頭,最善于解決通信帶寬問(wèn)題,在全球 50GB/s 的 SerDes 市場(chǎng)中,博通占據了 76% 的份額,其 SerDes 接口通過(guò)將低速并行數據轉換為高速串行數據,然后在接收端轉換回并行數據。通過(guò)這樣的操作,數據可以從一個(gè) TPU 高速轉移到另一個(gè) TPU,大大提升了傳輸效率。
有了博通的幫助,谷歌自研芯片的項目進(jìn)展速度明顯加快了,TPU 從設計開(kāi)始,僅用 15 個(gè)月就部署進(jìn)了數據中心。
隨著(zhù)大模型市場(chǎng)競爭快速展開(kāi),谷歌大幅增加了 TPU 設計服務(wù)訂單,使博通一躍成為僅次于英偉達的 AI 芯片廠(chǎng)商,Semianalysis 預估,AI 芯片會(huì )在 2024 年給博通帶來(lái) 80 億~90 億美金的營(yíng)收。
不止谷歌,Meta、亞馬遜、微軟等大廠(chǎng)都在加大自研 AI 服務(wù)器芯片的投入力度,找芯片設計服務(wù)外包合作伙伴的需求只增不減,此時(shí),以博通、Marvell 為代表的芯片設計服務(wù)公司的商機會(huì )越來(lái)越多。
評論