圖形處理器GPU行業(yè)研究:破曉而生,踏浪前行
GPU:核心計算底座
GPU,指 Graphics Processing Unit,圖形處理器,進(jìn)行圖形和圖像相關(guān)運算工作的微 處理器。在該產(chǎn)品基礎上,衍生出 GPGPU,即 General Purpose Graphics Processing Unit,其在圖形處理器 GPU 的基礎上進(jìn)行改造,使之可以進(jìn)行部分科學(xué)計算和 AI 計算 等的處理器。GPU 概念自 20 世紀 70 年代末提出,其角色變換從最早分擔 CPU 壓 力的附屬硬件,到由于能承擔大規模運算而逐漸被人們重視。
摩爾定律放緩無(wú)法匹配爆發(fā)式算力需求,GPU 興起
歷史上,由于摩爾定律的存在,使得 CPU 處理器的性能可以滿(mǎn)足應用軟件不斷升級的 需求。但近幾年隨著(zhù)半導體技術(shù)改進(jìn)達到物理極限,電路復雜度逐漸提升。2016 年 3 月 24 日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來(lái)研發(fā)周期將從兩年周 期向三年期轉變。至此,摩爾定律對英特爾幾近失效。 隨著(zhù)互聯(lián)網(wǎng)用戶(hù)和各類(lèi)網(wǎng)絡(luò )應用的快速增長(cháng),數據體量的急劇膨脹,數據中心對計算的 需求也在迅猛上漲。諸如深度學(xué)習在線(xiàn)預測、直播中的視頻轉碼、圖片壓縮解壓縮以及 HTTPS 加密等各類(lèi)應用對計算的需求已遠遠超出了傳統 CPU 處理器的能力所及。 一方面處理器性能再無(wú)法按照摩爾定律進(jìn)行增長(cháng),另一方面數據增長(cháng)對計算性能要求超 過(guò)了按“摩爾定律”增長(cháng)的速度。CPU 處理器本身無(wú)法滿(mǎn)足計算性能需求,導致需求和 性能之間出現了缺口。解決方法是通過(guò)硬件加速,采用專(zhuān)用協(xié)處理器的異構計算方式來(lái) 提升處理性能,而 GPU 憑借其相對通用靈活和適應并行計算等特性成為主要選擇。
GPU 在并行運算層面具備一定優(yōu)勢
當前主要興起的計算芯片分別為 GPU、ASIC、FPGA 等,其中 GPU 最初專(zhuān)用于圖形 處理制作,后逐漸應用于計算。其內部包含大量的運算單元核心,盡管單個(gè)核心緩存較 小,邏輯功能簡(jiǎn)單,僅能執行有限類(lèi)型的邏輯運算操作,但其多核心架構天然適合執行 復雜的數學(xué)和幾何計算,且科學(xué)計算領(lǐng)域通用性較高,相比 CPU,綜合性能更好。當前 缺點(diǎn)在于功耗過(guò)高,效率不足。
GPU 是核心計算資源底座。雖然提供各類(lèi)計算資源的芯片種類(lèi)眾多,但 GPU 依然是市 場(chǎng)的最為主要的支撐點(diǎn)。以在 AI 市場(chǎng)的應用為例,IDC 研究發(fā)現,2021 年上半年中國 人工智能芯片中,GPU 依然是實(shí)現數據中心加速的首選,占有 90% 以上的市場(chǎng)份額, 而 ASIC、FPGA、NPU 等其他非 GPU 芯片也在各個(gè)行業(yè)和領(lǐng)域被越來(lái)越多地采用, 整體市場(chǎng)份額接近 10%。

歷史復盤(pán):當前 GPU 進(jìn)入高速發(fā)展期
前 GPU 時(shí)代,圖形處理器初具雛形:1981 年世界上第一臺個(gè)人電腦 IBM5150 由 IBM 公司發(fā)布,其搭配黑白顯示適配器與彩色圖形適配器,是最早的圖形顯示控制器。20 世 紀 80 年代初期,出現了以 GE 芯片為標志的圖形處理器,GE 芯片的具備四位向量的浮 點(diǎn)運算功能,可以實(shí)現圖形渲染過(guò)程中的矩陣,裁剪,投影等運算,其出現標志著(zhù)計算 機圖形學(xué)進(jìn)入以圖形處理器為主導的階段。后續隨著(zhù) GE 等圖形處理器功能不斷完善, 圖形處理功能逐漸由 CPU 向 GPU(前身)轉移。
GeForce 256 橫空出世,GPU 正式誕生:20 世紀 90 年代,NVIDIA 進(jìn)入個(gè)人電腦 3D 市場(chǎng),并于 1999 年推出具有標志意義的圖形處理器 GeForce 256,真正意義上的 GPU 第一次出現。相較過(guò)往圖形處理器,第二代 GPU GeForce 256 將 T&L 硬件(用于處理 圖形的整體角度旋轉與光暈陰影等三維效果)從 CPU 中分離出來(lái)并整合進(jìn) GPU 中,使 得 GPU 可以獨立進(jìn)行三維頂點(diǎn)的空間坐標變換,將 CPU 從繁重的光照計算中解脫出 來(lái)。即便是低端 CPU,搭配了支持硬件 T&L 的顯卡也可以流暢地玩游戲,這使得英偉 達在市場(chǎng)競爭中能以產(chǎn)品價(jià)格獲得較大優(yōu)勢,市占率持續提升。 頂點(diǎn)編程確立 GPU 編程思路:經(jīng)過(guò) 2000 年的顯卡廠(chǎng)商洗牌后,S3、SIS 等廠(chǎng)商無(wú)力 與英偉達和 ATI 競爭,逐漸淡出了顯卡市場(chǎng),擁有產(chǎn)品高速迭代能力的 ATI 成為繼 3Dfx 后唯一有實(shí)力和英偉達競爭的廠(chǎng)商。2002 年第三代 GPU 芯片陸續推出(如英偉達的 GeForce 4Ti 與 ATI 的 8500),其均具備頂點(diǎn)編程能力,可以通過(guò)賦予特定算法在工作 中改變三維模型的外形。頂點(diǎn)編程能力的出現確立了GPU芯片的編程思路,使后續GPU 芯片用于其他計算領(lǐng)域成為可能。但本時(shí)期 GPU 尚不支持像素級編程能力(片段編程 能力),其編程自由度尚不完備。
GPU 用于通用計算,GPGPU 概念出現:2003 年 SIGGRAPH 大會(huì )上首次提出將 GPU 運用于通用運算,為 GPGPU 的出現打下基礎。其后 3 年,通過(guò)用統一的流處理器取代 GPU 中原有的不同著(zhù)色單元的設計釋放了 GPU 的計算能力,第四代 GPU 均具有頂點(diǎn) 編程和片段編程能力,完全可編程的 GPU 正式誕生。由于 GPU 的并行處理能力強于 CPU,因此 GPU 可以在同一時(shí)間處理大量頂點(diǎn)數據,使其在人體 CT、地質(zhì)勘探、氣象 數據、流體力學(xué)等科學(xué)可視化計算處理上具備較大優(yōu)勢,足以滿(mǎn)足各項實(shí)時(shí)性任務(wù)。后 續伴隨線(xiàn)性代數、物理仿真和光線(xiàn)跟蹤等各類(lèi)算法向 GPU 芯片移植,GPU 由專(zhuān)用圖形 顯示向通用計算逐漸轉型。 架構持續迭代,AI 計算關(guān)注度漸起:2010 年英偉達發(fā)布了全新 GPU 架構 Fermi,其是 支持 CUDA 的第三代 GPU 架構(第一代與第二代分別是 G80 架構與 GT200 架構)。 彼時(shí)英偉達在 Fermi 架構的設計上并未對 AI 計算場(chǎng)景做特定設置,但 GPU 芯片在 AI 計算領(lǐng)域相較 CPU 芯片已擁有了較大優(yōu)勢(GTX580 峰值算力較 i7-920 峰值算力高出 一個(gè)數量級)。隨后在 2012、2014 年陸續發(fā)布的 Kepler 架構、Maxwell 架構中,盡管 英偉達并未在硬件層面對 AI 計算做特定優(yōu)化,但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡(luò )加 速庫 cuDNN v1.0,使英偉達 GPU 的 AI 計算性能與易用性得到提升。
Pascal 架構發(fā)布,AI 計算專(zhuān)精版本到來(lái):Pascal 架構在 2016 年 3 月被推出,是英偉 達面向 AI 計算場(chǎng)景發(fā)布的第一版架構。其硬件結構中加入了諸如 FP16(半精度浮點(diǎn)數 計算)、NVLink(總線(xiàn)通信協(xié)議,用于可用于單 CPU 配置多 GPU)、HBM(提升訪(fǎng)存 帶寬)、INT8 格式支持(支持推理場(chǎng)景)等技術(shù),而軟件層面也發(fā)布了面向推理加速場(chǎng) 景的 TensorRT 與開(kāi)源通信函數庫 NCCL,Pascal 架構在 AI 計算領(lǐng)域的前瞻性布局使 得英偉達后續架構在競爭中具有著(zhù)較大優(yōu)勢。 細分場(chǎng)景不斷追趕,GPU 迎來(lái)高速發(fā)展期:繼 Pascal 架構后,面對 Google TPU 在 AI 計算層面帶來(lái)的壓力,英偉達先后更新了 Volta(2017)、Turing(2018)、Ampere(2020) 架構。AI 計算領(lǐng)域的技術(shù)代差在 Volta 架構通過(guò)引入第一代 Tensor Core 在訓練場(chǎng)景進(jìn) 行了拉平,隨后 Turing 架構的第二代 Tensor Core 在推理場(chǎng)景上進(jìn)行了拉平,直到 Ampere 時(shí)代,NV 才算再次鞏固了自己在 AI 計算領(lǐng)域的龍頭地位。雙方激烈競爭下, GPU 迎來(lái)高速發(fā)展期。

多點(diǎn)開(kāi)花,GPU 市場(chǎng)高速成長(cháng)
我們認為,當前全社會(huì )對算力需求將長(cháng)期保持提升態(tài)勢,而 GPU 作為支撐眾多科技領(lǐng) 域發(fā)展的底層核心,是數據計算的核心底座,在商業(yè)計算、人工智能等諸多板塊均有著(zhù) 較為廣泛的使用,是科技行業(yè)的重要支撐。
GPU 的市場(chǎng)空間廣闊,正穩健增長(cháng)。依據 T4 的統計數據,2020 年全球 GPU 市場(chǎng)規模 價(jià)值 200 億美元,預計 2021 年將增長(cháng) 15%,從 2015 年到 2025 年平均每年增長(cháng) 13%, 從 80 億美元擴大到 350 億美元。而依據 Allied Market Research 預測,2019 年全球 GPU 市場(chǎng)規模為 197.5 億美元,預計到 2027 年將達到 2008.5 億美元,2020 年至 2027 年的復合年增長(cháng)率為 33.6%,對比來(lái)看 Allied Market Research 對 GPU 市場(chǎng)空 間更為樂(lè )觀(guān)。
從下游應用來(lái)看,GPU 需求仍在快速增長(cháng)期。游戲領(lǐng)域是 GPU 應用的傳統應用領(lǐng)域, 參考 GPU 全球龍頭英偉達的營(yíng)收數據,其游戲領(lǐng)域業(yè)務(wù)收入由 2019 年的 55.18 億元 增長(cháng)至 2021 年的 124.62 億元,近三年符合增長(cháng)率 31.20%,整體趨勢保持穩定增長(cháng), 為英偉達占比最高的業(yè)務(wù)。另一方面,伴隨人工智能算法的不斷普及和應用,以及對商 業(yè)計算和大數據處理的算力需求的不斷增長(cháng),全球范圍內數據中心對計算加速硬件的需 求不斷上升。英偉達數據中心業(yè)務(wù)收入由 2019 年的 29.83 億美元增長(cháng)至 2021 年的 106.13 億美元,近三年復合增長(cháng)率高達 52.66%,增速遠超其他板塊業(yè)務(wù)。NVIDIA 數 據中心業(yè)務(wù)收入的快速增長(cháng)體現了下游數據中心市場(chǎng)對于泛人工智能類(lèi)芯片(以 GPU 為主)的旺盛需求。

國內需求不斷涌現,計算類(lèi) GPU 市場(chǎng)高速增長(cháng)。依據前瞻產(chǎn)業(yè)研究院數據,2020 年預 計國內人工智能芯片市場(chǎng)規模約為 178 億元,且市場(chǎng)規模隨下游應用領(lǐng)域的拓展而高速 增長(cháng)。人工智能芯片由 GPU、ASIC、FPGA 與 NPU 構成,其中 GPU 以科學(xué)計算型為 主,其憑借著(zhù)在性能、能耗比與編程靈活性等領(lǐng)域的綜合優(yōu)勢,在人工智能芯片中占據主要地位。據 IDC 數據顯示,2021 年中國加速服務(wù)器市場(chǎng)中 GPU 約占人工智能芯片 的 88.4%,測算可得 2021 年計算型 GPU 市場(chǎng)規模約為 222 億元。
多方需求驅動(dòng) GPU 市場(chǎng)持續增長(cháng)。從載體層面分類(lèi),GPU 在 PC 端與服務(wù)器端均可搭 載,其中 PC 端多用于游戲影音娛樂(lè ),而服務(wù)器端則多用于科學(xué)計算。伴隨對海量數據 的處理需求逐漸增大,具備矩陣運算能力的 GPU 需求高速上行。同時(shí),受益于多核并 行計算的基礎架構,GPU 已在機器學(xué)習和自動(dòng)駕駛等領(lǐng)域有了較大規模的使用。
服務(wù)器層面,相對占比維度,據 IDC 數據顯示,2018 年全年中國 GPU 服務(wù)器市場(chǎng)規 模約為 13.05 億美金(約合人民幣 90.05 億元),同比增長(cháng) 131.2%。同時(shí) IDC 預測, 到 2023 年中國 GPU 服務(wù)器市場(chǎng)規模將達到 43.2 億美金(約合人民幣 298 億元),未 來(lái) 5 年整體市場(chǎng)年復合增長(cháng)率(CAGR)為 27.1%。GPU 服務(wù)器增速高于國內 X86 服 務(wù)器出貨量增速,當前國內服務(wù)器中 GPU 服務(wù)器占比迅速抬升。

全球格局:國際巨頭壟斷,國產(chǎn)廠(chǎng)商起步追趕
競爭格局:國際巨頭三強壟斷
全球 GPU 市場(chǎng)中,基本被 Nvidia、Intel 和 AMD 三家壟斷。據 JPR 統計,全球 PC GPU 在 2022 年 Q2 出貨量達到 8400 萬(wàn)臺,同比下降 34%,預計 2022-2026GPU 復 合增長(cháng)率為 3.8%,在未來(lái)五年內 dGPU 在 PC 中滲透率增長(cháng)至 30%。從市場(chǎng)格局來(lái)看, Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市場(chǎng)占有率分別為 18%、62%和 20%,Intel 憑借其集成顯卡在桌面端的優(yōu)勢占據最大的市場(chǎng)份額。
獨顯市場(chǎng)中,Nvidia 占據領(lǐng)先地位。不同于整體市場(chǎng),在獨顯市場(chǎng)中,Nvidia 與 AMD 雙雄壟斷市場(chǎng),其 2022 年 Q2 市占率分別約為 80%和 20%,可以看到近年來(lái) Nvidia 不 斷鞏固自己的優(yōu)勢,其獨立顯卡市占率整體呈現上升趨勢。
英偉達:GPU 王國締造者,AI 時(shí)代先行軍
英偉達是一家專(zhuān)注于 GPU 半導體設計的企業(yè)。公司成立于 1993 年,由黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng )立,1999 年英偉達推出 GeForce 256 芯片, 并首次定義了 GPU 的概念;隨后創(chuàng )新性的提出 CUDA 架構,讓此前只做 3D 渲染的 GPU 實(shí)現通用計算功能;進(jìn)入 2010 年代后,英偉達在 AI 行業(yè)發(fā)展初期市場(chǎng)皆不看好 的情況下,前瞻性預見(jiàn)了 GPU 在 AI 市場(chǎng)的應用并全力以赴開(kāi)展相關(guān)布局;當前,公司 以數據中心、游戲、汽車(chē)、專(zhuān)業(yè)視覺(jué)四大類(lèi)芯片為收入基礎,完成了硬件、系統軟件、 軟件平臺、應用框架全棧生態(tài)的建設。

追溯公司歷史,英偉達以技術(shù)創(chuàng )新為基,持續推動(dòng) GPU 行業(yè)的發(fā)展,可以稱(chēng)得上是 GPU 時(shí)代奠基人。我們認為,英偉達公司發(fā)展史可簡(jiǎn)單劃分為四個(gè)階段:
(1)蓄力階段:1993 年黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng )立 英偉達,早期致力于圖形芯片的研發(fā)。但當時(shí)市場(chǎng)上有 20 多家圖形芯片公司,三年后 這個(gè)數字飆升至 70 家,英偉達在其中并不突出。直到 1997 年英偉達決定放棄部分已 有的專(zhuān)利,轉而全面支持 Direct X(微軟標準),1997 年公司推出 RIVA 128,這是公 司第一款真正意義上取得成功的產(chǎn)品。
(2)崛起階段:1999 年公司推出 GeForce 256 并定義 GPU 芯片,這是世界上第一款 功能齊全,可從真正意義上替代 CPU 渲染圖形的芯片,并首次定義了 GPU 的概念,由 此英偉達走上了重塑顯卡行業(yè)的道路。2000 年,公司收購了顯卡先驅企業(yè) 3Dfx,再次 鞏固自身行業(yè)地位,在顯卡行業(yè)與 ATi 公司形成雙寡頭壟斷的格局。
(3)制霸階段:2006 年英偉達創(chuàng )新性推出 CUDA 架構。CUDA 全稱(chēng) Compute Unified Device Architecture,是英偉達基于自有 GPU 的一個(gè)并行計算平臺和編程模型。CUDA 帶來(lái)兩方面巨大影響,于 GPU 行業(yè)而言,CUDA 使得只做 3D 渲染的 GPU 得以實(shí)現 通用計算功能,GPU 的應用領(lǐng)域得以從游戲(圖形渲染)向外擴展至高性能計算、自 動(dòng)駕駛等多個(gè)領(lǐng)域;而對于英偉達公司本身來(lái)說(shuō),其在早期大力推廣 CUDA,并對 CUDA 進(jìn)行了編程語(yǔ)言擴展,如 CUDA C/C++,CUDA Fortran 語(yǔ)言等,使得開(kāi)發(fā)人員能夠輕易地對 GPU 進(jìn)行編程,目前 CUDA 是最主流的兩個(gè) GPU 編程庫之一,奠定了英偉達 GPU 生態(tài)得以成型的基礎。而在英偉達大力推廣統一平臺 CUDA、不斷進(jìn)行 GPU 架構 迭代的同時(shí),其最大的競爭對手 ATi 在被 AMD 收購后受其 CPU 業(yè)務(wù)拖累,發(fā)展受到限 制,英偉達在 GPU 領(lǐng)域的競爭地位在這一階段進(jìn)一步得到鞏固。

(4)騰飛階段:押注 AI,數據中心業(yè)務(wù)開(kāi)啟第二成長(cháng)曲線(xiàn)。2012 年 Alex Krizhevsky 利用 GPU 進(jìn)行深度學(xué)習,通過(guò)幾天訓練在 ImageNet 競賽中獲得冠軍,其將深度卷積 神經(jīng)網(wǎng)絡(luò ) AlexNet 的準確率提高了 10.8%,震撼了學(xué)術(shù)界,從此開(kāi)啟 GPU 應用于深度 學(xué)習的大門(mén),毫無(wú)意外,其使用的正是 NVIDIA GTX 580 GPU 芯片和 CUDA 計算模型。 此后,英偉達 GPU 和 CUDA 模型成為深度學(xué)習(尤其是訓練環(huán)節)的首選芯片,而英 偉達也順勢推出海量專(zhuān)用于 AI 的芯片及配套產(chǎn)品,從顯卡硬件公司華麗轉型成為人工 智能公司。在人工智能的推動(dòng)下,公司數據中心業(yè)務(wù) 2014~2022 財年復合增速達到 64.39%,其占收入比例也由 2014 年的不足 5%提升至 2022 財年的 40%。
而總覽英偉達歷史,即使公司在不同時(shí)期存在不同發(fā)展重點(diǎn),但貫穿始終的,是其卓越 的創(chuàng )新能力、強大的芯片設計能力和穩定的決策執行能力。事實(shí)上,英偉達平均每?jì)赡?推出一代芯片架構、每半年推出一款新的產(chǎn)品,多年以來(lái)堅持不輟,從 2009 年的 Fermi 架構到當前的 Hopper 架構,公司產(chǎn)品性能穩步提升,并始終引領(lǐng) GPU 芯片技術(shù)發(fā)展。
截至目前,英偉達 GPU 芯片已形成覆蓋數據中心、游戲、專(zhuān)業(yè)視覺(jué)和學(xué)術(shù)研究四大場(chǎng) 景的芯片產(chǎn)品陣列,其中消費級 GPU 和數據中心 GPU 是最核心場(chǎng)景。
與此同時(shí),在英偉達領(lǐng)跑 GPU 市場(chǎng)的過(guò)程中,生態(tài)的建設也是不可缺少的一環(huán)。具體 來(lái)看,我們認為英偉達生態(tài)的建立,主要應當歸功于以下兩方面原因: (1)通過(guò)統一的計算平臺 CUDA,構建開(kāi)發(fā)者生態(tài)。CUDA 的存在使得開(kāi)發(fā)者使用 GPU 進(jìn)行通用計算的難度大幅降低,使得開(kāi)發(fā)者可以相對簡(jiǎn)單有效地對英偉達 GPU 芯片進(jìn) 行編程。2006 年 CUDA 推出后,英偉達承擔巨大成本壓力,堅持使其成為所有 GPU 芯 片的統一計算平臺,而其競爭對手 AMD 經(jīng)過(guò)重重考慮選擇應用開(kāi)源計算框架 OpenCL, 其開(kāi)源屬性決定其在效率上落后于 CUDA。經(jīng)過(guò)多年培育,目前英偉達基于 CUDA 平 臺已培育近 180 萬(wàn)開(kāi)發(fā)者,2020 年新增超過(guò) 50 個(gè) SDK,GPU 開(kāi)發(fā)者生態(tài)正在蓬勃發(fā) 展。

毋庸置疑,CUDA 是迄今為止最發(fā)達、最廣泛的生態(tài)系統,也是深度學(xué)習庫最有力的支 持。隨著(zhù)人工智能領(lǐng)域的蓬勃發(fā)展,GPU 和 CUDA 被從業(yè)者視為標配,使用 GPU 做 加速計算已成為行業(yè)主流。雖然英偉達 GPU 本身硬件平臺的算力卓越,但其強大的 CUDA 軟件生態(tài)才是推升 GPU 計算生態(tài)普及的關(guān)鍵力量,其幫助英偉達成為 AI 產(chǎn)業(yè) 目前最大受益者,GPU 生態(tài)效應使得英偉達處于領(lǐng)先地位。
(2)與此同時(shí),英偉達自身也在不遺余力的進(jìn)行配套軟硬件研發(fā),持續豐富各類(lèi) GPU 應用場(chǎng)景。目前英偉達構建了四層技術(shù)棧:硬件、系統軟件、軟件平臺、應用框架,同 時(shí)針對不同場(chǎng)景(如醫療、智能機器人等)都有相關(guān)硬件和軟件平臺的開(kāi)發(fā),英偉達自 身就是 GPU 應用生態(tài)的核心開(kāi)發(fā)者。
AMD:兼具 CPU+GPU,卓越性能引領(lǐng)算力時(shí)代
AMD 是一家專(zhuān)門(mén)為計算機、通信和消費電子行業(yè)設計和制造各種創(chuàng )新的微處理器(CPU、 GPU、APU、主板芯片組、電視卡芯片等)、閃存和低功率處理器解決方案的公司。公 司成立于 1969 年,由曾工作于仙童半導體的銷(xiāo)售高管 Jerry Sanders 創(chuàng )立,成立之初 生產(chǎn)邏輯芯片,后定位為高性?xún)r(jià)比的第二供應商,與英特爾深度合作 X86 處理器,后英 特爾為鞏固自身優(yōu)勢斬斷合作關(guān)系,兩者競爭加劇。2006 年 7 月 24 日,AMD 正式收 購 ATI,成為一家同時(shí)擁有 CPU 和 GPU 生產(chǎn)技術(shù)的半導體公司,GPU 版圖由此展開(kāi)。 公司自成立以來(lái)收入波動(dòng)較大,近五年開(kāi)始實(shí)現持續高增。公司2021年營(yíng)業(yè)收入164.34 億元,同比大幅增長(cháng) 68.33%,2016-2021 年 CAGR 30.92%。公司營(yíng)業(yè)收入可分為數 據中心、客戶(hù)端、游戲和嵌入式解決方案業(yè)務(wù)收入,其中數據中心和游戲業(yè)務(wù)收入增速 最高,分別為 119.23%和 104.19%。
細究 AMD 的 GPU 發(fā)展史,可將其分為兩大階段。第一階段是收購前的 ATI 時(shí)代,隨 時(shí)代技術(shù)發(fā)展而進(jìn)步,不斷推出 Radeon 系列,憑借性能與英偉達直面對抗;第二階段 是收購后的 AMD 時(shí)代,憑借高性?xún)r(jià)比戰略在中端市場(chǎng)占據一席之地。

第一階段,被收購前的互相追趕。1985 年 ATI 由加拿大華人何國源與另外兩位華人 Lee Ka Lau, Benny Lau 一起創(chuàng )辦成立,主攻圖形顯示芯片的研發(fā)。1985-1995 年,PC 圖 形技術(shù)仍處于 2D 時(shí)代,ATI 看到了圖形技術(shù)發(fā)展迅速, 1987 年推出 EGA Wonder 顯 卡系列,在技術(shù)和功能上相比 IBM 同期圖形適配器都有很大提升,是可應用于市場(chǎng)上任 何一種圖形界面、軟件和顯示器的單卡,成為當時(shí) ATI 主要的零售產(chǎn)品。1995 年,隨 著(zhù) 3D 圖形顯示技術(shù)的發(fā)展,眾多圖形廠(chǎng)商都紛紛推出旗下的第一代 3D 顯示卡,例如 NVIDIA 的 NV1、Matrox 的 Mlennium 以及 Mystique、PowerVR 的 PCX1、S3 的 Virge3D 等等,ATI 也推出 3D Rage 進(jìn)軍 3D 市場(chǎng)。1999 年,英偉達推出 GeForce 256 重新定 義 GPU 芯片,并于 2000 年收購昔日王者 3Dfx 重塑行業(yè)格局,ATI 發(fā)布 Radeon 256 正式迎擊。2000-2006 年期間,ATI 于英偉達呈現雙寡頭壟斷格局, ATI 不斷提升自身 性能與英偉達直面競爭。但同時(shí),ATI 在產(chǎn)品的高成本投入加上市場(chǎng)的不良反應讓財務(wù) 狀況出現問(wèn)題,最終于 2006 年被 AMD 收購。
第二階段,有的放矢,憑借高性?xún)r(jià)比牢牢占據一席之地。根據 2022 年 5 月,德國 3Dcenter 網(wǎng)站對市場(chǎng)上主流 GPU 的測評數據來(lái)看,在 1080p 分辨率中,AMD Radeon RX 6950 XT 的性能指數是 2230%,性能得分最強,但售價(jià)僅為 1240-1400 歐元,性?xún)r(jià)比指數為 70%,大幅超過(guò) GeForce RTX 3090 Ti 的 41%。從整體來(lái)看,AMD 目前市場(chǎng)主流顯卡 的性?xún)r(jià)比得分超過(guò) 100%個(gè)數明顯超過(guò)英偉達,具有較強的性?xún)r(jià)比優(yōu)勢。
AMD 生態(tài)相對劣勢,但已推出 ROCm 生態(tài)。ROCm 是一個(gè)開(kāi)放式軟件平臺,為追求 高靈活性和高性能而構建,針對加速式計算且不限定編程語(yǔ)言,讓機器學(xué)習和高性能計 算社區的參與者能夠借助各種開(kāi)源計算語(yǔ)言、編譯器、庫和重新設計的工具來(lái)加快代碼 開(kāi)發(fā),適合大規模計算和支持多 GPU 計算,其創(chuàng )立目標是建立可替代 CUDA 的生態(tài)。

總量與份額雙擊,國產(chǎn)廠(chǎng)商迎來(lái)發(fā)展黃金期
中美摩擦不斷,國產(chǎn)替代緊迫性和重要性進(jìn)一步提升。2022 年 8 月 9 日,美國總統拜 登簽署《2022 年美國芯片與科學(xué)法案》,旨在為美國半導體的研究和生產(chǎn)提供約 520 億美元的政府補貼,來(lái)對抗中國及控制半導體產(chǎn)業(yè)鏈。8 月 31 日,英偉達發(fā)布公告,美 國政府對向中國和俄羅斯出口的 A100 和即將推出的 H100 芯片實(shí)施了新的許可要求。 據路透社消息,AMD MI250 芯片亦受到影響。高端 GPU 限制產(chǎn)品基本都是具備“64 位浮點(diǎn)數字”(FP64)雙精度算力的高性能顯卡,主要應用于 AI、數據分析和 HPC 應 用場(chǎng)景。此次受限雖然只針對高端 GPU 型號,但依然為我國廠(chǎng)商敲響了警鐘,國產(chǎn) GPU 落地有望加速推進(jìn)。
龐大的需求+逐漸成熟的產(chǎn)業(yè)預示著(zhù)廣闊的發(fā)展空間。在元宇宙、人工智能、云游戲、 自動(dòng)駕駛等新場(chǎng)景和需求爆發(fā)式增長(cháng)的背景下,我們判斷中國 GPU 市場(chǎng)將快速增長(cháng), 相比于 PC 市場(chǎng),新增市場(chǎng)空間或更大。相比于 PC 等傳統 IT 應用場(chǎng)景,中國在人工智 能、自動(dòng)駕駛領(lǐng)域與美國等強國處于同一競爭水平,且中國龐大市場(chǎng)有望為相應細分領(lǐng) 域帶來(lái)更快的成長(cháng)。另一方面,從國家安全角度,國產(chǎn) GPU 勢在必行,對于國產(chǎn) GPU 廠(chǎng)商而言是時(shí)代機遇。
國內廠(chǎng)商奮力追趕,迎來(lái)時(shí)代黃金機遇
部分優(yōu)質(zhì)國產(chǎn) GPU 企業(yè)已逐步展現出發(fā)展潛力。我國部分國產(chǎn)廠(chǎng)商經(jīng)歷了從特殊行業(yè) 到黨政市場(chǎng)的應用迭代升級,正逐步向民用等商業(yè)市場(chǎng)布局拓展,如景嘉微在經(jīng)過(guò) JM5 系列和 JM7 系列應用升級,當前 JM9 系列已完成流片、封裝階段工作及初步測試工作。 海光信息自 2018 年布局 GPU 行業(yè)以來(lái),產(chǎn)品迭代進(jìn)展迅速,2021 年首款 DCU 產(chǎn)品 深算一號便已實(shí)現規?;鲐?,同時(shí)深算二號的研發(fā)也保持順利。
壁仞科技
公司主營(yíng)業(yè)務(wù)為高端通用智能計算芯片。壁仞科技創(chuàng )立于 2019 年,公司致力于開(kāi)發(fā)原 創(chuàng )性的通用計算體系,建立高效的軟硬件平臺,同時(shí)在智能計算領(lǐng)域提供一體化的解決 方案。從發(fā)展路徑上,公司將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、 圖形渲染等多個(gè)領(lǐng)域趕超現有解決方案,實(shí)現國產(chǎn)高端通用智能計算芯片的突破。2022 年 3 月,公司首款通用 GPU 芯片 BR100 成功點(diǎn)亮,后于 2022 年 8 月正式發(fā)布,創(chuàng )下 全球算力的新紀錄。

公司的產(chǎn)品體系主要涵蓋 BR100 系列通用 GPU 芯片、BIRENSUPA 軟件開(kāi)發(fā)平臺以 及開(kāi)發(fā)者云三大板塊。其中,BR100 系列通用 GPU 芯片是公司的核心產(chǎn)品,目前主要 包括 BR100、BR104 兩款芯片。BR100 系列針對人工智能(AI)訓練、推理,及科學(xué) 計算等更廣泛的通用計算場(chǎng)景開(kāi)發(fā),主要部署在大型數據中心,依托“壁立仞”原創(chuàng )架 構,可提供高能效、高通用性的加速計算算力。
BR100 系列在性能、安全等方面具備多項核心優(yōu)勢。公司致力于打造性能先進(jìn)、競爭力 強的 GPU 芯片,并為此采取了大量技術(shù)措施,具體包括:支持 7nm 制程,并創(chuàng )新性應 用 Chiplet 與 2.5D CoWoS 封裝技術(shù),兼顧高良率與高性能;支持 PCIe 5.0 接口技術(shù) 與 CXL 通信協(xié)議,雙向帶寬最高達 128 GB/s 等。2022 年公司正式推出壁礪?100,其 峰值算力達到國際廠(chǎng)商在售旗艦的 3 倍以上,超越了國際廠(chǎng)商同類(lèi)的在售旗艦產(chǎn)品,競 爭優(yōu)勢十分顯著(zhù)。同時(shí),在安全方面,BR100 系列最高支持 8 個(gè)獨立實(shí)例,每個(gè)實(shí)例物 理隔離并配備獨立的硬件資源,可獨立運行。
摩爾線(xiàn)程
摩爾線(xiàn)程是一家以 GPU 芯片設計為主的集成電路高科技公司。公司誕生于 2020 年 10 月,專(zhuān)注于研發(fā)設計全功能 GPU 芯片及相關(guān)產(chǎn)品,支持 3D 高速圖形渲染、AI 訓練推 理加速、超高清視頻編解碼和高性能科學(xué)計算等多種組合工作負載,兼顧算力與算效, 為中國科技生態(tài)合作伙伴提供強大的計算加速能力。在“元計算”賦能下一代互聯(lián)網(wǎng)的 愿景下,公司將持續創(chuàng )新面向元計算應用的新一代 GPU,構建融合視覺(jué)計算、3D 圖形 計算、科學(xué)計算及 AI 計算的綜合計算平臺,建立基于云原生 GPU 計算的生態(tài)系統,助 力驅動(dòng)數字經(jīng)濟發(fā)展。 公司的產(chǎn)品體系主要包括:MTT S60、MTT S2000、MTT S100 等硬件產(chǎn)品;MT Smart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等軟件產(chǎn) 品;以及 MUSA 統一系統架構、DIGITALME 數字人解決方案、元計算應用解決方案等 其他產(chǎn)品。

MTT S60 具備先進(jìn)的硬件規格。MTT S60 顯卡由基于 MUSA 架構的 GPU 蘇堤核心晶 片制成,采用 12nm 制程,包含 2048 個(gè) MUSA 核心,單精度算力最高可達 6TFlops, 配置 8GB 顯存,基于 MUSA 軟件運行庫和驅動(dòng)程序等軟件工具。在先進(jìn)硬件規格的支 撐下,MTT S60 顯卡能夠在不同應用場(chǎng)景中展現多重優(yōu)勢:豐富圖形 API、4K/8K 超高 清顯示、領(lǐng)先的硬件視頻編解碼能力、通用 AI 功能支持等。
基于 MUSA 先進(jìn)架構,MTT S2000 致力于打造數據中心綠色多維算力。MTT S2000 采 用 12nm 制程,使用 4096 個(gè) MUSA 核心,最大配置 32GB 顯存,單精度算力最高可達 到 12TFlops,支持 H.264、H.265、AV1 多路高清視頻編解碼,以及廣泛的 AI 模型算 法加速。同時(shí),MTT S2000 還采用了被動(dòng)散熱、單槽設計,以滿(mǎn)足數據中心高密度 GPU 配置方式。截至目前,MTT S2000 已經(jīng)能夠兼容 X86、ARM 等 CPU 架構以及主流 Linux 操作系統發(fā)行版,并與浪潮、新華三、聯(lián)想、清華同方等多家服務(wù)器合作伙伴建立了合 作關(guān)系,產(chǎn)品生態(tài)持續完善。作為公司面向數據中心領(lǐng)域的 GPU 芯片,除了生態(tài)外, MTT S2000 還具備全功能 GPU、豐富的圖形 API 支持、綠色計算等優(yōu)勢?;诙嗑S算 力、生態(tài)完善等優(yōu)勢,MTT S2000 有望助力公司賦能 PC 云桌面、安卓云游戲、音視頻 云處理、云端 Unreal/Unity 應用渲染和 AI 推理計算等多類(lèi)應用場(chǎng)景。
海思昇騰
海思半導體成立于 2004 年,是全球領(lǐng)先的 Fabless 半導體與器件設計公司,旗下芯片 共有五大系列,分別是用于智能設備的麒麟系列;用于數據中心的鯤鵬系列服務(wù)器 CPU; 用于人工智能的場(chǎng)景 AI 芯片組昇騰系列 SoC;用于通信連接的芯片(基站芯片天罡、 終端芯片巴龍);以及其他專(zhuān)用芯片(視頻監控、機頂盒芯片、智能電視、運動(dòng)相機、 物聯(lián)網(wǎng)等芯片)。
海思半導體是華為全資子公司,核心管理團隊皆有深厚的華為背景。公司董事長(cháng)徐直軍 先生博士畢業(yè)于南京理工大學(xué),早在 1993 年就加入了華為,歷任華為無(wú)線(xiàn)產(chǎn)品線(xiàn)總裁、 戰略與 Marketing 總裁、產(chǎn)品與解決方案總裁、產(chǎn)品投資評審委員會(huì )主任、公司輪值 CEO、 戰略與發(fā)展委員會(huì )主任等。公司總經(jīng)理徐文偉先生 1991 年加入了華為,歷任華為國際 產(chǎn)品行銷(xiāo)及營(yíng)銷(xiāo)總裁、歐洲片區總裁、戰略與 Marketing 總裁、銷(xiāo)售與服務(wù)總裁、片區 聯(lián)席會(huì )議總裁、企業(yè)業(yè)務(wù) BG CEO、公司戰略 Marketing 總裁、IRB 主任、戰略研究院 院長(cháng)等。
公司針對人工智能領(lǐng)域應用場(chǎng)景,推出了昇騰系列芯片,主要產(chǎn)品有昇騰 310 與昇騰 910 兩款 NPU。昇騰 310 芯片于 2017 年發(fā)布,是一款高能效、靈活可編程的人工智能 處理器,芯片在典型配置下可以輸出 16TOPS@INT8, 8TOPS@FP16,功耗僅為 8W。 昇騰 310 芯片采用自研華為達芬奇架構,集成豐富的計算單元, 提高 AI 計算完備度和 效率,進(jìn)而擴展該芯片的適用性。芯片實(shí)現了全 AI 業(yè)務(wù)流程加速,大幅提高 AI 全系統的 性能,有效降低部署成本。 昇騰(HUAWEI Ascend) 910 于 2018 年推出,是業(yè)界算力最強的 AI 處理器,芯片基于 自研華為達芬奇架構 3D Cube 技術(shù),實(shí)現業(yè)界最佳 AI 性能與能效。芯片架構靈活伸縮, 支持云邊端全棧全場(chǎng)景應用。在算力方面,昇騰 910 完全達到設計規格,半精度(FP16) 算力達到 320 TFLOPS,整數精度(INT8)算力達到 640 TOPS,功耗 310W。

百度昆侖
昆侖芯科技是一家 AI 芯片公司,前身是百度智能芯片及架構部,在實(shí)際業(yè)務(wù)場(chǎng)景中深 耕 AI 加速領(lǐng)域已十余年,是一家在體系結構、芯片實(shí)現、軟件系統和場(chǎng)景應用均有深 厚積累的 AI 芯片企業(yè)。 昆侖芯科技研發(fā)實(shí)力雄厚,團隊成員擁有全球頂尖學(xué)術(shù)背景, 多數成員來(lái)自百度、高通、Marvell、Tesla 等行業(yè)頭部公司,并提出了 100%自研的、 面向通用人工智能計算的核心架構 XPU,研究成果也在 Hotchips、ISSCC 等國際頂級 學(xué)術(shù)會(huì )議中成功發(fā)表。
2011 年,為了深度學(xué)習運算的需要,百度開(kāi)始基于 FPGA 研發(fā) AI 加速器,并于同年開(kāi) 始使用 GPU。在過(guò)去幾年中,百度對 FPGA 和 GPU 都進(jìn)行了大規模部署。在大規模 AI 運算的實(shí)踐探索中,百度推出昆侖芯片。
昆侖芯科技的主要產(chǎn)品有昆侖一代芯片、二代芯片以及基于兩代芯片開(kāi)發(fā)的加速卡 K 系 列與 R 系列。昆侖第一代云端通用人工智能計算處理器發(fā)布于 2020 年,采用了公司十 年積累自研的 XPU-K 架構,芯片采用了 14nm 制程工藝,算力可以輸出 256 TOPS@INT8,64 TFLOPS@FP16,可用于云數據中心和智能邊緣,支持全 AI 算法, 落地已超過(guò)兩萬(wàn)片。

昆侖第二代云端通用人工智能計算處理器發(fā)布于 2021 年,采用通用性和性能顯著(zhù)提升 的 XPU-R 架構,制程工藝從 14nm 升級到 7nm,算力可以輸出 256 TOPS@INT8,128 TFLOPS@FP16。相比之下功能更加完備,支持硬件虛擬化,芯片間互聯(lián)和視頻編解碼。
第二代芯片的 XPU-R 架構使二代芯片性能比 1 代提升 2-3 倍,全品類(lèi)人工智能算法上 都達到了當前業(yè)界領(lǐng)先水平的 1.5-2 倍。第二代芯片支持硬件的虛擬化,可實(shí)現計算單 元和存儲單元的物理隔離,優(yōu)化了加速芯片的利用率。在保證延時(shí)和吞吐量的情況下支 持推理和訓練等混合工作負載。此外,二代芯片還支持高性能分布式 AI 系統、芯片間 K-Link 互聯(lián)支持訓練和推理中模型并行和數據并行策略的通訊要求。
評論