?GPU芯片新技術(shù)出現,中國廠(chǎng)商值得借鑒
11 月 6 日,在創(chuàng )業(yè)三年,即將進(jìn)入下一個(gè)三年之際,摩爾線(xiàn)程創(chuàng )始人兼 CEO 張建中給公司全體員工發(fā)了一封信。信中提到了很多關(guān)于過(guò)去三年研發(fā)工作的總結,以及未來(lái)發(fā)展規劃的內容,不過(guò),這封信的核心內容是:摩爾線(xiàn)程將進(jìn)行一次崗位優(yōu)化,也就是裁員。
本文引用地址:http://dyxdggzs.com/article/202311/452786.htm對于這家中國本土新崛起的 GPU 芯片設計公司來(lái)說(shuō),最近幾年的形勢,使得擺在他面前的機遇和挑戰都顯得很凸出。
不僅摩爾線(xiàn)程,壁仞科技和沐曦集成電路也是近幾年中國本土表現非常凸出的 GPU 芯片創(chuàng )業(yè)公司,再加上老牌的景嘉微,以及其它幾家相關(guān)企業(yè),把中國本土 GPU 技術(shù)和芯片產(chǎn)品市場(chǎng)熱度推向了一個(gè)新高度,在主動(dòng)與被動(dòng)之間,取得了明顯多于、快于 2018 年之前的成績(jì)。
然而,在市場(chǎng)和美國政策的雙重壓力下,特別是近期美國政府將壁仞科技和摩爾線(xiàn)程列入了實(shí)體清單,使得它們設計出的芯片難以拿到先進(jìn)制程產(chǎn)能,再加上市場(chǎng)寒冬,以及在生態(tài)系統方面與英偉達的巨大差距,生存和發(fā)展愈加艱難,裁員難以避免。
GPU 及生態(tài)系統建設
1999 年 10 月,英偉達發(fā)布了 GeForce 256,這是一款基于臺積電 220nm 制程工藝、集成了 2300 萬(wàn)個(gè)晶體管的圖形處理芯片。英偉達把 Graphics Processing Unit 的首字母「GPU「提煉出來(lái),把 GeForce 256 冠以「世界上第一塊 GPU」稱(chēng)號,巧妙地定義了 GPU 這個(gè)新品類(lèi),并占據這個(gè)詞的用戶(hù)心智直到今天。憑借先發(fā)優(yōu)勢,不僅在芯片端,英偉達在 GPU 生態(tài)系統建設方面也是統治者,直到今天,也沒(méi)有哪家廠(chǎng)商能夠動(dòng)搖它的根基。
GPU 原本是為圖像而生的,它把 CPU 從圖像顯示的苦力活中解放了出來(lái),大量的流水線(xiàn)架構,使得 GPU 非常適合巨量、重復性的工作,自從 GPU 大規模應用以后,CPU 就擺脫了這些原本由它負責的頭疼工作,轉而去做更擅長(cháng)的指令判斷和控制類(lèi)的「大腦「型工作。
在發(fā)展的很長(cháng)一段時(shí)間內,由 GPU 組成的顯卡主要用于大型游戲、CAD 制圖和視頻剪輯等圖像處理工作,后來(lái),隨著(zhù)應用和技術(shù)的發(fā)展,GPU 又滲透到自動(dòng)駕駛、醫療影像、金融模型、生物信息等多個(gè)領(lǐng)域。如今,GPU 是人工智能(AI),特別是 AI 訓練應用領(lǐng)域的明星,火遍全球。
發(fā)展了這么多年,GPU 芯片賽道高度壟斷,全球 90% 的市場(chǎng)被少數幾家大企業(yè)占領(lǐng),在集顯市場(chǎng),英特爾和 AMD 平分天下,在獨顯賽道,AMD、英偉達二八分成;在 GPGPU(主要用于 AI 等高性能計算)市場(chǎng),英偉達的市占率高達 90% 以上。
生態(tài)系統方面,2006 年,英偉達推出了并行計算平臺和編程模型 CUDA,它讓 GPU 擁有了解決復雜計算問(wèn)題的能力,開(kāi)發(fā)者們可以通過(guò) CUDA 平臺,更方便地調度底層的 GPU 算力。當前,CUDA 擁有 400 多萬(wàn)開(kāi)發(fā)者,大部分 GPU 和 AI 芯片創(chuàng )業(yè)公司的產(chǎn)品也都通過(guò)兼容 CUDA 來(lái)進(jìn)入用戶(hù)端。
為了追趕英偉達,英特爾于 2022 年發(fā)布了全新架構的第一款獨立顯卡,擁有超過(guò)一萬(wàn)名軟件工程師的英特爾,在顯卡發(fā)布后的一年里,其顯卡驅動(dòng)更新了 21 次,平均半年更新 10 版。
為了與 CUDA 競爭,AMD 于 2016 年推出了開(kāi)放的 ROCm 平臺,不過(guò),從目前的發(fā)展情況來(lái)看,ROCm 的市場(chǎng)接受度和應用規模依然與 CUDA 有非常大的差距。
中國 GPU 的發(fā)展近況
近些年,中國 GPU 取得了一些突破。
2019-2020 年,中國本土出現了 GPU、AI 芯片創(chuàng )業(yè)熱潮,壁仞科技、摩爾線(xiàn)程、燧原科技、沐曦集成電路、天數智芯等一批明星企業(yè)涌現出來(lái),相關(guān) GPU 芯片新品不斷。
2022 年 3 月,摩爾線(xiàn)程公布了首批顯卡產(chǎn)品,包括面向電腦和工作站的 MTT S60,以及面向服務(wù)器的 MTT S2000。兩張顯卡都采用了第一代 MUSA 架構(Moore Threads Unified System Architecture,中文名為「蘇堤」)。2022 年 11 月,該公司公布了第二批產(chǎn)品,包括面向電腦和工作站的顯卡 MTT S80,以及面向服務(wù)器的 MTT S3000,這兩款產(chǎn)品采用了新一代 MUSA 架構「春曉」,并使用了 PCIe Gen5 插槽。
壁仞科技的高光時(shí)刻,是在 2022 年 8 月發(fā)布了首款 GPGPU 芯片 BR100,并宣布該產(chǎn)品從 800 多個(gè)參選項目中脫穎而出,榮膺當年世界人工智能大會(huì )最高獎項 SAIL 獎。據悉,BR100 峰值算力達到國際廠(chǎng)商在售旗艦產(chǎn)品 3 倍以上,創(chuàng )下國內互連帶寬紀錄,還是國內率先采用 Chiplet 技術(shù)、率先采用 PCIe 5.0、率先支持 CXL 互連協(xié)議的 GPGPU 芯片。
今年 6 月,沐曦集成電路宣布完成 AI 訓練 GPU MXC500 的功能測算工作,同時(shí),MXMACA 2.0 計算平臺基礎測試完成。
據悉,MXC500 是沐曦對標英偉達 A100/A800 的芯片,目標算力為 FP32 15 TFLOPS(A100 為 FP32 19.5 TFLOPS),兼容 CUDA,預計今年底規模出貨。
以上這些廠(chǎng)商推出的產(chǎn)品,目標都是要奪取英偉達和 AMD 在中國本土的市場(chǎng)份額。然而,英偉達經(jīng)歷了 30 年的持續積累,才取得今天的成績(jì),中國本土 GPU 廠(chǎng)商不可能在 5 年左右的時(shí)間內研發(fā)出具有同樣水平和市場(chǎng)影響力的產(chǎn)品。不過(guò),如果中國 GPU 芯片能達到英偉達 H100 芯片性能的 70%,也是很有意義的。接下來(lái)的重點(diǎn)工作就是本土 GPU 生態(tài)系統建設。
中國 GPU 生態(tài)系統建設
比提升芯片性能更難的,是構建生態(tài)系統。英偉達不僅強在芯片硬件,更強在其軟件生態(tài) CUDA,其 GPU+CUDA,就像英特爾和微軟構建的 Wintel,后來(lái)者要想再創(chuàng )建一整套軟硬件系統的成本非常高,而且非常難,不僅僅是錢(qián)的問(wèn)題。假設投入和英偉達相當的人才和資源,以 3 倍的發(fā)展速度追趕,至少需要 10 年時(shí)間才能接近英偉達的水平。
以摩爾線(xiàn)程為例,理論上講,無(wú)論是 GPGPU,還是桌面級應用,該公司的產(chǎn)品性能已經(jīng)達到了英偉達中端產(chǎn)品水準,但實(shí)際表現并非如此。以 MTT S80 為例,從游戲愛(ài)好者的測試結果來(lái)看,其早期實(shí)際性能接近 GTX1050Ti,今年更新驅動(dòng)后,性能可以媲美 GTX1650,能流暢運行英雄聯(lián)盟等網(wǎng)游,也可以跑 4K 游戲,但與 RTX3060 相比,依然有很大差距。
MTT S80 強勁的硬件卻難以發(fā)揮理論性能,關(guān)鍵問(wèn)題就是軟件適配,摩爾線(xiàn)程差的就是底層技術(shù)和驅動(dòng)經(jīng)驗的積累。據悉,MUSA 架構源于 IMG 的 PowerVR,這也從一個(gè)側面體現出該公司在 GPU IP 方面缺乏核心技術(shù)。
通過(guò)購買(mǎi) IP 研發(fā) GPU 是中國本土大多數廠(chǎng)商的選擇,包括芯動(dòng)、壁仞科技等企業(yè)都是如此。該模式能夠以最小代價(jià)設計出商用產(chǎn)品,但是,芯片生產(chǎn)出來(lái)以后,軟硬件打磨就要考驗廠(chǎng)家的技術(shù)實(shí)力了,而這些軟實(shí)力是沒(méi)有地方購買(mǎi)的。
中國老牌 GPU 芯片企業(yè)景嘉微曾表示,做 GPU,三分靠硬件,七分靠軟件。英偉達在初期的產(chǎn)品性能也不好,還一度被 ATI 壓制,后期的成功除了全新架構的助攻,驅動(dòng)的打磨功不可沒(méi)。
中國本土這些 GPU 芯片新星大多都想兼容英偉達的 CUDA,但是,在驅動(dòng)軟件的適配上還差強人意,例如,早期的 MTT S80 只支持 DX9 游戲,雖然現在歷經(jīng) 9 次版本驅動(dòng)更新后,能支持更高的 DX11 游戲,但是其性能表現遠未達到硬件實(shí)際水平。
正是看到了差距,中國本土 GPU 廠(chǎng)商一直在生態(tài)系統建設方面增加投入。例如,今年,弘信電子與摩爾線(xiàn)程和燧原科技分別簽署了《戰略合作框架協(xié)議》,以打造人工智能軟硬件基礎設施。
目前,摩爾線(xiàn)程已經(jīng)將大部分資源分配給軟件,占比達到 70%,重點(diǎn)關(guān)注元宇宙和 AI。沐曦已與服務(wù)器 OEM、大數據中心、互聯(lián)網(wǎng)、運營(yíng)商等行業(yè)客戶(hù)建立了合作關(guān)系,并與眾多知名高校和研究機構開(kāi)展產(chǎn)學(xué)研合作,快速推進(jìn)產(chǎn)業(yè)上下游生態(tài)系統建設。
GPU 的新動(dòng)向
全球范圍內,在已有基礎上,GPU 技術(shù)及其生態(tài)依然在向前發(fā)展,目前來(lái)看,有兩點(diǎn)很值得關(guān)注:一是 GPU 與 CPU 的融合,二是 RISC-V 的融入。
GPU 比 CPU 簡(jiǎn)單得多;它可以更快地執行簡(jiǎn)單的指令,執行是并行進(jìn)行的,這也是 GPU 與 CPU 的最大不同之處。然而,并非所有軟件都可以輕松地并行化執行。CUDA 生態(tài)系統旨在提供工具來(lái)構建可以利用 GPU 進(jìn)行并行計算的軟件應用程序,但是,大多數軟件應用程序仍然需要 CPU 才能運行。
基于 CPU 的應用程序不僅更容易開(kāi)發(fā),而且大多已經(jīng)構建完成。很難想象哪些公司會(huì )花費時(shí)間和精力將已經(jīng)在 CPU 上運行的東西移植到 GPU 上。
目前,AMD、英特爾和英偉達都在 CPU-GPU 融合技術(shù)方面下重注。
2023 上半年,AMD 首席技術(shù)官 Mark Papermaster 表示,該公司將在 2024 年推出 CPU-GPU 芯片,它將基于第 4 代 Epyc 架構的 CPU 內核與基于新一代 CDNA 3 架構的 GPU 結合在一起,也就是 AMD 近些年一直在宣傳的 APU 概念。
英特爾的 CPU-GPU 芯片 Falcon Shores 具有 x86 CPU 內核和 Xe GPU 內核,成熟產(chǎn)品將在 2025 年量產(chǎn)。
下面看一下 RISC-V 與 GPU 的融合。
最近,Ventana Micro Systems 與 Imagination Technologies 合作推出了基于 RISC-V 的 CPU-GPU 平臺。
Ventana 計劃推出一個(gè)仿真模型,展示其基于 RISV-C 的 CPU 如何與 Imagination 開(kāi)發(fā)的 GPU 協(xié)同工作。這次演示將結合 Ventana 的新 CPU 產(chǎn)品 Veyron V2。據悉,V2 將對 RISC-V 指令集架構進(jìn)行增強,使其能與 x86 和 Arm 同臺競技。
目前來(lái)看,Imagination 與 Ventana 的合作項目距離產(chǎn)品量產(chǎn)和規?;瘧眠€有較大距離,但是,RISC-V CPU 和 GPU IP 融合的可用性,可能會(huì )帶來(lái)針對不同客戶(hù)端應用的新一波 RISC-V 平臺開(kāi)發(fā)熱潮。
從目前的市場(chǎng)和應用需求來(lái)看,RISC-V 與 GPU 的結合是有基礎的。
在一些垂直市場(chǎng),例如 5G/6G 通信、AI 推理和視頻處理等,傳統 CPU 已經(jīng)無(wú)法滿(mǎn)足這些應用的計算量需求,需要新計算方法的出現。對于圖像處理來(lái)說(shuō),內存訪(fǎng)問(wèn)瓶頸問(wèn)題已經(jīng)非常凸出,需要新的解決方案,甚至是新的計算架構,看看市場(chǎng)上最近發(fā)布的一些人工智能和 RISC-V 產(chǎn)品,會(huì )發(fā)現一些公司發(fā)布的處理器里面有新的 ISA,它們已經(jīng)開(kāi)始將 RISC-V 和 GPU IP 融合使用了。
通過(guò)指令擴展將 GPU 功能添加到 RISC-V 架構中很有創(chuàng )意,然而,二者融合這條路并不好走,最大的攔路虎就是架構融合,以及生態(tài)系統建設,需要的時(shí)間可能很長(cháng)。要將 RISC-V 指令集改編成非常適合 GPU 任務(wù)的指令集,需要大量投資來(lái)定義 ISA 擴展,構建高度復雜的微架構,并對開(kāi)源工具進(jìn)行重大調整。如果將 RISC-V 指令集融入 GPU 架構,幾乎所有 RISC-V 的固有優(yōu)勢都將被定制化稀釋掉,另外,RISC-V 核心 ISA 功能會(huì )限制 GPU 在特定領(lǐng)域的可用性。
雖然,有諸多挑戰,但鑒于 RISC-V 迅猛的發(fā)展勢頭,以及其在高性能計算領(lǐng)域的滲透決心,與同樣在高性能計算應用領(lǐng)域如魚(yú)得水的 GPU 融合,前景還是很值得期待的。
不僅是國際巨頭,中國本土 GPU 廠(chǎng)商,特別是更具前瞻性的幾家創(chuàng )業(yè)公司,在發(fā)展 GPU 方面也需要研發(fā)更具競爭力的技術(shù)和產(chǎn)品,而在當下美國政府推出各種限制政策的大環(huán)境下,中國本土 GPU 芯片技術(shù)和生態(tài)系統建設可以拓展更多思路,將更多先進(jìn)的技術(shù)和理念融入相關(guān)產(chǎn)品。在本土企業(yè)客戶(hù)給出更多采用和試錯空間的情況下,中國芯片企業(yè)或許可以加快追趕國際先進(jìn) GPU 的步伐。
評論