AI芯片的未來(lái),未必是GPU
在人工智能計算架構的布局中,CPU與加速芯片協(xié)同工作的模式已成為一種典型的AI部署方案。CPU扮演基礎算力的提供者角色,而加速芯片則負責提升計算性能,助力算法高效執行。常見(jiàn)的AI加速芯片按其技術(shù)路徑,可劃分為GPU、FPGA和ASIC三大類(lèi)別。在這場(chǎng)競爭中,GPU憑借其獨特的優(yōu)勢成為主流的AI芯片。那么,GPU是如何在眾多選項中脫穎而出的呢?展望AI的未來(lái),GPU是否仍是唯一解呢? 01GPU如何制勝當下?
AI與GPU之間存在著(zhù)密切的關(guān)系。強大的并行計算能力AI大模型指的是規模龐大的深度學(xué)習模型,它們需要處理海量的數據和進(jìn)行復雜的計算。GPU的核心優(yōu)勢就在于其強大的并行計算能力。與傳統的CPU相比,GPU能夠同時(shí)處理多個(gè)任務(wù),特別適合處理大規模數據集和復雜計算任務(wù)。在深度學(xué)習等需要大量并行計算的領(lǐng)域,GPU展現出了無(wú)可比擬的優(yōu)勢。完善的生態(tài)系統其次,為了便于開(kāi)發(fā)者充分利用GPU的計算能力,各大廠(chǎng)商提供了豐富的軟件庫、框架和工具。例如,英偉達的CUDA平臺就為開(kāi)發(fā)者提供了豐富的工具和庫,使得AI應用的開(kāi)發(fā)和部署變得相對容易。這使得GPU在需要快速迭代和適應新算法的場(chǎng)景中更具競爭力。通用性好GPU最初是用于圖形渲染的,但隨著(zhù)時(shí)間的推移,它的應用領(lǐng)域逐漸擴大。如今,GPU不僅在圖形處理中發(fā)揮著(zhù)核心作用,還廣泛應用于深度學(xué)習、大數據分析等領(lǐng)域。這種通用性使得GPU能夠滿(mǎn)足多種應用需求,而ASIC和FPGA等專(zhuān)用芯片則局限于特定場(chǎng)景。有人將GPU比作一把通用的多功能廚具,適用于各種烹飪需求。因此在A(yíng)I應用的大多數情況下,GPU都被視為最佳選擇。相應的,功能多而廣的同時(shí)往往伴隨著(zhù)特定領(lǐng)域不夠“精細”,接下來(lái)看一下,相較其他類(lèi)型的加速芯片,GPU需要面臨哪些掣肘? 02GPU也存在它的掣肘
文首提到,常見(jiàn)的AI加速芯片根據其技術(shù)路徑,可以劃分為GPU、FPGA和ASIC三大類(lèi)別。FPGA(Field Programmable Gate Array,現場(chǎng)可編程門(mén)陣列),是一種半定制芯片。用戶(hù)可以根據自身的需求進(jìn)行重復編程。FPGA 的優(yōu)點(diǎn)是既解決了定制電路的不足,又克服了原有可編程器件門(mén)電路數有限的缺點(diǎn),對芯片硬件層可以靈活編譯,功耗小于 CPU、GPU;缺點(diǎn)是硬件編程語(yǔ)言較難,開(kāi)發(fā)門(mén)檻較高,芯片成本、價(jià)格較高。FPGA 比 GPU、CPU 更快是因為其具有定制化的結構。ASIC(Application Specific Integrated Circuit特定用途集成電路)根據產(chǎn)品的需求進(jìn)行特定設計和制造的集成電路,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于GPU、FPGA,但初始投入大,專(zhuān)業(yè)性強縮減了其通用性,算法一旦改變,計算能力會(huì )大幅下降,需要重新定制。再看GPU相較于這兩類(lèi)芯片存在哪些劣勢。第一點(diǎn),GPU的單位成本理論性能低于FPGA、ASIC。從成本角度看,GPU、FPGA、ASIC 三種硬件從左到右,從軟件到硬件,通用性逐漸降低、越專(zhuān)用,可定制化逐漸提高,相應的設計、開(kāi)發(fā)成本逐漸提高,但是單位成本理論性能越高。舉個(gè)例子,對于還在實(shí)驗室階段的經(jīng)典算法或深度學(xué)習算法,使用GPU 做軟件方面的探索就很合適;對于已經(jīng)逐漸成為標準的技術(shù),適合使用 FPGA 做硬件加速部署;對于已經(jīng)成為標準的計算任務(wù),則直接推出專(zhuān)用芯片ASIC。從公司的角度來(lái)說(shuō),同樣對于大批量數據的計算任務(wù),同等內存大小、同等算力的成熟 GPU 和 FPGA 的部署成本相近。 如果公司的業(yè)務(wù)邏輯經(jīng)常變化,比如1-2年就要變化一次,那么GPU 的開(kāi)發(fā)成本低、部署速度快;如果公司業(yè)務(wù)5年左右才變化一次,FPGA 開(kāi)發(fā)成本雖高、但芯片本身的成本相比 GPU 低很多。第二點(diǎn),GPU的運算速度要遜色于FPGA和ASIC。FPGA、ASIC和GPU內都有大量的計算單元,因此它們的計算能力都很強。在進(jìn)行神經(jīng)網(wǎng)絡(luò )運算的時(shí)候,三者的速度會(huì )比CPU快很多。但是GPU由于架構固定,硬件原生支持的指令也就固定了,而FPGA和ASIC則是可編程的,其可編程性是關(guān)鍵,因為它讓軟件與終端應用公司能夠提供與其競爭對手不同的解決方案,并且能夠靈活地針對自己所用的算法修改電路。因此在很多場(chǎng)景的應用中,FPGA和ASIC的運算速度要大大優(yōu)于GPU。具體到場(chǎng)景應用,GPU 浮點(diǎn)運算能力很強,適合高精度的神經(jīng)網(wǎng)絡(luò )計算;FPGA 并不擅長(cháng)浮點(diǎn)運算,但是對于網(wǎng)絡(luò )數據包、視頻流可以做到很強的流水線(xiàn)處理;ASIC 則根據成本有幾乎無(wú)限的算力,取決于硬件設計者。第三點(diǎn),GPU的功耗遠遠大于FPGA和ASIC。再看功耗。GPU的功耗,是出了名的高,單片可以達到250W,甚至450W(RTX4090)。而FPGA一般只有30~50W。這主要是因為內存讀取。GPU的內存接口(GDDR5、HBM、HBM2)帶寬極高,大約是FPGA傳統DDR接口的4-5倍。但就芯片本身來(lái)說(shuō),讀取DRAM所消耗的能量,是SRAM的100倍以上。GPU頻繁讀取DRAM的處理,產(chǎn)生了極高的功耗。另外,FPGA的工作主頻(500MHz以下)比CPU、GPU(1~3GHz)低,也會(huì )使得自身功耗更低。再看ASIC,ASIC的性能和功耗優(yōu)化是針對特定應用進(jìn)行的,因此在特定任務(wù)上性能更高、功耗更低。由于設計是針對特定功能的,ASIC在執行效率和能效比方面通常優(yōu)于FPGA。舉個(gè)例子,在智能駕駛這樣的領(lǐng)域,環(huán)境感知、物體識別等深度學(xué)習應用要求計算響應方面必須更快的同時(shí),功耗也不能過(guò)高,否則就會(huì )對智能汽車(chē)的續航里程造成較大影響。第四點(diǎn),GPU時(shí)延高于FPGA、ASIC。FPGA相對于GPU具有更低的延遲。GPU通常需要將不同的訓練樣本,劃分成固定大小的“Batch(批次)”,為了最大化達到并行性,需要將數個(gè)Batch都集齊,再統一進(jìn)行處理。FPGA的架構,是無(wú)批次的。每處理完成一個(gè)數據包,就能馬上輸出,時(shí)延更有優(yōu)勢。ASIC也是實(shí)現極低延遲的另一種技術(shù)。在針對特定任務(wù)進(jìn)行優(yōu)化后,ASIC通常能夠實(shí)現比FPGA更低的延遲,因為它可以消除FPGA中可能存在的額外編程和配置開(kāi)銷(xiāo)。既如此,為什么GPU還會(huì )成為現下AI計算的大熱門(mén)呢?在當前的市場(chǎng)環(huán)境下,由于各大廠(chǎng)商對于成本和功耗的要求尚未達到嚴苛的程度,加之英偉達在GPU領(lǐng)域的長(cháng)期投入和積累,使得GPU成為了當前最適合大模型應用的硬件產(chǎn)品。盡管FPGA和ASIC在理論上具有潛在的優(yōu)勢,但它們的開(kāi)發(fā)過(guò)程相對復雜,目前在實(shí)際應用中仍面臨諸多挑戰,難以廣泛普及。因此,眾多廠(chǎng)商紛紛選擇GPU作為解決方案,這也導致了第五點(diǎn)潛在問(wèn)題的浮現。第五點(diǎn),高端GPU的產(chǎn)能問(wèn)題也令人焦慮。OpenAI 首席科學(xué)家 IlyaSutskever?表示,GPU 就是新時(shí)代的比特幣。在算力激增的背景下,英偉達的B系列和H系列 GPU 成為“硬通貨”。然而,雖然該系列需求十分旺盛,但考慮到HBM和CoWos供需緊張,以及臺積電先進(jìn)產(chǎn)能吃緊的情況,GPU產(chǎn)能實(shí)在無(wú)法跟得上需求。要知道“巧婦難為無(wú)米之炊”,在這種形勢下,科技巨頭們需要更加靈活地應對市場(chǎng)變化,囤積更多的GPU產(chǎn)品或者尋找替代方案。如今已經(jīng)有不少廠(chǎng)商開(kāi)始另辟蹊徑,在GPU之外的道路上探索并研發(fā)更為專(zhuān)業(yè)化、精細化的計算設備和解決方案。那么未來(lái)的AI加速芯片又將如何發(fā)展?
03科技巨頭另辟蹊徑
在當下這個(gè)科技發(fā)展極快、算法以月為單位更迭的大數據時(shí)代,GPU 確實(shí)適合更多人;但是一旦未來(lái)的商業(yè)需求固定下來(lái),FPGA 甚至 ASIC 則會(huì )成為更好的底層計算設備。各芯片龍頭和科技龍頭也早已開(kāi)始研發(fā)生產(chǎn)專(zhuān)用于深度學(xué)習、DNN 的運算芯片或基于 FPGA 架構的半定制芯片,代表產(chǎn)品有 Google 研發(fā)的張量計算處理器 TPU、 Intel 旗下的 Altera Stratix V FPGA等。Google押注定制化的 ASIC 芯片:TPUGoogle 早在 2013 年就秘密研發(fā)專(zhuān)注 AI機器學(xué)習算法芯片,并用于云計算數據中心,取代英偉達 GPU。這款TPU自研芯片2016年公開(kāi),為深度學(xué)習模型執行大規模矩陣運算,如自然語(yǔ)言處理、計算機視覺(jué)和推薦系統模型。Google 其實(shí)在 2020 年的資料中心便建構 AI 芯片 TPU v4,直到 2023 年 4 月才首次公開(kāi)細節。值得注意的是TPU是一種定制化的 ASIC 芯片,它由谷歌從頭設計,并專(zhuān)門(mén)用于機器學(xué)習工作負載。2023年12月6日,谷歌官宣了全新的多模態(tài)大模型Gemini,包含了三個(gè)版本,根據谷歌的基準測試結果,其中的Gemini Ultra版本在許多測試中都表現出了“最先進(jìn)的性能”,甚至在大部分測試中完全擊敗了OpenAI的GPT-4。而在Gemini出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強大的TPU。根據官方提供的數據,每個(gè)TPU v5p pod在三維環(huán)形拓撲結構中,通過(guò)最高帶寬的芯片間互聯(lián)(ICI),以4800 Gbps/chip的速度將8960個(gè)芯片組合在一起,與TPU v4相比,TPU v5p的FLOPS和高帶寬內存(HBM)分別提高了2倍和3倍。隨后在今年5月,谷歌又宣布了第六代數據中心 AI 芯片 Tensor 處理器單元--Trillium,并表示將于今年晚些時(shí)候推出交付。谷歌表示,第六代Trillium芯片的計算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。這款芯片旨在為從大模型中生成文本和其他內容的技術(shù)提供動(dòng)力。谷歌還表示,第六代Trillium芯片將在今年年底可供其云客戶(hù)使用。據悉,英偉達在A(yíng)I芯片市場(chǎng)的市占高達80%左右,其余20%的絕大部分由各種版本的谷歌TPU所控制。谷歌自身不出售芯片,而是通過(guò)其云計算平臺租用訪(fǎng)問(wèn)權限。微軟:推出基于A(yíng)rm架構的通用型芯片Cobalt、ASIC芯片Maia 1002023年11月,微軟在Ignite技術(shù)大會(huì )上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100,以及應用于云端軟件服務(wù)的芯片Azure Cobalt。兩款芯片將由臺積電代工,采用5nm制程技術(shù)。據悉,英偉達的高端產(chǎn)品一顆有時(shí)可賣(mài)到3萬(wàn)到4萬(wàn)美元,用于ChatGPT的芯片被認為大概就需要有1萬(wàn)顆,這對AI公司是個(gè)龐大成本。有大量AI芯片需求的科技大廠(chǎng)極力尋求可替代的供應來(lái)源,微軟選擇自行研發(fā),便是希望增強ChatGPT等生成式AI產(chǎn)品的性能,同時(shí)降低成本。Cobalt是基于A(yíng)rm架構的通用型芯片,具有128個(gè)核心,Maia 100是一款專(zhuān)為 Azure 云服務(wù)和 AI 工作負載設計的 ASIC 芯片,用于云端訓練和推理的,晶體管數量達到1050億個(gè)。這兩款芯片將導入微軟Azure數據中心,支持OpenAI、Copilot等服務(wù)。負責Azure芯片部門(mén)的副總裁Rani Borkar表示,微軟已開(kāi)始用Bing和Office AI產(chǎn)品測試Maia 100芯片,微軟主要AI合作伙伴、ChatGPT開(kāi)發(fā)商O(píng)penAI,也在進(jìn)行測試中。有市場(chǎng)評論認為,微軟 AI 芯片立項的時(shí)機很巧,正好在微軟、OpenAI 等公司培養的大型語(yǔ)言模型已經(jīng)開(kāi)始騰飛之際。不過(guò),微軟并不認為自己的 AI 芯片可以廣泛替代英偉達的產(chǎn)品。有分析認為,微軟的這一努力如果成功的話(huà),也有可能幫助它在未來(lái)與英偉達的談判中更具優(yōu)勢。據悉,微軟有望在即將到來(lái)的Build技術(shù)大會(huì )上發(fā)布一系列云端軟硬件技術(shù)新進(jìn)展。而備受關(guān)注的是,微軟將向Azure用戶(hù)開(kāi)放其自研的AI芯片Cobalt 100的使用權限。英特爾押注FPGA芯片英特爾表示,早期的人工智能工作負載,比如圖像識別,很大程度上依賴(lài)于并行性能。因為 GPU 是專(zhuān)門(mén)針對視頻和顯卡設計的,因此,將其應用于機器學(xué)習和深度學(xué)習變得很普遍。GPU 在并行處理方面表現出色,并行執行大量計算操作。換句話(huà)說(shuō),如果必須多次快速執行同一工作負載,它們可以實(shí)現令人難以置信的速度提高。但是,在 GPU 上運行人工智能是存在局限的。GPU 不能夠提供與 ASIC 相媲美的性能,后者是一種針對給定的深度學(xué)習工作負載專(zhuān)門(mén)構建的芯片。而 FPGA 則能夠借助集成的人工智能提供硬件定制,并且可以通過(guò)編程提供與 GPU 或 ASIC 相類(lèi)似的工作方式。FPGA 可重新編程、重新配置的性質(zhì)使其格外適合應用于飛速演變的人工智能領(lǐng)域,這樣,設計人員就能夠快速測試算法,并將產(chǎn)品加速推向市場(chǎng)。英特爾FPGA 家族包括英特爾 Cyclone 10 GX FPGA、英特爾 Arria 10 GX FPGA 和英特爾Stratix 10 GX FPGA等。這些產(chǎn)品具備 I/O 靈活性、低功耗(或每次推理的能耗)和低時(shí)延,本就可在 AI 推理上帶來(lái)優(yōu)勢。這些優(yōu)勢在三個(gè)全新的英特爾 FPGA 和片上系統家族的產(chǎn)品中又得到了補充,使得 AI 推理性能進(jìn)一步獲得了顯著(zhù)提升。這三個(gè)家族分別是英特爾 Stratix 10 NX FPGA 以及英特爾 Agilex FPGA 家族的新成員:英特爾 Agilex D 系列 FPGA,和代號為“Sundance Mesa”的全新英特爾 Agilex 設備家族。這些英特爾FPGA 和 SoC 家族包含專(zhuān)門(mén)面向張量數學(xué)運算優(yōu)化的專(zhuān)用 DSP 模塊,為加速 AI 計算奠定了基礎。今年3月,芯片巨頭英特爾宣布成立全新獨立運營(yíng)的FPGA公司——Altera。英特爾在2015年6月以167億美元收購Altera,被收購時(shí)Altera是全球第二大FPGA公司,九年后英特爾決定讓FPGA業(yè)務(wù)獨立運營(yíng),再次選擇以Altera命名。NPU(Neural Processing Unit)也是一種參考人體神經(jīng)突觸的 ASIC 芯片。隨著(zhù)深度學(xué)習神經(jīng)網(wǎng)絡(luò )的興起,CPU和 GPU 逐漸難以滿(mǎn)足深度學(xué)習的需要,專(zhuān)門(mén)用于神經(jīng)網(wǎng)絡(luò )深度學(xué)習的處理器NPU應運而生。NPU 采用“數據驅動(dòng)并行計算”的架構,特別擅長(cháng)處理視頻、圖像類(lèi)的海量多媒體數據。區別于 CPU 以及 GPU 所遵循的馮諾依曼架構,NPU 參考人體的神經(jīng)突觸結構,將存儲與運算結為一體。Arm 近日宣布推出 Ethos-U85 NPU。作為 Arm 面向邊緣 AI 的第三代 NPU 產(chǎn)品,Ethos-U85 適用于工業(yè)自動(dòng)化和視頻監控等場(chǎng)景,在性能方面提升了四倍。Ethos-U85 較上一代產(chǎn)品在能效方面擁有 20% 的提升,還可在常用神經(jīng)網(wǎng)絡(luò )上實(shí)現 85% 的利用率。其在設計上適合基于 Arm Cortex-M / A 處理器內核的系統,能接受較高的內存延遲。協(xié)同、訓練推理融合、具備統一生態(tài)的系列化智能芯片產(chǎn)品和平臺化基礎系統軟件。寒武紀產(chǎn)品廣泛應用于服務(wù)器廠(chǎng)商和產(chǎn)業(yè)公司,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等此外,OpenAI也正在探索自研AI芯片,同時(shí)開(kāi)始評估潛在收購目標。AWS自研AI芯片陣容包括推理芯片Inferentia和訓練芯片Trainium。 電動(dòng)汽車(chē)制造商特斯拉也積極參與AI加速器芯片的開(kāi)發(fā)。特斯拉主要圍繞自動(dòng)駕駛需求,迄今為止推出了兩款AI芯片:全自動(dòng)駕駛(FSD)芯片和Dojo D1芯片。去年5月Meta披露了旗下數據中心項目支持AI工作的細節,提到已經(jīng)打造一款定制芯片,簡(jiǎn)稱(chēng)MTIA,用于加快生成式AI模型的訓練。這是Meta首次推出AI定制芯片。Meta稱(chēng),MTIA是加快AI訓練和推理工作負載的芯片“家族”的一分子。此外,Meta介紹,MTIA采用開(kāi)源芯片架構RISC-V,它的功耗僅有25瓦,遠低于英偉達等主流芯片廠(chǎng)商的產(chǎn)品功耗。值得注意的是,今年4月,Meta公布了自主研發(fā)芯片MTIA的最新版本。分析指出,Meta的目標是降低對英偉達等芯片廠(chǎng)商的依賴(lài)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。