CPU+GPU 異構計算成芯片巨頭新寵
近年來(lái),隨著(zhù) AI 應用的快速發(fā)展,引發(fā)一場(chǎng)算力革命,異構計算也站在風(fēng)口浪尖。
本文引用地址:http://dyxdggzs.com/article/202303/444766.htm異構計算主要是指使用不同類(lèi)型指令集和體系架構的計算單元組成系統的計算方式。常見(jiàn)的計算單元類(lèi)別包括 CPU、GPU、DSP、ASIC、FPGA 等。目前「CPU+GPU」以及「CPU+FPGA」都是受業(yè)界關(guān)注的異構計算平臺。
近日,英特爾宣布將在未來(lái)一年半內取消多款服務(wù)器 GPU 產(chǎn)品的發(fā)布計劃,其中包括 HPC 級的 Rialto Bridge GPU,以全力開(kāi)發(fā)基于 Falcon Shores 的混合芯片。英特爾新一代 Falcon Shores 專(zhuān)為超級計算應用而設計,將 CPU 和 GPU 技術(shù)結合到一個(gè)芯片封裝中,屆時(shí)將作為純 GPU 架構面世。
值得注意的是,AMD 的 Instinct MI300 和英偉達的 Grace Hopper 超級芯片也是采用「CPU+GPU」的異構形式。
CPU 與 GPU 的區別
CPU 即中央處理器(Central Processing Unit),作為計算機系統的運算和控制核心,主要負責多任務(wù)管理、調度,具有很強的通用性,是計算機的核心領(lǐng)導部件,好比人的大腦。不過(guò)其計算能力并不強,更擅長(cháng)邏輯控制。
GPU 即圖形處理器(Graphics Processing Unit),采用數量眾多的計算單元和超長(cháng)的流水線(xiàn),擅長(cháng)進(jìn)行圖像處理、并行計算。對于復雜的單個(gè)計算任務(wù)來(lái)說(shuō),CPU 的執行效率更高,通用性更強;對于圖形圖像這種矩陣式多像素點(diǎn)的簡(jiǎn)單計算,更適合用 GPU 來(lái)處理。AI 領(lǐng)域中用于圖像識別的深度學(xué)習、用于決策和推理的機器學(xué)習以及超級計算都需要大規模的并行計算,因此更適合采用 GPU 架構。
多核 CPU 與 GPU 的計算網(wǎng)格(圖中綠色方格為計算單元)
CPU 和 GPU 還有一個(gè)很大的區別就是:CPU 可單獨作用,處理復雜的邏輯運算和不同的數據類(lèi)型,但當需要處理大量類(lèi)型統一的數據時(shí),則可調用 GPU 進(jìn)行并行計算。但 GPU 無(wú)法單獨工作,必須由 CPU 進(jìn)行控制調用才能工作。
CPU+GPU 架構的優(yōu)勢及應用
當 CPU 和 GPU 協(xié)同工作時(shí),因為 CPU 包含幾個(gè)專(zhuān)為串行處理而優(yōu)化的核心,而 GPU 則由數以千計更小、更節能的核心組成,這些核心專(zhuān)為提供強勁的并行運算性能而設計。程序的串行部分在 CPU 上運行,而并行部分則在 GPU 上運行。GPU 已經(jīng)發(fā)展到成熟階段,可輕松執行現實(shí)生活中的各種應用程序,而且程序運行速度已遠遠超過(guò)使用多核系統時(shí)的情形。因此,CPU 和 GPU 的結合剛好可以解決深度學(xué)習模型訓練在 CPU 上耗時(shí)長(cháng)的問(wèn)題,提升深度學(xué)習模型的訓練效率。
隨著(zhù) CPU 與 GPU 的結合,其相較于單獨 CPU 與 GPU 的應用場(chǎng)景也不斷拓寬。
第一,CPU+GPU 架構適用于處理高性能計算。伴隨著(zhù)高性能計算類(lèi)應用的發(fā)展,驅動(dòng)算力需求不斷攀升,但目前單一計算類(lèi)型和架構的處理器已經(jīng)無(wú)法處理更復雜、更多樣的數據。數據中心如何在增強算力和性能的同時(shí),具備應對多類(lèi)型任務(wù)的處理能力,成為全球性的技術(shù)難題。CPU+GPU 的異構并行計算架構作為高性能計算的一種主流解決方案,受到廣泛關(guān)注。
第二,CPU+GPU 架構適用于處理數據中心產(chǎn)生的海量數據。數據爆炸時(shí)代來(lái)臨,使用單一架構來(lái)處理數據的時(shí)代已經(jīng)過(guò)去。比如:個(gè)人互聯(lián)網(wǎng)用戶(hù)每天產(chǎn)生約 1GB 數據,智能汽車(chē)每天約 50GB,智能醫院每天約 3TB 數據,智慧城市每天約 50PB 數據。數據的數量和多樣性以及數據處理的地點(diǎn)、時(shí)間和方式也在迅速變化。無(wú)論工作任務(wù)是在邊緣還是在云中,不管是人工智能工作任務(wù)還是存儲工作任務(wù),都需要有正確的架構和軟件來(lái)充分利用這些特點(diǎn)。
第三,CPU+GPU 架構可以共享內存空間,消除冗余內存副本來(lái)改善問(wèn)題。在此前的技術(shù)中,雖然 GPU 和 CPU 已整合到同一個(gè)芯片上,但是芯片在運算時(shí)要定位內存的位置仍然得經(jīng)過(guò)繁雜的步驟,這是因為 CPU 和 GPU 的內存池仍然是獨立運作。為了解決兩者內存池獨立的運算問(wèn)題,當 CPU 程式需要在 GPU 上進(jìn)行部分運算時(shí),CPU 都必須從 CPU 的內存上復制所有的資料到 GPU 的內存上,而當 GPU 上的運算完成時(shí),這些資料還得再復制回到 CPU 內存上。然而,將 CPU 與 GPU 放入同一架構,就能夠消除冗余內存副本來(lái)改善問(wèn)題,處理器不再需要將數據復制到自己的專(zhuān)用內存池來(lái)訪(fǎng)問(wèn)/更改該數據。統一內存池還意味著(zhù)不需要第二個(gè)內存芯片池,即連接到 CPU 的 DRAM。
因此,通過(guò) CPU+GPU 異構并行計算架構組成的服務(wù)器,正成為服務(wù)器市場(chǎng)中的一匹黑馬?,F在已有多家芯片廠(chǎng)商開(kāi)始跟進(jìn)。
芯片巨頭的香餑餑?
英特爾的 Falcon Shores
英特爾的 Falcon Shores XPU 專(zhuān)為超級計算應用而設計,其將 CPU 和 GPU 合并到一個(gè)混合匹配芯片包中。Falcon Shores 代表了英特爾異構架構設計的延續,其最終目標是每瓦性能提高 5 倍,x86 插槽計算密度提高 5 倍以及現有服務(wù)器芯片的內存容量和帶寬提高 5 倍。英特爾的高性能計算 CPU 和 GPU 路線(xiàn)圖與 Falcon Shores 匯合,表明這些芯片將在未來(lái)同時(shí)發(fā)揮這兩個(gè)作用。
英特爾超級計算集團副總裁兼總經(jīng)理杰夫·麥克維(Jeff McVeigh)說(shuō),延遲推出的 Falcon Shores 將在 2025 年首次推出 GPU 內核,但尚未表明何時(shí)將 CPU 內核集成到設計中。因此,英特爾以 HPC 為中心的設計將落后于競爭對手數年。
英偉達的 Grace Hopper 超級芯片
2021 年,英偉達推出解決 HPC 和大規模人工智能應用程序的 Grace Hopper 超級芯片。這是一款完全專(zhuān)為大規模 AI 和高性能計算應用打造的突破性加速 CPU。它通過(guò)英偉達 NVLink-C2C 技術(shù)將 Grace 和 Hopper 架構相結合,為加速 AI 和 HPC 應用提供 CPU+GPU 相結合的一致內存模型。
英偉達官方表示,使用 NVLink-C2C 互連,Grace CPU 將數據傳輸到 Hopper GPU 的速度比傳統 CPU 快 15 倍。另外,采用 CPU+GPU 的 Grace Hopper 核心數減半,LPDDR5X 內存也只有 512GB,但多了顯卡的 80GB HBM3 內存,總帶寬可達 3.5TB/s,代價(jià)是功耗 1000W,每個(gè)機架容納 42 個(gè)節點(diǎn)。
英偉達 Grace Hopper 超級芯片計劃于 2023 年上半年推出。
AMD 的 Instinct MI300
在近日的 CES 2023 展會(huì )上,AMD 披露了面向下一代數據中心的 APU 加速卡產(chǎn)品 Instinct MI300。這顆芯片采用多芯片、多 IP 整合封裝設計,5nm 先進(jìn)制造工藝,晶體管數量多達 1460 億個(gè)。它同時(shí)集成 CDNA3 架構的 GPU 單元 (具體核心數量未公開(kāi))、Zen4 架構的 24 個(gè) CPU 核心、大容量的 Infinity Cache 無(wú)限緩存,還有 8192-bit 位寬、128GB 容量的 HBM3 高帶寬內存。
在技術(shù)方面,MI300 支持第四代 Infinity Fabric 總線(xiàn)、CXL 3.0 總線(xiàn)、統一內存架構、新的數學(xué)計算格式,號稱(chēng) AI 性能比上代提升多達 8 倍,可滿(mǎn)足百億億次計算需求。
AMD CEO 蘇姿豐近日確認,Instinct MI300 將在今年下半年正式推出。
英特爾的 Falcon Shores XPU 是與英偉達的 Grace Hopper 超級芯片和 AMD Instinct MI300 數據中心 APU 競爭的關(guān)鍵。英偉達的 Grace 和 AMD 的 MI300 都將于今年推出。值得注意的是,三家均選擇了 Chiplet 技術(shù)。
未來(lái)押注超異構計算
關(guān)于異構計算,英特爾中國研究院院長(cháng)宋繼強曾表示:「在 2023 年,大家已經(jīng)完全接受了要通過(guò)異構計算解決未來(lái)系統的設計和優(yōu)化問(wèn)題。在 2020 年的時(shí)候,市場(chǎng)還在討論異構集成是怎么一回事。而在 2023 年,大家都會(huì )基于功能的有效性、設計的難易程度、成本等方面的考量,自覺(jué)采用異構計算的方式?!?/span>
關(guān)于對當下的算力演進(jìn)方向的新判斷,宋繼強還提到:「傳統異構計算并不能滿(mǎn)足現在計算的要求。而「超異構計算」,已逐漸成為業(yè)界思考的一個(gè)趨勢」。
從實(shí)際來(lái)看,英特爾也確實(shí)正在押注「超異構計算」這條道路。
英特爾提出的「超異構計算」概念,在一定程度上可以理解為通過(guò)封裝技術(shù)所實(shí)現的模塊級系統集成,即通過(guò)先進(jìn)封裝技術(shù)將多個(gè) Chiplet 裝配到一個(gè)封裝模塊當中,既簡(jiǎn)化了 SOC 的復雜技術(shù),更加靈活,又避免了 PCB 板級集成的性能和功耗瓶頸。
英特爾的「超異構計算」路線(xiàn)以「Foveros」3D 封裝技術(shù)為基礎。相比 SiP 只能實(shí)現邏輯芯片與內存的集成,「Foveros」可以在邏輯芯片與邏輯芯片之間實(shí)現真正的三維集成,使得芯片面積更小,同時(shí)保證芯片間的帶寬更大、速度更快、功耗更低。
不過(guò),英特爾的「超異構計算」的創(chuàng )新之處并不僅局限于 3D 封裝這一個(gè)層面。事實(shí)上,在制程、架構、內存、互連、安全、軟件等多個(gè)層面均具有領(lǐng)先優(yōu)勢?!赋悩嬘嬎恪沟膶?shí)現是建立在整合其多層面技術(shù)優(yōu)勢基礎上的。
除了英特爾之外,英偉達也已經(jīng)在執行層面全面行動(dòng)。英偉達在云、網(wǎng)、邊、端等復雜計算場(chǎng)景,基本上都有重量級的產(chǎn)品和非常清晰的迭代路線(xiàn)圖。
評論