英特爾放棄同時(shí)封裝 CPU、GPU、內存計劃
英特爾將 CPU、GPU 和內存芯片拼接在一個(gè)稱(chēng)為 XPU 的單一封裝上的宏偉計劃已經(jīng)暫緩。英特爾超級計算集團副總裁杰夫·麥克維 (Jeff McVeigh) 透露,該公司的 Falcon Shores 平臺不僅會(huì )遲到,而且不會(huì )是一個(gè) XPU。
本文引用地址:http://dyxdggzs.com/article/202305/447026.htm英特爾最初計劃其 Falcon Shores 芯片同時(shí)具有 GPU 和 CPU 內核,從而創(chuàng )建該公司的第一個(gè)用于高性能計算的「XPU」。幾個(gè)月前英特爾宣布這款產(chǎn)品將轉向純 GPU 設計并將芯片推遲到 2025 年,這讓行業(yè)感到震驚——因為另外兩家處理器巨頭 AMD 的 Instinct MI300 和英偉達的 Grace Hopper 都具有混合 CPU+GPU 設計。
麥克維說(shuō):「之前將 CPU 和 GPU 集成到 XPU 中的努力還為時(shí)過(guò)早,」他認為,自從 Falcon Shores 詳細介紹以來(lái),市場(chǎng)在這一年發(fā)生了巨大變化,以至于繼續進(jìn)行下去不再有意義。麥克維將這種選擇比作登山?!府斣诘巧降臅r(shí)候,如果天氣變壞,你感覺(jué)不對,你不會(huì )僅僅因為它在那里就去頂峰。你會(huì )推遲到當你準備好了,當生態(tài)系統準備好了,當氣候準備好了?!?/p>
根據麥克維的說(shuō)法,當今的 AI 和 HPC 工作負載過(guò)于動(dòng)態(tài),無(wú)法進(jìn)行集成?!府敼ぷ髫撦d固定時(shí),當你非常清楚它們不會(huì )發(fā)生巨大變化時(shí),集成就很棒,」他補充道。雖然 Falcon Shores 不會(huì )成為 XPU,但這并不意味著(zhù)英特爾不會(huì )在適當的時(shí)候重啟該項目。
英特爾發(fā)布了新的 HPC 和 AI 路線(xiàn)圖,其中沒(méi)有顯示 Gaudi3 處理器的繼任者——相反,Gaudi 和 GPU 與 Falcon Shores GPU 合并,因為它繼承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾表示,「計劃整合 Habana 和 AXG 產(chǎn)品 [GPU] 路線(xiàn)圖」,但整合的細節很少。
采用標準以太網(wǎng)交換,很像英特爾專(zhuān)注于 AI 的 Gaudi 架構,數量不詳的 HBM3 內存,以及「I/O 旨在擴展」,這可能意味著(zhù) Falcon Shores 將配備不同的內存容量選項。英特爾確實(shí)表示 Falcon 將配備高達 288GB 的 HBM3 和 9.8TB/s 的總內存吞吐量。正如預期的那樣,它將支持較小的數據類(lèi)型,如 FP8 和 BF16。
對于英特爾來(lái)說(shuō),英特爾放慢 GPU 發(fā)布節奏意味著(zhù)它將不得不利用舊產(chǎn)品與英偉達和 AMD 的混合架構產(chǎn)品競爭。
AMD MI300
1 月,AMD 展示了其迄今為止對加速處理單元 (APU) 的最佳外觀(guān),這是 AMD 對 CPU-GPU 架構的專(zhuān)業(yè)術(shù)語(yǔ)。
根據 AMD 在 1 月份分享的封裝照片,該芯片將配備 24 個(gè) Zen 4 內核——與 11 月份在 AMD 的 Epyc 4 Genoa 平臺中使用的相同——分布在兩個(gè)由六個(gè) GPU 芯片和八個(gè)高帶寬內存組成的小芯片上模塊總共有 128GB。
在性能方面,AMD 聲稱(chēng)該芯片提供的「AI 性能」是 Frontier 超級計算機中使用的 MI250X 的 8 倍,同時(shí)每瓦性能也提高了 5 倍。根據 The Next Platform 的說(shuō)法,考慮到對具有稀疏性的 8 位浮點(diǎn) (FP8) 數學(xué)的支持,這將使該芯片的性能與四個(gè) MI250X GPU 相當,并且可能使該芯片功耗處于 900W 左右如果屬實(shí),那么 MI300A 將成為一款很「熱」的芯片,幾乎肯定需要液體冷卻才能馴服。對于 HPC 系統來(lái)說(shuō),這應該不是問(wèn)題,其中大部分已經(jīng)使用直接液體冷卻,但可能會(huì )迫使遺留數據中心升級其設施,否則就有可能被拋在后面。
英偉達 Grace Hopper
從技術(shù)上講,AMD 并不是唯一一家為數據中心追求 CPU-GPU 組合架構的公司。AMD 將與英偉達的 Grace Hopper 芯片展開(kāi)競爭。
MI300 和 Grace Hopper 是截然不同的路線(xiàn)。英偉達解決這個(gè)特殊問(wèn)題的方法是使用其專(zhuān)有的 900GBps NVLink-C2C 互連將其 72 核 Arm 兼容的 Grace CPU 與 GH100 芯片配對。雖然這消除了 PCIe 作為兩個(gè)組件之間的瓶頸,但它們是不同的,每個(gè)都有自己的內存。GH100 芯片有自己的 HBM3 內存,而 Grace GPU 耦合到 512GB 的 LPDDR5,適用于 500GBps 的內存帶寬。
另一方面,MI300A 看起來(lái)是一個(gè)誠實(shí)的 APU,能夠尋址相同的 HBM3 內存,而無(wú)需通過(guò)互連來(lái)回復制它。
哪種方法會(huì )帶來(lái)更好的性能,哪些工作負載尚未得到解決,但唯一確定的事英特爾不會(huì )在這場(chǎng)戰斗中占據一席之地。
英特爾表示,它將利用 CXL 接口,使其客戶(hù)能夠利用可組合的架構,該架構可以在其定制設計中將各種 CPU/GPU 比率結合在一起。然而,CXL 接口僅在元素之間提供 64 GB/s 的吞吐量,而像 Nvidia 的 Grace Hopper 這樣的定制 CPU+GPU 設計可以在 CPU 和 GPU 之間提供高達 1 TB/s 的內存吞吐量。對于許多類(lèi)型的工作負載——尤其是需要大量?jì)却鎺挼?AI 工作負載,這比 CXL 實(shí)現具有性能和效率優(yōu)勢。更不用說(shuō)元素之間固有的低延遲連接和其他優(yōu)勢,如更高的性能密度。
評論