英特爾:已解決工藝技術(shù)根本問(wèn)題,正實(shí)現所有的關(guān)鍵工程里程碑。作者 | ZeR0
編輯 | 漠影
芯東西3月30日報道,今日,英特爾數據中心業(yè)務(wù)顯露出東山再起的氣勢,大膽更新其至強路線(xiàn)圖,并透露將更快轉向Intel 18A工藝節點(diǎn)。連帶著(zhù)英特爾股價(jià)收漲7.6%,創(chuàng )去年11月以來(lái)其最大單日漲幅。在英特爾數據中心和人工智能事業(yè)部投資者網(wǎng)絡(luò )研討會(huì )上,英特爾稱(chēng)其首款面向數據中心的高能效至強Sierra Forest已開(kāi)始向客戶(hù)送樣,將于明年上半年交付;該芯片有144個(gè)核心,核心密度比128核AMD EPYC Bergamo芯片更高。第五代至強處理器Emerald Rapids有望在今年第四季度交付??蛻?hù)正在測試的下一代Granite Rapids將在Sierra Forest發(fā)布后于明年交付。
▲2023-2025年英特爾至強路線(xiàn)圖
同時(shí)可以看到,英特爾至強路線(xiàn)圖增加了一個(gè)新成員——第二代高能效至強Clearwater Forest。該芯片預計在2025年上市,將采用Intel 18A。這個(gè)跳過(guò)Intel 20A、直接用上Intel 18A的決定,傳遞出英特爾對其未來(lái)節點(diǎn)順利推進(jìn)的信心。英特爾還展示了第四代英特爾至強可擴展處理器與第四代AMD EPYC處理器的AI基準測試表現對比,同為48核的兩個(gè)芯片交鋒中,至強展現出接近4倍的性能優(yōu)勢。
此前,英特爾第四代至強Sapphire Rapids曾面臨延期問(wèn)題。另?yè)醒袡C構IDC計算,英特爾仍主導個(gè)人電腦(PC)和服務(wù)器芯片市場(chǎng),市場(chǎng)份額超過(guò)70%,但較2017年的90%以上有所下降。而在今日,英特爾執行副總裁Sandra Rivera宣布英特爾“路線(xiàn)圖正在走上正軌”,并稱(chēng)Granite Rapids正在實(shí)現“所有的關(guān)鍵工程里程碑”。英特爾也在致力于構建英特爾開(kāi)發(fā)者云,其中包含256顆至強芯片和512顆AI訓練芯片Gaudi,可供AI開(kāi)發(fā)者訓練和運行新模型。Hugging Face和Stability AI等明星AI創(chuàng )企均在采用英特爾芯片。
01.英特爾數據中心路線(xiàn)圖更新:兩大路線(xiàn)、五個(gè)新品、挺進(jìn)Intel 18A工藝
英特爾的數據中心路線(xiàn)圖分為兩條線(xiàn):P-Core和E-Core。P-Core性能核,專(zhuān)為實(shí)現最高的每核性能和AI工作負載性能而設計;E-Core能效核專(zhuān)為高能效、高核心密度和高吞吐量而設計。
外媒Tom’s Hardware對比了英特爾和AMD的數據中心路線(xiàn)圖,AMD去年推出的EPYC Genoa和今年年初推出的英特爾Sapphire Rapids將展開(kāi)高性能之戰。
▲2023-2025年英特爾與AMD高性能、高能效數據中心CPU對比(圖源:Tom’s Hardware)
在Sapphire Rapids推出后幾個(gè)月,英特爾將于今年第四季度推出其配備更多內核和更快時(shí)鐘速率的第五代至強Emerald Rapids,將提供比前代更多的核心,實(shí)現更高的性能和能效。AMD的5nm Genoa-X定于今年晚些時(shí)候發(fā)布。明年,英特爾Granite Rapids將與AMD的Turin展開(kāi)較量。高能效產(chǎn)品方面,AMD的Bergamo將在今年上市,英特爾Sierra Forrest要到2024年上半年才會(huì )推出。AMD尚未透露它的第二代E-Core產(chǎn)品何時(shí)交付,而英特爾已經(jīng)在其路線(xiàn)圖中公布了Clearwater Forest。
英特爾的E-Core高能效路線(xiàn)圖從擁有144核的下一代至強Sierra Forest開(kāi)始。這是Intel 3工藝節點(diǎn)的主要載體,目前進(jìn)展順利,已向客戶(hù)提供樣品。英特爾稱(chēng)該芯片已通電,并在不到18小時(shí)內啟動(dòng)了操作系統。
Sierra Forest將在單個(gè)雙路服務(wù)器中提供256個(gè)核心。其單顆芯片的144個(gè)核心數超過(guò)了AMD EPYC Bergamo的128個(gè)核心數,但在線(xiàn)程數方面可能并不領(lǐng)先。
▲英特爾演示了Sierra Forest所有144個(gè)核心的運行情況
英特爾面向消費市場(chǎng)的E-Core是單線(xiàn)程的,但尚未透露數據中心的高能效核是否支持超線(xiàn)程。而AMD稱(chēng)128核Bergamo是超線(xiàn)程的,因此每個(gè)插槽總共提供256個(gè)線(xiàn)程。英特爾的E-core不支持其P-Core支持的一些指令集架構(ISA),通過(guò)省掉AVX-512和AMX來(lái)確保最大密度。AMD Bergamo Zen 4c(“c”表示專(zhuān)為云原生工作負載而設計)核心則具有與其標準Zen 4核心相同的功能。緊隨Sierra Forest之后,Granite Rapids將于2024年交付,已向客戶(hù)送樣。這是采用Intel 3工藝的第一個(gè)P-Core至強,將擁有比Emerald Rapids更多的內核、來(lái)自DDR5-8800內存的更高內存帶寬及I/O創(chuàng )新。
值得注意的是,第一個(gè)搭配E-Core的系列Sierra Forest將與搭配P-Core的Granite Rapids插槽兼容,兩者甚至共享相同的BIOS和軟件。英特爾通過(guò)將這些芯片轉移到基于塊的設計來(lái)實(shí)現,有點(diǎn)像AMD EPYC處理器的設計思路,中央I/O塊處理內存和其他連接功能,將核心和非核心功能分開(kāi)。這樣就能用相同系統將更多將更多線(xiàn)程heft與E-Core打包,且TDP范圍與P-Core樣品相同。英特爾演示了雙路Granite Rapids。它可提供1.5TB/s DDR5內存帶寬,據稱(chēng)比現有服務(wù)器內存提高了80%的峰值帶寬。Granite Rapids提供的吞吐量高于英偉達960GB/s Grace CPU超級芯片,也高于理論峰值920GB/s的AMD雙路Genoa。這一提升得益于英特爾研發(fā)的新型帶寬優(yōu)化內存DDR5-8800多路復用器組合列(MCR)DRAM。
▲英特爾展示了Granite Rapids在雙路服務(wù)器中提供1.5TB/s帶寬
英特爾還首次公布了Clearwater Forest,預計在2025年發(fā)布,將是首款采用Intel 18A工藝節點(diǎn)的至強芯片。為了重奪先進(jìn)芯片制造的技術(shù)領(lǐng)導地位,英特爾計劃四年交付5個(gè)節點(diǎn),其產(chǎn)品在2024年可選用Intel 20A和Intel 18A節點(diǎn)。Intel 20A和Intel 18A節點(diǎn)分別是英特爾的第一代、第二代“Angstrom”節點(diǎn)。Intel 18A工藝將比Intel 20A的每瓦性能提高10%,基本上用上了所有芯片制程工藝的前沿技術(shù)。
02.下一代AI訓練芯片“taped in”更新GPU路線(xiàn)圖
除了至強外,英特爾也公布了其面向數據中心和AI領(lǐng)域的其他產(chǎn)品更新。英特爾計劃在今年推出15款新FPGA,這將創(chuàng )下其FPGA部分的記錄。其AI訓練芯片Habana Gaudi2正在出貨,Gaudi3已經(jīng)“taped in”。
英特爾還透露其Artic Sound和Ponte Vecchio GPU正在出貨。英特爾最近更新了其GPU路線(xiàn)圖,取消了即將推出的Rialto Bridge系列數據中心Max GPU,并將數據中心GPU版本的發(fā)布周期改為兩年。其下一款數據中心GPU產(chǎn)品將以基于Chiplet的混合芯片Falcon Shores的形式出現,預計到2025年才會(huì )交付。英特爾還降低了對Falcon Shores的期望,稱(chēng)它們將只支持GPU架構,不包括最初計劃的CPU核心選項。英特爾也分析了AI加速器的機會(huì ),預測通用計算將占大約60%的工作負載,涉及中小型AI模型,主要在CPU上運行。包括大模型(超過(guò)1000億個(gè)參數)在內的加速計算將占大約40%的工作負載,在GPU和其他定制加速器上運行。
英特爾致力于為AI構建一個(gè)統一的軟件生態(tài)系統,包括采用端到端的方法,在軟件棧的每個(gè)點(diǎn)都包含芯片、軟件、安全性、機密性和信任機制。
BLOOMZ模型是一款基于Transformer的多語(yǔ)言大型語(yǔ)言模型,最大1760億個(gè)參數的BLOOMZ模型性能優(yōu)于類(lèi)似大小的GPT-3模型。頂級機器學(xué)習開(kāi)源庫Hugging Face發(fā)布的結果顯示,在跑有70億個(gè)參數的BLOOMZ模型時(shí),第一代Gaudi性?xún)r(jià)比優(yōu)勢明顯;Gaudi2對1760億個(gè)參數的BLOOMZ模型進(jìn)行推理,速度比英偉達A100快20%。
▲Gaudi2、A100-80GB、第一代Gaudi跑BLOOMZ模型表現對比(圖源:Hugging Face)
此外,Hugging Face亦介紹了Stability AI的AI文生圖模型Stable Diffusion。在不更改任何代碼的情況下,Stable Diffusion在內置英特爾高級矩陣擴展(英特爾AMX)的第四代英特爾至強可擴展處理器上平均運行速度提高了3.8倍。Stability AI創(chuàng )始人兼首席執行官Emad Mostaque說(shuō),Stable Diffusion模型已能高效運行在英特爾的異構產(chǎn)品上,從第四代Sapphire Rapids CPU到像Gaudi這樣的加速器,是實(shí)現AI民主化的一個(gè)絕佳合作伙伴,期待在下一代語(yǔ)言、視頻和代碼模型等方面與英特爾合作。OpenVINO進(jìn)一步加速了Stable Diffusion推理。結合使用第四代至強CPU,速度幾乎比第三代英特爾至強可擴展CPU提高了2.7倍。Optimum Intel是OpenVINO支持的一個(gè)用于加速英特爾架構上的端到端管道的工具,它將平均延遲再降低為之前的1/3.5,總共降低到原來(lái)的近1/10。
03.結語(yǔ):進(jìn)入AI新時(shí)代能效成推動(dòng)生產(chǎn)力的關(guān)鍵
英特爾幾年前就開(kāi)始轉向“以數據為中心”的戰略。如今隨著(zhù)ChatGPT爆火,以大型語(yǔ)言模型(LLM)為代表的先進(jìn)AI技術(shù)進(jìn)入公眾視野,這類(lèi)模型所需的數據量和計算量,亦使性能、成本和能效成為眾多企業(yè)關(guān)注的焦點(diǎn),其中能效尤其是推動(dòng)生產(chǎn)力的關(guān)鍵因素。這證明了英特爾賭注的前瞻性。AI算法迭代如此之快,CPU憑借極強的通用性至今仍是運行AI推理工作負載的主力。英特爾正通過(guò)至強P-Core和E-Core雙路并行的策略,為前景可觀(guān)的AI市場(chǎng)做好準備。但挑戰也是前所未有的,英特爾面臨著(zhù)愈發(fā)強勁的競爭對手。憑借高能效橫掃移動(dòng)芯片市場(chǎng)的Arm架構,如今正在數據中心快速擴張其生態(tài)系統,并成為越來(lái)越多云計算巨頭和芯片初創(chuàng )公司的“座上賓”。應對接踵而至的壓力,英特爾和AMD都更加注重優(yōu)化芯片的能效和核心密度。這一背景下,將采用Intel 18A工藝的Clearwater Forest相當令人期待,可能在2025年展開(kāi)新一輪有趣的競爭。英特爾顯然不愿將其在數據中心的領(lǐng)先優(yōu)勢拱手讓人,正試圖通過(guò)奪回技術(shù)領(lǐng)先地位來(lái)扭轉近年來(lái)服務(wù)器市場(chǎng)份額的損失。如今,它聲稱(chēng)已經(jīng)解決了其工藝節點(diǎn)技術(shù)中的根本問(wèn)題,并改進(jìn)了其芯片設計方法,以防止其下一代產(chǎn)品的延遲。結合近兩次路線(xiàn)圖來(lái)看,英特爾正按照計劃穩步推進(jìn)其至強系列的研發(fā)與交付,并加速I(mǎi)ntel 18A工藝節點(diǎn)進(jìn)入產(chǎn)品,為英特爾贏(yíng)得更大優(yōu)勢。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。