<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > AWS推出下一代自研芯片

AWS推出下一代自研芯片

發(fā)布人:旺材芯片 時(shí)間:2023-11-30 來(lái)源:工程師 發(fā)布文章

一年多來(lái),我們一直期待Amazon Web Services在今年的re:Invent大會(huì )上為其本土服務(wù)器推出 Graviton4 處理器。正如預期,AWS首席執行官Adam Selipsky推出了第四代 Graviton CPU系列,包括去年針對HPC工作負載的超頻Graviton3E處理器。


Selipsky在主題演講期間沒(méi)有強制舉起Graviton4 芯片,這很奇怪。但新聞稿中確實(shí)包含了一張芯片照片,如上面的特征圖片所示。



Graviton4 提高了各種工作負載的性?xún)r(jià)比和能效標準


正如我們所預料的那樣,Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 內核,該內核與 Nvidia 的“Grace”CG100 CPU 一樣基于 Armv9 架構。(Nvidia 官方并沒(méi)有給 Grace 一個(gè)與其 GPU 命名方案一致的產(chǎn)品名稱(chēng),所以我們就暫且這樣命名。C代表CPU,G代表Grace。)我們在2017年對Demeter V2核心進(jìn)行了深入研究。9月份,Arm發(fā)布了“Genesis”計算子系統,與之前由AWS部署在Graviton3和Graviton3E處理器中使用的“Zeus”V1 內核相比,V2 內核的每時(shí)鐘指令數提高了13%。


顯然,這在 IPC中并不是一個(gè)大的跳躍,因為核心數量也在跳躍,這就是為什么我們還假設 AWS已經(jīng)放棄了代工合作伙伴臺積電用于蝕刻 Graviton3 和 Graviton3E 芯片的5納米工藝,而是更密集且有些成熟的4納米工藝。同樣的4N工藝還用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——這兩款產(chǎn)品都席卷了生成式 AI 世界。


Graviton4 封裝上有 96 個(gè) V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且與 8 個(gè) DDR5 內存控制器相比,Graviton4 上有 12 個(gè) DDR5 控制器,并且Graviton4使用的 DDR5內存速度頻率提升了16.7%,達到5.6 GHz。通過(guò)數學(xué)計算,Graviton4 每個(gè)插槽的內存帶寬為536.7 GB/秒,比之前的Graviton3和Graviton3E處理器提供的307.2 GB/秒高出 75%。


在 Selipsky 的演示以及 AWS 發(fā)布的有關(guān) Graviton4 的有限規格中,該公司表示通用 Web 應用程序在 Graviton4 上的運行速度比在 Graviton3 上快 30%(不是 Graviton3E,它超頻且很熱),但數據庫的運行速度將提高 40%,大型 Java 應用程序的運行速度將提高 45%?,F在,這可能意味著(zhù)AWS已經(jīng)在V2核心中實(shí)現了同步多線(xiàn)程 (SMT),為每個(gè)核心提供兩個(gè)線(xiàn)程,就像英特爾和 AMD 的 X86 處理器以及一些 Arm 芯片過(guò)去所做的那樣。


我們不這么認為,下面的比較顯著(zhù)特征表顯示每個(gè)套接字有 96 個(gè)線(xiàn)程,而不是 192 個(gè)線(xiàn)程。我們認為每個(gè)套接字有 96 個(gè)線(xiàn)程,并且每個(gè)核心的二級緩存加倍至2MB對Java和數據庫應用程序的性能產(chǎn)生了巨大的影響。您可以通過(guò)添加雙向SMT獲得3倍的vCPU,但這不會(huì )為您提供3倍的內存。與 Graviton3 芯片相比,它的內存仍然只有 1.5 倍。


AWS 在其博客中提到的有關(guān)使用 Graviton4 芯片的新 R8g 實(shí)例的其他內容也讓我們猶豫不決:“R8g 實(shí)例提供了更大的實(shí)例大小,比當前一代 R7g 實(shí)例多出 3 倍的 vCPU 和 3 倍的內存?!?/p>


R8g 擁有 96 個(gè)核心和十幾個(gè)內存控制器(均比 Graviton3 提升了 1.5 倍),您只會(huì )期望 R8g 的 vCPU 數量是使用 Graviton3 芯片的 R7g 實(shí)例的 1.5 倍,而內存容量?jì)H是使用 Graviton3 芯片的 R7g 實(shí)例的 1.5 倍。因此,我們認為這是 Graviton 系列的第一個(gè)雙插槽實(shí)現。這也是我們認為 Graviton4 芯片擁有大約 9500 萬(wàn)到 1 億個(gè)晶體管的原因之一,而不是您預期的 8250 萬(wàn)個(gè)晶體管(如果 AWS 只是在 Graviton3 設計中添加 50% 的核心并保持不變)。我們認為,L2 緩存加倍、增加四個(gè) DDR5 內存控制器以及一對現在也進(jìn)行線(xiàn)速加密的 I/O 控制器也增加了晶體管預算。


Graviton4在另一個(gè)方面也值得注意。過(guò)去,Neoverse模塊以32核或64核模塊完成,Arm建議使用具有UCI-Express或CCIX互連的小芯片來(lái)構建更大的處理器復合體。制作自己的 Arm CPU設計的公司總是可以實(shí)現單片芯片,出于延遲和功耗的原因,您會(huì )這樣做。這些互連不是免費的,尤其是具有 96 個(gè)內核的芯片,其產(chǎn)量會(huì )比 32 個(gè)內核或 64 核心低得多。這也是有代價(jià)的。



因此,從上面的芯片照片來(lái)看,我們認為 Graviton4 是一個(gè)雙小芯片封裝,其中一個(gè)小芯片與另一個(gè)小芯片旋轉了 180 度。這可能就是為什么封裝上中央核心復合體左側和右側的存儲控制器小芯片彼此偏移的原因。


我們認為 Graviton4 與前幾代芯片的比較如下:



誠然猜測,我們認為 Graviton4 的性能比 Graviton3E 稍差,但達到該目標所需的功耗卻低了近一半,并且內存容量高出 50%,帶寬高出 75%,功耗大約為 130 瓦。功率包絡(luò )具有更低且更理想的 2.7 GHz 時(shí)鐘速度。


根據我們估計的這些數字(粗體紅色斜體顯示),Graviton4 芯片的每瓦性能(按 ECU 性能單位測量)與 Graviton3 大致相同,這幾乎是您在工藝適度縮減的情況下所希望的一切。


隨著(zhù)更多細節的出現,我們將更新這個(gè)故事。


還有一件事:AWS 在其公告中表示(但 Selipsky 并沒(méi)有在他的主題演講中吹噓),迄今為止,它已在其機群中部署了超過(guò) 200 萬(wàn)個(gè) Graviton 處理器,并擁有超過(guò) 50,000 個(gè)客戶(hù)使用過(guò)它們。


這是一個(gè)非??捎^(guān)的 CPU 數量,如果 AWS 沒(méi)有開(kāi)始內部生產(chǎn) Graviton,這些芯片將全部來(lái)自 Intel、AMD,甚至可能來(lái)自 Ampere Computing。但他們沒(méi)有。這就是為什么將您的業(yè)務(wù)計劃固定給超大規模提供商和云構建商是一個(gè)冒險的提議。


Trainum2旨在云中提供最高性能、最節能的AI模型訓練基礎設施


此外,AWS還在大會(huì )上推出了由 AWS 設計的AWS Trainium2 芯片系列。


Graviton4 和 Trainium2 標志著(zhù) AWS 芯片設計的最新創(chuàng )新。隨著(zhù)每一代芯片的推出,AWS 都提供了更好的性?xún)r(jià)比和能效,除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/實(shí)例組合之外,還為客戶(hù)提供了更多選擇,以運行幾乎任何應用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作負載。


據了解,Trainium2 的設計速度比第一代 Trainium 芯片快 4 倍,并且能夠部署在多達 100,000 個(gè)芯片的 EC2 UltraCluster 中,從而可以在一個(gè)簡(jiǎn)單的環(huán)境中訓練基礎模型 (FM) 和大型語(yǔ)言模型 (LLM)。時(shí)間的一小部分,同時(shí)將能源效率提高了 2 倍。


AWS 計算和網(wǎng)絡(luò )副總裁 David Brown 表示:“硅支撐著(zhù)每個(gè)客戶(hù)工作負載,使其成為 AWS 創(chuàng )新的關(guān)鍵領(lǐng)域?!?nbsp;“通過(guò)將我們的芯片設計重點(diǎn)放在對客戶(hù)重要的實(shí)際工作負載上,我們能夠為他們提供最先進(jìn)的云基礎設施。Graviton4 標志著(zhù)我們在短短五年內推出的第四代芯片,是我們?yōu)楦鞣N工作負載打造的最強大、最節能的芯片。隨著(zhù)人們對生成式 AI 興趣的高漲,Tranium2 將幫助客戶(hù)以更低的成本和更高的能源效率更快地訓練他們的 ML 模型?!?/p>


當今新興的生成式人工智能應用背后的 FM 和 LLM 接受過(guò)海量數據集的培訓。這些模型使客戶(hù)能夠通過(guò)創(chuàng )建各種新內容(包括文本、音頻、圖像、視頻甚至軟件代碼)來(lái)完全重新想象用戶(hù)體驗。當今最先進(jìn)的 FM 和 LLM 的參數范圍從數千億到數萬(wàn)億不等,需要可靠的高性能計算能力,能夠擴展到數萬(wàn)個(gè)機器學(xué)習芯片。AWS 已經(jīng)提供了最廣泛、最深入的采用 ML 芯片的 Amazon EC2 實(shí)例選擇,包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今,包括 Databricks、Helixon、Money Forward 和 Amazon Search 團隊在內的客戶(hù)使用 Trainium 來(lái)訓練大規模深度學(xué)習模型,充分利用 Trainium 的高性能、規模、可靠性和低成本。但即使擁有當今最快的加速實(shí)例,客戶(hù)也希望獲得更高的性能和規模,以便以更低的成本更快地訓練這些日益復雜的模型,同時(shí)減少他們使用的能源量。


Trainium2 芯片專(zhuān)為 FM 和 LLM 的高性能訓練而設計,參數高達數萬(wàn)億個(gè)。與第一代 Trainium 芯片相比,Trainium2 的訓練性能提高了 4 倍,內存容量提高了 3 倍,同時(shí)能效(性能/瓦特)提高了 2 倍。Trainium2 將在 Amazon EC2 Trn2 實(shí)例中提供,單個(gè)實(shí)例中包含 16 個(gè) Trainium 芯片。Trn2 實(shí)例旨在使客戶(hù)能夠在下一代 EC2 UltraCluster 中擴展多達 100,000 個(gè) Trainium2 芯片,與 AWS Elastic Fabric Adapter (EFA) 拍級網(wǎng)絡(luò )互連,提供高達 65 exaflops 的計算能力,并為客戶(hù)提供對超級計算機的按需訪(fǎng)問(wèn)一流的性能。憑借這種規模,客戶(hù)可以在數周而不是數月內培訓 3000 億個(gè)參數的 LLM。通過(guò)以顯著(zhù)降低的成本提供最高的橫向擴展 ML 訓練性能,Trn2 實(shí)例可以幫助客戶(hù)解鎖并加速生成 AI 的下一波進(jìn)步。


一家人工智能安全和研究公司Anthropic表示,“我們正在與 AWS 密切合作,使用 Trainium 芯片開(kāi)發(fā)未來(lái)的基礎模型。Trainium2 將幫助我們大規模構建和訓練模型,對于我們的一些關(guān)鍵工作負載,我們預計它的速度至少比第一代 Trainium 芯片快 4 倍。我們與 AWS 的合作將幫助各種規模的組織釋放新的可能性,因為他們將 Anthropic 最先進(jìn)的人工智能系統與 AWS 安全、可靠的云技術(shù)結合使用?!?/p>


來(lái)源:EETOP


--End--


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AWS

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>