<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 745TFLOPS!Tenstorrent推768核RISC-V AI芯片:對標英偉達A100

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:對標英偉達A100

發(fā)布人:芯智訊 時(shí)間:2024-10-22 來(lái)源:工程師 發(fā)布文章

8月28日消息,由傳奇芯片架構師Jim Keller領(lǐng)導的AI芯片新創(chuàng )公司Tenstorrent在近日的Hot Chips 2024活動(dòng)上詳細介紹了其新一代基于RISC-V架構的BlackHole系列AI處理器,性能高達745 TOPS,盡管芯片集成的內存容量和帶寬低于英偉達A100,但是整體的AI性能和可擴展性更優(yōu)。

image.png

據介紹,這款Blackhole AI芯片共擁有768個(gè)RISC-V內核,包括16個(gè)Big RISC-V內核、752個(gè)Baby RISC-V內核,其中大量的Baby RISC-V內核被分別集成在140 個(gè) Tensix 人工智能計算核心當中,241MB的片上SRAM內存和一系列高速連接,可以提供745TFLOPS 的 FP8 性能(FP16 時(shí)為 372 TFLOPS)。Blackhole還支持32GB 的 GDDR6 內存和基于以太網(wǎng)的互連,能夠在其 10 個(gè) 400Gbps 鏈路上實(shí)現 1TBps 的總帶寬。

Big RISC-V和Baby RISC-V

具體來(lái)說(shuō),與之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同,Blackhole是一款獨立的AI計算機系統。

根據Tenstorrent ML 框架和編程模型高級研究員 Jasmina Vasiljevic 的說(shuō)法,這主要歸功于其內部集成的16 個(gè)具有64 位、雙發(fā)射、順序執行的Big RISC-V CPU內核,這些內核排列在四個(gè)集群中。至關(guān)重要的是,這些Big RISC-V CPU內核足夠強大,可以用作運行 Linux 的設備端主機。并且,還有與之配對的752 個(gè)“Baby RISC-V”內核,這些內核負責內存管理、片外通信和數據處理。

image.png

△Blackhole 加速器包含 16 個(gè) Big RISC-V 和 752 個(gè) Baby RISC-V 內核。

然而,Blackhole實(shí)際的AI計算則主要由 Tenstorrent自研的140 個(gè) Tensix AI內核處理,每個(gè)內核由五個(gè)“Baby RISC-V”內核、一對路由器、一個(gè)計算綜合體和一些 L1 緩存組成。

image.png

這個(gè)計算綜合體則是由一個(gè)旨在加速矩陣工作負載的平鋪數學(xué)引擎和一個(gè)矢量數學(xué)引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮點(diǎn)數據類(lèi)型,而矢量引擎則主要面向 FP32、INT16 和 INT32數據類(lèi)型。

根據Tenstorrent 的 AI 軟件和架構高級研究員 Davor Capalija 的說(shuō)法,這種配置意味著(zhù)該芯片可以支持 AI 和 HPC 應用中的各種常見(jiàn)數據模式,包括矩陣乘法、卷積和分片數據布局。

image.png

△Blackhole 的 Baby RISC-V核心可以進(jìn)行編程以支持各種數據移動(dòng)模式

總的來(lái)說(shuō),Blackhole 的 Tensix 內核占了總共752 個(gè)Baby RISC-V 內核中的 700 個(gè)。如上圖,其余的Baby RISC-V 內核則負責內存管理(“D”代表 DRAM)、片外通信(“E”代表以太網(wǎng))、系統管理(“A”)和 PCIe(“P”)。

Blackhole Galaxy系統

然而,就像英偉達的AI加速芯片通常被組成集群來(lái)使用一樣,Tenstorrent 的 Blackhole 也被設計為作為支持橫向擴展系統的一部分進(jìn)行部署。Tenstorrent計劃將 32 個(gè) Blackhole 加速器塞進(jìn)一個(gè) 4x8 網(wǎng)格網(wǎng)絡(luò )中,并將其稱(chēng)為 Blackhole Galaxy系統。

image.png

△Tenstorrent 的 Blackhole Galaxy 系統將 32 個(gè) Blackhole 加速器組成了一個(gè)集群,可以實(shí)現近 24 petaFLOPS 的 FP8 性能。

總的來(lái)說(shuō),單個(gè) Blackhole Galaxy 承諾可以帶來(lái)FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力,以及 1TB 的內存,能夠實(shí)現 16 TBps 的原始帶寬。

更重要的是,Tenstorrent 表示,該芯片的內核密集架構意味著(zhù)這些系統中的每一個(gè)都可以用作計算或內存節點(diǎn)或11.2TBps 高帶寬的AI 交換機。

“你可以把它當作樂(lè )高積木來(lái)制作一個(gè)完整的訓練集群,”Davor Capalija 說(shuō)。

image.png

Tenstorrent 認為,整個(gè)訓練集群可以只使用 Blackhole Galaxy 系統作為“樂(lè )高積木”來(lái)構建。

相比之下,英偉達最密集的 HGX/DGX A100 服務(wù)器系統基本都是8個(gè)GPU組成一個(gè)系統,其FP16性能不到 2.5 petaFLOPS,相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事實(shí)上,在系統級別,Blackhole Galaxy 應該可以與英偉達的HGX/DGX H100 和 H200系統競爭,后者在FP8數據類(lèi)型下,可以提供大約 15.8 petaFLOPS的算力。

Tenstorrent 使用板載以太網(wǎng)來(lái)進(jìn)行連接,意味著(zhù)它避免了與處理芯片到芯片和節點(diǎn)到節點(diǎn)網(wǎng)絡(luò )的多種互連技術(shù)相關(guān)的挑戰,就像英偉達使用 NVLink 和 InfiniBand/以太網(wǎng)一樣。在這方面,Tenstorrent 的橫向擴展策略與 英特爾的Gaudi系列AI加速器平臺非常相似,后者也使用以太網(wǎng)作為其主要互連。

構建軟件生態(tài)系統


除了芯片之外,Tenstorrent 還披露了其加速器的 TT-Metalium 低級編程模型。

熟悉英偉達CUDA 平臺的人都知道,即使競品的硬件性能表現比英偉達更高,配套的軟件也仍可以決定其成敗。Capalija 解釋說(shuō),事實(shí)上,TT-Metalium 有點(diǎn)讓人想起 CUDA 或 OpenCL 等 GPU 編程模型,因為它是異構的,但不同之處在于它是從“為 AI 和橫向擴展”計算而構建的。

這些差異之一是內核本身是帶有 API 的普通 C++?!拔覀冋J為不需要特殊的內核語(yǔ)言,”他解釋說(shuō)。

image.png

Tenstorrent 旨在支持許多標準模型運行時(shí),如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。結合包括 TT-NN、TT-MLIR 和 TT-Forge 在內的其他軟件庫,Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運行時(shí)在其加速器上運行任何 AI 模型。

對這些高級編程模型的支持應該有助于抽象出跨這些加速器部署工作負載的復雜性,類(lèi)似于我們在 AMD 和 Intel 加速器中看到的情況。

編輯:芯智訊-浪客劍 編譯自:theregister


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>