Tenstorrent推出基于RISC-V架構的高性能AI芯片
7月20日消息,由傳奇芯片架構師Jim Keller領(lǐng)導的AI芯片新創(chuàng )公司Tenstorrent近日通過(guò)官網(wǎng)宣布,推出新一代基于RISC-V架構的高性能AI芯片Wormhole n150,以及基于該芯片的PCIe卡Wormhole n300和面向軟件開(kāi)發(fā)人員的 TT-LoudBox 和 TT-QuietBox 工作站。
Tenstorrent 首席執行官 Jim Keller 表示:“將更多產(chǎn)品交到開(kāi)發(fā)人員手中總是有益的。使用我們的 Wormhole 卡發(fā)布開(kāi)發(fā)系統有助于開(kāi)發(fā)人員擴大規模并開(kāi)發(fā)多芯片 AI 軟件。除了這次發(fā)布之外,我們很高興我們的第二代 Blackhole 的流片和通電進(jìn)展非常順利?!?/p>
據介紹,Wormhole n150采用 Tenstorrent 自研的靈活、可擴展的Wormhole Tensix 人工智能計算內核,擁有72核心和 108 MB SRAM,主頻為1GHz,運行功率高達 160W,可以提供262 TeraFLOPs (FP8)的算力。單****配備了 12 GB GDDR6 內存,帶寬為 288 GB/s。
需要指出的是,Tenstorrent 的每一個(gè)Tensix 人工智能計算內核內部都集成了 5 個(gè)支持各種數據格式的基于 RISC-V 架構的微處理器。
Tenstorrent稱(chēng),與傳統 GPU 相比,Wormhole n150提供卓越的性?xún)r(jià)比和廣泛的數據精度格式支持。同時(shí),還可以聯(lián)網(wǎng)成工作站和服務(wù)器的多芯片網(wǎng)格,并由兩個(gè)開(kāi)源SDK支持,用于高級(TT-Buda)或低級(TT-Metalium)開(kāi)發(fā),還包括主動(dòng)冷卻套件。
Wormhole n300 就是由兩顆Wormhole n150芯片組成的PCIe加速卡,擁有128 個(gè)Wormhole Tensix 核心,主頻1GHz,192 MB SRAM,以及板載24 GB GDDR6,頻率為 576 GB/s,可以在300W 下提供高達 466 FP8 TFLOPS的算力。軟件配套方面與Wormhole n150s一致。
Tenstorrent 還推出了新的工作站,包括 TT-QuietBox和TT-LoudBox。
TT-QuietBox 是一款液冷桌面工作站,是面向運行或測試 AI 模型的開(kāi)發(fā)人員的絕佳解決方案,或者是為 HPC 移植和開(kāi)發(fā)庫的絕佳解決方案。TT-QuietBox 配備了AMD 的 EPYC 處理器和四張Wormhole n300加速卡,總共有 8 個(gè) Wormhole Tensix 處理器。這些處理器通過(guò)靈活的、基于以太網(wǎng)的網(wǎng)狀拓撲連接,該拓撲可以擴展以實(shí)現 96GB 內存池。這使得TT-QuietBox能夠運行多達約800億個(gè)參數的單用戶(hù)/單模型和多達約200億個(gè)參數的單用戶(hù)/多用戶(hù)、多個(gè)模型。TT-QuietBox 也由兩個(gè)開(kāi)源 SDK 支持,用于高級 (TT-Buda) 或低級 (TT-Metalium) 開(kāi)發(fā)。
TT-LoudBox 主要為希望運行、測試和開(kāi)發(fā) AI 模型或移植和開(kāi)發(fā) HPC 庫的開(kāi)發(fā)人員提供卓越的性?xún)r(jià)比的解決方案。其配備了英特爾的Xeon處理器,和備四張Wormhole n300加速卡,總共有 8 個(gè) Wormhole Tensix 處理器,這種基于以太網(wǎng)的靈活網(wǎng)狀拓撲結構可以擴展以實(shí)現 96GB 內存池。這使得TT-LoudBox能夠運行多達約800億個(gè)參數的單用戶(hù)/單模型和多達約200億個(gè)參數的單用戶(hù)/多用戶(hù)、多個(gè)模型。TT-LoudBox 也由兩個(gè)開(kāi)源 SDK 支持,用于高級 (TT-Buda) 或低級 (TT-Metalium) 開(kāi)發(fā)。
定價(jià)方面,Tenstorrent 的 Wormhole n150 零售價(jià)為 999 美元,Wormhole n150零售價(jià)為1,399 美元,這個(gè)價(jià)格要比市場(chǎng)競爭對手的產(chǎn)品的便宜得多。TT-LoudBox 工作站零售價(jià)為 6,000 美元,而 TT-QuietBox 工作站的零售價(jià)為 15,000 美元。
小結:
從上面的介紹當中,我們可以看到,雖然Tenstorrent的Wormhole n150芯片的算力并不高,與英偉達、AMD、英特爾的AI芯片仍有一定差距。作為對比,英偉達的H100在300W功率時(shí)其FP8的性能高達 1,670 TFLOPS(稀疏時(shí)為 3,341 TFLOPS),遠高于160W功率下的Wormhole n150(262 TeraFLOPs ),也高于300W 功率下的Wormhole n300加速卡的算力(466 FP8 TFLOPS)。
雖然從紙面上看,Wormhole 系列AI芯片及加速卡性能不高,但 Tenstorrent 計劃通過(guò)提供巨大的可擴展性來(lái)使其 AI 產(chǎn)品具有競爭力。這意味著(zhù)當需要統一電源時(shí),多個(gè)Wormhole 處理器可以作為一個(gè)單元運行,或者它們也可以單獨使用,這一切都是因為使用了以太網(wǎng)互連,這是也是Jim Keller高度贊賞的。也就是說(shuō),要達到類(lèi)似英偉達H100的算力,可能需要4張Wormhole n300加速卡互聯(lián)就可以辦到。
并且,在價(jià)格方面,一張英偉達H100 加速卡的零售價(jià)高達 30,000 美元,而Wormhole n150的零售價(jià)僅為 999 美元,4張Wormhole n300加速卡的零售價(jià)也只有不到4000美元,僅為H100的約1/8。
Jim Keller此前也曾批評英偉達等公司的人工智能芯片昂貴,顯然Tenstorrent正是希望提供更具性?xún)r(jià)比的解決方案。
而Wormhole AI芯片之所以能夠做到具備更高的性?xún)r(jià)比,一個(gè)關(guān)鍵原因是因為其并未像英偉達、AMD、英特爾的AI芯片那樣配備的大容量的HBM(高帶寬內存),這是這些AI芯片關(guān)鍵組件,但是其成本高昂,并且功耗較高。而Wormhole AI芯片則是與Groq的LPU芯片一樣,選擇采用了高帶寬的片上SRAM,雖然其容量與常見(jiàn)的AI芯片中動(dòng)輒幾十GB、甚至上百GB容量的HBM差距巨大,但由于其直接是在集成在片內的,無(wú)需將數據從GPU到HBM來(lái)回搬運,數據處理速度更快、更高效、功耗也較低,綜合成本也更低。
Jim Keller認為,全新方式可讓Tenstorrent芯片在部分AI應用領(lǐng)域取代GPU及HBM。此外,Tenstorrent也會(huì )盡量提升產(chǎn)品成本效益。不過(guò),Jim Keller也坦言想要動(dòng)搖目前規模日益龐大的HBM產(chǎn)業(yè),恐怕需要花上數年時(shí)間。他預測,未來(lái)將有更多新興AI芯片公司進(jìn)入英偉達目前還無(wú)法服務(wù)到的AI市場(chǎng),但不是出現單獨一家完全取代英偉達的企業(yè)。
編輯:芯智訊-浪客劍
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。