SemiDynamics詳細介紹了一體化 RISC-V NPU
西班牙的 SemiDynamics 開(kāi)發(fā)了一種完全可編程的神經(jīng)處理單元 (NPU) IP,它結合了 CPU、向量和張量處理,可為大型語(yǔ)言模型和 AI 推薦系統提供高達 256 TOPS 的吞吐量。
本文引用地址:http://dyxdggzs.com/article/202505/470145.htmCervell NPU 基于 RISC-V 開(kāi)放指令集架構,可從 8 個(gè)內核擴展到 64 個(gè)內核。這使設計人員能夠根據應用的要求調整性能,從緊湊型邊緣部署中 1GHz 的 8 TOPS INT8 到數據中心芯片中高端 AI 推理中的 256 TOPS INT4。
這是繼 12 月推出的一體化架構之后發(fā)布的,本白皮書(shū)中對此進(jìn)行了詳細介紹。
“Cervell 專(zhuān)為 AI 計算的新時(shí)代而設計,在這個(gè)時(shí)代,現成的解決方案是不夠的。作為 NPU,它提供從邊緣推理到大型語(yǔ)言模型的所有功能所需的可擴展性能。但真正讓它與眾不同的是它的構建方式:完全可編程,由于開(kāi)放式 RISC-V ISA 沒(méi)有鎖定,并且可以深度定制到指令級別。結合我們的 Gazillion Misses 內存子系統,Cervell 消除了傳統的數據瓶頸,并為芯片設計人員提供了強大的基礎,以構建差異化的高性能 AI 解決方案,“Semidynamics 首席執行官 Roger Espasa 說(shuō)。
Cervell NPU 專(zhuān)為加速矩陣密集型作而設計,可實(shí)現更高的吞吐量、更低的功耗和實(shí)時(shí)響應。通過(guò)將 NPU 功能與標準 CPU 和矢量處理集成到統一架構中,設計人員可以消除延遲并最大限度地提高各種 AI 任務(wù)(從推薦系統到深度學(xué)習管道)的性能。
Cervell 內核與 Gazillion Misses 內存管理子系統緊密集成。這支持多達 128 個(gè)同步內存請求,消除了超過(guò) 60 字節/周期的持續數據流的延遲停頓。此外,還可以大規模并行訪(fǎng)問(wèn)片外內存,這對于大型模型推理和稀疏數據處理至關(guān)重要。
這可以保持完整的管道飽和,即使在推薦系統和深度學(xué)習等帶寬密集型應用程序中也是如此。
該內核是完全可定制的,能夠添加標量或矢量指令,配置暫存器存儲器和自定義 I/O FIFO,并定義存儲器接口和同步方案,以提供面向未來(lái)的差異化 AI 硬件。
這種 RTL 級別的深度定制,包括插入客戶(hù)定義的指令,使公司能夠將唯一的 IP 直接集成到解決方案中,保護其 ASIC 投資免受模仿,并確保設計針對功耗、性能和面積進(jìn)行全面優(yōu)化。開(kāi)發(fā)模型包括早期 FPGA drop 和并行驗證,以減少開(kāi)發(fā)時(shí)間和風(fēng)險。
Configuration | INT8 @ 1GHz | INT4 @ 1GHz | INT8 @ 2GHz | INT4 @ 2GHz |
C8 | 8 TOPS | 16 TOPS | 16 TOPS | 32 TOPS |
C16 | 16 TOPS | 32 TOPS | 32 TOPS | 64 TOPS |
C32 | 32 TOPS | 64 TOPS | 64 TOPS | 128 TOPS |
C64 | 64 TOPS | 128 TOPS | 128 TOPS | 256 TOPS |
評論