Arm Ethos-U85:滿(mǎn)足物聯(lián)網(wǎng)面向 AI 時(shí)代的高性能需求
隨著(zhù)人工智能 (AI) 不斷對我們的日常生活產(chǎn)生越來(lái)越大的影響,其推理任務(wù)也逐漸從云端遷移到邊緣側和端側。邊緣側推理為板載設備引入智能化能力,使數據能夠在本地進(jìn)行處理,并實(shí)時(shí)做出決策,同時(shí)提高了數據隱私性和安全性。
Arm Ethos NPU
Arm 多年來(lái)不斷開(kāi)發(fā)邊緣 AI 加速器,以滿(mǎn)足邊緣側和端側不斷增長(cháng)的推理工作負載需求。此前兩款成功的 NPU 產(chǎn)品——Arm? Ethos?-U55 和 Ethos-U65,為邊緣側和端側 AI 應用帶來(lái)了高性能、高能效的解決方案。
Ethos-U55 通常部署在基于 Cortex?-M 的異構系統中。而 Ethos-U65 則將 Ethos-U 系列的適用性擴展到基于 Cortex-A 的系統中,并為設備上的機器學(xué)習 (ML) 能力帶來(lái)了兩倍的性能提升。這兩款產(chǎn)品均提供統一的工具鏈,可簡(jiǎn)化開(kāi)發(fā)并支持常見(jiàn)的 ML 神經(jīng)網(wǎng)絡(luò )運算,包括卷積神經(jīng)網(wǎng)絡(luò ) (CNN) 和循環(huán)神經(jīng)網(wǎng)絡(luò ) (RNN)。
Transformer 架構的影響
于 2017 年問(wèn)世的Transformer 架構徹底改變了生成式 AI,并成為許多新型神經(jīng)網(wǎng)絡(luò )的首選架構?;?/span> Transformer 架構的模型可利用注意力機制處理序列數據,并在機器翻譯、自然語(yǔ)言理解、語(yǔ)音識別、分割和圖像字幕生成等多項 AI 任務(wù)中實(shí)現優(yōu)異的效果。
這些模型可被調整和壓縮,在不過(guò)多影響準確度的情況下,能高效運行于邊緣設備上,并在許多邊緣側和端側用例中發(fā)揮領(lǐng)先的優(yōu)勢。
全新 Ethos-U85 NPU
依托 Ethos-U 系列 NPU 過(guò)往的成功經(jīng)驗,Arm 推出了全新產(chǎn)品—— Ethos-U85。該處理器秉承此前 Ethos-U NPU 一貫的高性能、高能效設計理念,并可同時(shí)為邊緣側和端側設備上采用 Transformer 架構的現有和未來(lái)的工作負載提供支持。
Ethos-U85 是 Arm Ethos-U 產(chǎn)品線(xiàn)中的第三代 NPU,也是迄今為止性能和能效最強的 Ethos NPU。與上一代產(chǎn)品相比,該 NPU 的性能提升了四倍,能效提高了 20%,并且可在主流網(wǎng)絡(luò )上實(shí)現高達 85% 的利用率。全新 Ethos-U85 可滿(mǎn)足諸如工廠(chǎng)自動(dòng)化和商用或智能家居攝像頭等物聯(lián)網(wǎng)應用不斷攀升的性能需求。此外,其專(zhuān)為搭配基于 Cortex-M 或 Cortex-A的系統一同運行而設計,并容忍高 DRAM 延遲。
Ethos-U85 的主要特性包括:
? 單周期支持從 128 到 2048 個(gè) MAC單元的配置——在 1GHz 時(shí),算力可支持從 256 GOPS 到 4 TOPS。
? 支持 int8 權重和 int8 或 int16 激活。
? 支持 Transformer 架構網(wǎng)絡(luò ),以及 CNN 和 RNN。
? 硬件原生支持 2/4 稀疏性,使吞吐量翻倍。
? 內部 SRAM 為 29 至 267 KB,多達六個(gè) 128 位 AXI5 接口。
? 支持權重壓縮,采用標準和快速權重編碼器。
? 支持擴展壓縮。
除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通過(guò)支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等運算,Ethos-U85 涵蓋了對 Transformer 模型和 DeeplabV3 語(yǔ)義分割網(wǎng)絡(luò )的原生硬件支持。
Ethos-U85 也支持元素級算子鏈化。通過(guò)鏈化將元素級運算與先前的運算相結合,使 SRAM 不必先寫(xiě)入再讀取中間張量。由此可憑借 NPU 和內存之間數據傳輸量的減少,提高 NPU 的效率。相比于 Ethos-U65,鏈化是 Ethos-U85 在效率提升上的新功能之一,其余還包括快速的權重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。
Ethos-U85 可用于與 Ethos-U55 和 Ethos-U65 相同的系統配置流程,并且我們支持從基于 Cortex-A 的系統直接驅動(dòng) Ethos-U85 的功能。
Ethos-U85 支持與上一代Ethos-U系列產(chǎn)品相同的軟件工具鏈, 即使用TFLmicro運行時(shí)。此外,在這個(gè)基礎上,Ethos-U85 同時(shí)還能為更廣泛采用 Transformer 架構的用例提供支持,這對于已經(jīng)投入在基于 Cortex-A/Cortex-M 與 Ethos-U55/Ethos-U65 的系統廠(chǎng)商來(lái)說(shuō),將能擴大其過(guò)往的投資價(jià)值。未來(lái),我們預計將支持面向邊緣設備的 PyTorch 運行時(shí) ExecuTorch。
Ethos-U85 支持的算子將在 NPU 上進(jìn)行加速,對于特殊算子不支持的情況,其中部分算子將調用CMSIS-NN庫實(shí)現在Cortex-M系統上進(jìn)行加速。例如,在 tinyLlama 的用例中,該模型算子可完全映射到 Ethos-U85,沒(méi)有算子回退到 CPU。
Ethos-U85 擔任了 Arm 全新物聯(lián)網(wǎng)參考設計平臺 Corstone-320 的核心角色,該參考設計平臺加快了各類(lèi) AIoT 解決方案中高性能 SoC 的開(kāi)發(fā)和部署。
釋放邊緣AI 的無(wú)限潛力
Ethos-U85 將提供在邊緣側和端側設備上執行領(lǐng)先 AI 功能所需的算力。隨著(zhù) AI 時(shí)代的不斷發(fā)展,我們的合作伙伴將獲得基于 Arm Ethos-U 的可靠、高效兼具高性能的解決方案。我們預計在新興的邊緣 AI 用例、智能家居、零售或工業(yè)場(chǎng)景中看到Ethos-U85 被廣泛部署,這些用例和場(chǎng)景需要更高的計算性能,并支持新型的 AI 框架。
Arm 引以為傲的是,我們不斷通過(guò)前沿的軟硬件解決方案,為合作伙伴與生態(tài)系統提供強而有力的支持。全新 Ethos-U85 的推出將釋放邊緣側和端側 AI 推理用例的無(wú)限潛能,從而改變世界。Arm 正在引領(lǐng)邊緣 AI 的創(chuàng )新提升至全新水平,并持續夯實(shí) Arm 成為未來(lái)邊緣 AI 的基石。
評論