<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 專(zhuān)為現代AI計算打造?IBM AIU芯片解析:5nm制程,32核心,230億個(gè)晶體管!

專(zhuān)為現代AI計算打造?IBM AIU芯片解析:5nm制程,32核心,230億個(gè)晶體管!

發(fā)布人:芯智訊 時(shí)間:2022-11-16 來(lái)源:工程師 發(fā)布文章

今年10月,IBM發(fā)布了旗下首款人工智能計算單元(Artificial Intelligent Unit,AIU)片上系統,這是一種專(zhuān)用集成電路 (ASIC),旨在更快、更高效地訓練和運行需要大規模并行計算的深度學(xué)習模型。

AIU:專(zhuān)為現代AI計算打造

在過(guò)去多年來(lái),業(yè)界主要是利用CPU、GPU來(lái)運行深度學(xué)習模型,但是隨著(zhù)人工智能模型的數量正呈指數級增長(cháng),同時(shí)深度學(xué)習模型也越來(lái)越龐大,有數十億甚至數萬(wàn)億的參數,需要的算力也是越來(lái)越高,而CPU、GPU這類(lèi)傳統架構的芯片的AI算力增長(cháng)已經(jīng)遇到了瓶頸。

圖片深度神經(jīng)網(wǎng)絡(luò )對于算力的需求增長(cháng)迅速

根據 IBM 的說(shuō)法,深度學(xué)習模型傳統上依賴(lài)于 CPU 和 GPU 協(xié)處理器的組合來(lái)訓練和運行模型。CPU 的靈活性和高精度非常適合通用軟件應用程序,但是,在訓練和運行需要大規模并行 AI 操作的深度學(xué)習模型時(shí),CPU卻處于劣勢。GPU最初是為渲染圖形圖像而開(kāi)發(fā)的,但后來(lái)該技術(shù)發(fā)現了在A(yíng)I計算中使用的優(yōu)勢。但是,CPU和GPU都是在深度學(xué)習革命之前設計的,現在他們的效率增長(cháng)已經(jīng)落后于深度學(xué)習對于算力的指數級增長(cháng),業(yè)界真正需要的是針對矩陣和向量乘法運算類(lèi)型進(jìn)行優(yōu)化的通用芯片來(lái)進(jìn)行深度學(xué)習。

基于此,IBM Research AI Hardware Center在過(guò)去五年中一直專(zhuān)注于開(kāi)發(fā)下一代芯片和人工智能系統,希望以每年將人工智能硬件效率提高 2.5 倍,并能夠在 2029 年以比 2019 年快1000倍的速度訓練和運行人工智能模型。而最新AIU芯片則是IBM推出的首款針對現代 AI 統計數據定制的芯片。

IBM表示,AIU是專(zhuān)為加速深度學(xué)習模型使用的矩陣和向量計算而設計和優(yōu)化。AIU 可以解決計算復雜的問(wèn)題,并以遠遠超過(guò) CPU 能力的速度執行數據分析。

那么IBM AIU是如何實(shí)現針對深度學(xué)習優(yōu)化的呢?答案是:“近似計算”+“簡(jiǎn)化人工智能工作流程”。

擁抱低精度,采用近似計算

從歷史上看,很多AI計算依賴(lài)于高精度 64 位和 32 位浮點(diǎn)運算。IBM 認為AI計算并不總是需要這種精確度。它有一個(gè)降低傳統計算精度的術(shù)語(yǔ)——“近似計算”。在其博客中,IBM 解釋了使用近似計算的基本原理:

“對于常見(jiàn)的深度學(xué)習任務(wù),我們是否需要這種準確度?我們的大腦是否需要高分辨率圖像來(lái)識別家庭成員或貓?當我們輸入一個(gè)文本線(xiàn)程進(jìn)行搜索時(shí),我們是否需要第 50,002 個(gè)最有用的回復與第 50,003 個(gè)最有用的回復的相對排名的精度?答案是,包括這些示例在內的許多任務(wù)都可以通過(guò)近似計算來(lái)完成?!?/p>

基于此,IBM 首創(chuàng )了的一種稱(chēng)為近似計算的技術(shù),可以從32位浮點(diǎn)運算下降到包含四分之一信息的混合8位浮點(diǎn)(HFP8) 計算格式。這種簡(jiǎn)化的格式極大地減少了訓練和運行 AI 模型所需的數字運算量,并且不會(huì )犧牲準確性。

更精簡(jiǎn)的位格式還減少了另一個(gè)對速度的拖累:只需將更少的數據移入和移出內存,即運行AI模型對于內存的占用更少了。

IBM在其新的AIU芯片的設計當中融入了近似計算技術(shù),使得AIU芯片的精度需求大幅低于 CPU 所需的精度。較低的精度對于在新的 AIU 硬件加速器中實(shí)現高計算密度至關(guān)重要。AIU使用混合 8 位浮點(diǎn) (HFP8) 計算,而不是通常用于 AI 訓練的32位浮點(diǎn)或16位浮點(diǎn)運算。較低精度的計算使芯片的運行速度比 FP16 計算快 2 倍,同時(shí)提供類(lèi)似的訓練結果。

雖然低精度計算對于獲得更高的密度和更快的計算是必要的,但深度學(xué)習 (DL) 模型的精度必須與高精度計算保持一致。

簡(jiǎn)化人工智能工作流程

由于大多數 AI 計算都涉及矩陣和向量乘法,因此IBM AIU芯片架構具有比多用途 CPU 更簡(jiǎn)單的布局。IBM AIU還針對將數據直接從一個(gè)計算引擎發(fā)送到另一個(gè)計算引擎進(jìn)行設計,從而節省大量能耗。

圖片

據IBM介紹,其AIU芯片是一個(gè)完整的片上系統,是基于IBM此前的Telum芯片(7nm工藝)中內置的經(jīng)過(guò)驗證的 AI 加速器的擴展版本,并且采用了更先進(jìn)的5nm制程工藝,具有 32 個(gè)處理內核并包含 230 億個(gè)晶體管。IBM AIU 還被設計為像顯卡一樣易于使用。它可以插入任何帶有 PCIe 插槽的計算機或服務(wù)器。

圖片

IBM表示,“部署 AI 對照片中的貓和狗進(jìn)行分類(lèi)是一項有趣的學(xué)術(shù)活動(dòng)。但它不會(huì )解決我們今天面臨的緊迫問(wèn)題。我們要讓 AI 解決現實(shí)世界的復雜性——比如預測下一個(gè)颶風(fēng)伊恩,或者我們是否正在走向衰退——我們需要企業(yè)級的工業(yè)級硬件。我們的 AIU 讓這一愿景更近了一步?!?br />

IBM AIU表現如何?

IBM并未在其官網(wǎng)公布更多關(guān)其AIU芯片的技術(shù)信息。不過(guò),我們可以通過(guò)回顧 IBM在 2021 年國際固態(tài)電路會(huì )議(ISSCC)上展示其早期 7nm 芯片設計的性能結果時(shí)的初始原型演示來(lái)對其性能有所了解。

IBM 用于會(huì )議演示的原型不是 32 個(gè)內核,而是一個(gè)實(shí)驗性的 4 核 7nm AI 芯片,支持 FP16 和混合FP8 格式,用于訓練和推理深度學(xué)習模型。它還支持用于擴展推理的 int4 和 int2 格式。2021 年 Lindley Group通訊中包含了原型芯片性能的摘要,該通訊報道了 IBM 當年的演示:

  • 在峰值速度下,使用 HFP 8,該7nm芯片實(shí)現了每秒每瓦特 (TF/W) 1.9 teraflops。


  • 使用INT4進(jìn)行推理,該實(shí)驗芯片達到16.5 TOPS/W,優(yōu)于高通低功耗Cloud AI模組。


考慮到IBM AIU是該測試芯片的擴展版本,并且制程工藝也升級到了5nm,因此預計其整體能效將進(jìn)一步提升,同時(shí)隨著(zhù)核心數量由4核上升到32核,其整體的峰值算力有望提升超過(guò)8倍。

Forbes的分析師認為,由于缺乏信息,無(wú)法將IBM的AIU與目前被用于A(yíng)I計算的GPU相比較。但是,預計該芯片的價(jià)格將會(huì )在1500 美元到 2000 美元之間。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

模擬信號相關(guān)文章:什么是模擬信號


鎖相放大器相關(guān)文章:鎖相放大器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>