<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 消費電子 > 設計應用 > 給 AI 換個(gè)“大動(dòng)力小心臟”之通用 CNN 加速設計

給 AI 換個(gè)“大動(dòng)力小心臟”之通用 CNN 加速設計

作者: 時(shí)間:2018-07-24 來(lái)源:網(wǎng)絡(luò ) 收藏

導語(yǔ)

本文引用地址:http://dyxdggzs.com/article/201807/383666.htm

基于的通用CNN加速設計,可以大大縮短開(kāi)發(fā)周期,支持業(yè)務(wù)深度學(xué)習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數量級的延時(shí)優(yōu)勢,為業(yè)務(wù)構建最強勁的實(shí)時(shí)AI服務(wù)能力。

WHEN?深度學(xué)習異構計算現狀

隨著(zhù)互聯(lián)網(wǎng)用戶(hù)的快速增長(cháng),數據體量的急劇膨脹,數據中心對計算的需求也在迅猛上漲。同時(shí),人工智能、高性能數據分析和金融分析等計算密集型領(lǐng)域的興起,對計算能力的需求已遠遠超出了傳統CPU處理器的能力所及。

異構計算被認為是現階段解決此計算溝壑的關(guān)鍵技術(shù),目前 “CPU+GPU”以及“CPU+” 是最受業(yè)界關(guān)注的異構計算平臺。它們具有比傳統CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場(chǎng),科技行業(yè)大量企業(yè)投入了大量的資金和人力,異構編程的開(kāi)發(fā)標準也在逐漸成熟,而主流的云服務(wù)商更是在積極布局。

WHY?通用CNN FPGA加速

業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來(lái)做AI inference加速,FPGA相較于其他器件的優(yōu)勢是什么呢?

Flexibility:可編程性天然適配正在快速演進(jìn)的ML算法

DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹(shù)等等

任意精度動(dòng)態(tài)支持

模型壓縮、稀疏網(wǎng)絡(luò )、更快更好的網(wǎng)絡(luò )

Performance:構建實(shí)時(shí)性AI服務(wù)能力

相較于GPU/CPU數量級提升的低延時(shí)預測能力

相較于GPU/CPU數量級提升的單瓦特性能能力

Scale

板卡間高速互聯(lián)IO

Intel CPU-FPGA構架

與此同時(shí),FPGA的短板也非常的明顯,FPGA使用HDL硬件描述語(yǔ)言來(lái)進(jìn)行開(kāi)發(fā),開(kāi)發(fā)周期長(cháng),入門(mén)門(mén)檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例,針對一個(gè)模型進(jìn)行定制的加速開(kāi)發(fā),往往需要數月的時(shí)間。業(yè)務(wù)方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。

一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時(shí)高性能服務(wù),一方面需要FPGA的開(kāi)發(fā)周期跟上深度學(xué)習算法的迭代周期,基于這兩點(diǎn)我們設計開(kāi)發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設計,以編譯器產(chǎn)生指令的方式來(lái)驅動(dòng)模型加速,可以短時(shí)間內支持模型切換;同時(shí),對于新興的深度學(xué)習算法,在此通用基礎版本上進(jìn)行相關(guān)算子的快速開(kāi)發(fā)迭代,模型加速開(kāi)發(fā)時(shí)間從之前的數月降低到現在的一到兩周之內。

HOW?通用CNN FPGA架構

基于FPGA的通用CNN加速器整體框架如下,通過(guò)Caffe/Tensorflow/Mxnet等框架訓練出來(lái)的CNN模型,通過(guò)編譯器的一系列優(yōu)化生成模型對應的指令;同時(shí),圖片數據和模型權重數據按照優(yōu)化規則進(jìn)行預處理以及壓縮后通過(guò)PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區中的指令集驅動(dòng)工作,加速器執行一遍完整指令緩沖區中的指令則完成一張圖片深度模型的計算加速工作。每個(gè)功能模塊各自相對獨立,只對每一次單獨的模塊計算請求負責。加速器與深度學(xué)習模型相抽離,各個(gè)layer的數據依賴(lài)以及前后執行關(guān)系均在指令集中進(jìn)行。

簡(jiǎn)單而言,編譯器的主要工作就是對模型結構進(jìn)行分析優(yōu)化,然后生成FPGA高效執行的指令集。編譯器優(yōu)化的指導思想是:更高的MAC dsp計算效率以及更少的內存訪(fǎng)問(wèn)需求。

接下來(lái)我們以Googlenet V1模型為例,對加速器的設計優(yōu)化思路做簡(jiǎn)單的分析。Inception v1的網(wǎng)絡(luò ),將1x1、3x3、5x5的conv和3x3的pooling stack在一起,一方面增加了網(wǎng)絡(luò )的width,另一方面增加了網(wǎng)絡(luò )對尺度的適應性。下圖為模型中Inception的基本結構。

數據依賴(lài)關(guān)系分析

此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設計可以提高加速器中的計算單元利用率,并行化的計算可以在同一時(shí)刻利用盡量多的計算單元。

關(guān)于流水,分析部分包括數據從DDR加載到FPGA片上SRAM的操作與PE進(jìn)行計算的流水,通過(guò)此項優(yōu)化將內存訪(fǎng)問(wèn)的時(shí)間overlap;DSP計算整列的計算過(guò)程,保證DSP利用率的提升。

關(guān)于并行,需要重點(diǎn)分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關(guān)系,如何確定好數據依賴(lài)關(guān)系以及防止沖突是此處設計關(guān)鍵。在Inception中,可以從其網(wǎng)絡(luò )結構中看到,branch a/b/c的1x1的卷積計算與branch d中的pooling是可以并行計算的,兩者之間并不存在數據依賴(lài)關(guān)系。通過(guò)此處優(yōu)化,3x3 max pooling layer的計算就可以被完全overlap。

模型優(yōu)化

在設計中主要考慮兩個(gè)方面:尋找模型結構優(yōu)化以及支持動(dòng)態(tài)精度調整的定點(diǎn)化。

FPGA是支持大量計算并行的器件,從模型結構上尋找更高維度的并行性,對于計算效率以及減少內存訪(fǎng)問(wèn)都十分有意義。在Inception V1中,我們可以看到branch a branch b branch c的第一層1x1卷積層,其輸入數據完全一致,且卷積layer的stride以及pad均一致。那我們是否可以在output feature map維度上對齊進(jìn)行疊加?疊加后對input data的訪(fǎng)存需求就降低到了原來(lái)的1/3。

另一方面,為了充分發(fā)揮FPGA硬件加速的特性,模型的Inference過(guò)程需要對模型進(jìn)行定點(diǎn)化操作。在fpga中,int8的性能可以做到int16的2倍,但是為了使公司內以及騰訊云上的客戶(hù)可以無(wú)感知的部署其訓練的浮點(diǎn)模型,而不需要retrain int8模型來(lái)精度損失,我們采用了支持動(dòng)態(tài)精度調整的定點(diǎn)化int16方案。通過(guò)此種方法,用戶(hù)訓練好的模型可以直接通過(guò)編譯器進(jìn)行部署,而幾乎無(wú)任何精度損失。

內存架構設計

帶寬問(wèn)題始終是計算機體系結構中制約性能的瓶頸之一,同時(shí)內存訪(fǎng)問(wèn)直接影響加速器件功耗效率。

為了最大化的減少模型計算過(guò)程中的DDR訪(fǎng)存,我們設計了如下的內存架構:

Input buff以及output buffer ping-pong設計,最大化流水以及并行能力

支持Input buff和output buffer自身之間的inner-copy操作

Input buff和output buffer之間的cross-copy操作

通過(guò)這種架構,對于大多數目前主流模型,加速器可以做到將中間數據全部hold在FPGA片上,除了模型權重的加載外,中間無(wú)需消耗任何額外的內存操作。對于無(wú)法將中間層feature map完全存儲在片上的模型,我們在設計上,在Channel維度上引入了slice分片的概念,在feature map維度上引入了part分片的概念。通過(guò)編譯器將一次卷積或是poolingNorm操作進(jìn)行合理的拆分,將DDR訪(fǎng)存操作與FPGA加速計算進(jìn)行流水化操作,在優(yōu)先保證DSP計算效率的前提下盡量減少了DDR的訪(fǎng)存需求。

計算單元設計

基于FPGA的通用CNN加速器的核心是其計算單元,本加速器當前版本基于Xilinx Ku115芯片設計,PE計算單元由4096個(gè)工作在500MHz的MAC dsp核心構成,理論峰值計算能力4Tflops。其基本組織框架如下圖所示。

KU115芯片由兩個(gè)DIE對堆疊而成,加速器平行放置了兩組處理單元PE。每個(gè)PE由4組32x16=512的MAC計算DSP核心組成的XBAR構成,設計的關(guān)鍵在于提升設計中的數據復用降低帶寬,實(shí)現模型權重復用和各layer feature map的復用,提升計算效率。

應用場(chǎng)景及性能對比

當前深度學(xué)習主流使用GPU做深度學(xué)習中的Training過(guò)程,而線(xiàn)上Inference部署時(shí)需綜合考慮實(shí)時(shí)性、低成本以及低功耗特性選擇加速平臺。按深度學(xué)習落地場(chǎng)景分類(lèi),廣告推薦、語(yǔ)音識別、圖片/視頻內容實(shí)時(shí)監測等屬于實(shí)時(shí)性AI服務(wù)以及智慧交通、智能音箱以及無(wú)人駕駛等終端實(shí)時(shí)低功耗的場(chǎng)景,FPGA相較于GPU能夠為業(yè)務(wù)提供強有力的實(shí)時(shí)高性能的支撐。

對于使用者而言,平臺性能、開(kāi)發(fā)周期以及易用性究竟如何呢?

加速性能

以實(shí)際googlenet v1模型為例,CPU測試環(huán)境:2個(gè)6核CPU(E5-2620v3),64G內存。

將整機CPU打滿(mǎn),單張基于KU115的加速器相較于CPU性能提升16倍,單張圖片檢測延時(shí)從250ms降低到4ms,TCO成本降低90%。

同時(shí),FPGA預測性能略強于Nvidia的GPU P4,但延時(shí)上有一個(gè)數量級的優(yōu)化。

開(kāi)發(fā)周期

通用的CNN FPGA加速架構,能夠支持業(yè)務(wù)快速迭代持續演進(jìn)中的深度學(xué)習模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。

對于經(jīng)典模型以及基于標準layer自研的算法變種,現有加速架構已經(jīng)可以支持,可以在一天內通過(guò)編譯器實(shí)現模型對應指令集,實(shí)現部署上線(xiàn)。

對于自研的特殊模型,例如不對稱(chēng)卷積算子和不對稱(chēng)pooling操作等,需要根據實(shí)際模型結構在本平臺上進(jìn)行相關(guān)算子迭代開(kāi)發(fā),開(kāi)發(fā)周期可縮短在一到兩周之內進(jìn)行支持。

易用性

FPGA CNN加速器對底層加速過(guò)程進(jìn)行封裝,向上對加速平臺的業(yè)務(wù)方提供易用SDK。業(yè)務(wù)方調用簡(jiǎn)單的API函數即可完成加速操作,對業(yè)務(wù)自身邏輯幾乎無(wú)任何改動(dòng)。

結語(yǔ)

基于FPGA的通用CNN加速設計,可以大大縮短FPGA開(kāi)發(fā)周期,支持業(yè)務(wù)深度學(xué)習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數量級的延時(shí)優(yōu)勢。通用的RNN/DNN平臺正在緊張研發(fā)過(guò)程中,FPGA加速器為業(yè)務(wù)構建最強勁的實(shí)時(shí)AI服務(wù)能力。

在云端,2017年初,我們在騰訊云首發(fā)了國內第一臺FPGA公有云服務(wù)器,我們將會(huì )逐步把基礎AI加速能力推出到公有云上。

AI異構加速的戰場(chǎng)很大很精彩,為公司內及云上業(yè)務(wù)提供最優(yōu)的解決方案是架平FPGA團隊持續努力的方向。

如果線(xiàn)上模型需要改動(dòng),只需調用模型初始化函數,將對應的模型指令集初始化FPGA即可,加速業(yè)務(wù)可以在幾秒內進(jìn)行切換。



關(guān)鍵詞: FPGA 控制

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>