加速實(shí)現網(wǎng)絡(luò )邊緣低功耗人工智能應用
架構轉變和網(wǎng)絡(luò )邊緣日益增長(cháng)的智能需求
本文引用地址:http://dyxdggzs.com/article/201805/380325.htm自第一臺電腦發(fā)明以來(lái),尋求最理想系統架構的路途始終充滿(mǎn)坎坷。從計算發(fā)展史中可以看出,系統架構始終在計算資源遠離用戶(hù)的集中式架構和處理資源靠近用戶(hù)的分布式架構之間反復搖擺。曾于20世紀70年代和80年代流行的基于服務(wù)器的方案則采用高度集中化的方法積蓄計算資源和存儲能力。但是這一理念很快在低成本個(gè)人電腦和互聯(lián)網(wǎng)快速發(fā)展的80和90年代衰落了。在這種新的架構模式下,計算任務(wù)不斷向個(gè)人電腦傾斜。
圍繞個(gè)人電腦構建的高度分布式方案似乎無(wú)懈可擊,直到以智能手機、平板電腦和筆記本電腦為代表的高流動(dòng)性工具大行其道。四處攜帶計算硬件和存儲資源瞬間成為了一種累贅。系統架構隨之緩慢地將任務(wù)移到云端,利用其近乎無(wú)限的計算和存儲資源、高可靠性以及低成本。
企業(yè)也在使用云端削減資本成本和更高效地管理IT基礎設施相關(guān)的運維成本。隨著(zhù)他們采用機器學(xué)習和更高級的人工智能技術(shù),云端將扮演著(zhù)至關(guān)重要的角色。即將來(lái)臨的新一代智能工廠(chǎng)、智慧城市和智能家居需要云端來(lái)高效管理機器視覺(jué)系統、協(xié)調交通模式以及最小化功耗。
但并非所有應用都將在云端運行。行業(yè)專(zhuān)家提出,另一輪從集中式到分布式的系統架構轉變的征兆已經(jīng)顯而易見(jiàn)了。無(wú)論到來(lái)與否,有一點(diǎn)確信無(wú)疑。那就是低延遲要求、不斷加劇的隱私問(wèn)題和通信帶寬限制將驅動(dòng)網(wǎng)絡(luò )邊緣對智能化的需求。隨著(zhù)設計人員向網(wǎng)絡(luò )邊緣應用加入高級智能,他們需要能夠快速響應環(huán)境條件變化的系統。例如,當一輛無(wú)人駕駛汽車(chē)駛入智慧城市,它不可能詢(xún)問(wèn)云端如何避免沖撞事故,而是必須立即做出反應,自主做出判斷。同樣,當AI安全攝像頭在家中檢測到異動(dòng),它必須利用設備現有資源做出決定,如有人闖入,則立刻報警。
這些新型應用需要基于A(yíng)I或機器學(xué)習的、靠近IoT傳感器數據源而非云端的計算解決方案。這樣的需求有多大?有人認為潛力非??捎^(guān)。Gartner的分析師估計到2022年,多達50%的企業(yè)數據將在傳統的集中式數據中心或云端以外的地方處理(參見(jiàn)圖1)。
圖1. 為避免受延遲、隱私和網(wǎng)絡(luò )帶寬限制而快速興起的網(wǎng)絡(luò )邊緣計算
網(wǎng)絡(luò )邊緣計算的要求
設計人員在開(kāi)發(fā)網(wǎng)絡(luò )邊緣計算解決方案時(shí)面臨的最嚴峻的挑戰是要滿(mǎn)足高靈活性、低功耗、小尺寸和低成本等一系列獨特要求(參見(jiàn)圖2)。
圖2. 新一代基于A(yíng)I的網(wǎng)絡(luò )邊緣計算應用需要滿(mǎn)足一系列獨特要求
開(kāi)發(fā)人員如何構建功耗低、尺寸小、成本低而又不影響性能的網(wǎng)絡(luò )邊緣解決方案呢?首先,他們需要具備最大化設計靈活性、支持廣泛I/O接口的芯片,還需要能夠助其利用快速演進(jìn)的神經(jīng)網(wǎng)絡(luò )架構和算法的半導體解決方案。最后他們還需要能通過(guò)自定義量化平衡精度和功耗的解決方案。
考慮到網(wǎng)絡(luò )邊緣設備的尺寸限制,設計人員需要適當的芯片來(lái)設計小巧高性能的AI設備,在輸出卓越性能的同時(shí)又能滿(mǎn)足尺寸或散熱管理的要求。成本也是一個(gè)關(guān)鍵要素。任何一種解決方案都必須能與其他批量生產(chǎn)的網(wǎng)絡(luò )邊緣解決方案一較高下。最后,即便是在網(wǎng)絡(luò )邊緣,快速上市的規則依然適用。第一個(gè)將解決方案推向市場(chǎng)的企業(yè)必然擁有巨大優(yōu)勢。因此,任何有潛力的解決方案必須有機會(huì )獲得必要的資源實(shí)現定制化,并縮短開(kāi)發(fā)周期——無(wú)論是演示示例、參考設計還是設計服務(wù)。
網(wǎng)絡(luò )邊緣基于FPGA的機器學(xué)習推理
FPGA在網(wǎng)絡(luò )邊緣扮演何種角色?機器學(xué)習通常要求兩種類(lèi)型的計算工作量。訓練系統通過(guò)現有數據習得新能力。例如,人臉檢測功能通過(guò)采集和分析成千上萬(wàn)張圖片來(lái)學(xué)習識別人臉。這種早期訓練階段實(shí)質(zhì)上是高度計算密集的。開(kāi)發(fā)人員通常會(huì )在數據中使用高性能硬件處理數量龐大的數據。
機器學(xué)習的第二階段推理通過(guò)識別圖案和執行任務(wù)將系統能力用于處理新數據。例如,之前討論的人臉檢測功能將在投入現場(chǎng)工作后持續優(yōu)化其能力,以正確識別人臉。在此階段系統邊運行邊學(xué)習,隨著(zhù)時(shí)間推移變得愈加智能。鑒于網(wǎng)絡(luò )邊緣的任務(wù)執行存在諸多限制,設計人員不可能在云端進(jìn)行推理。相反他們須通過(guò)在網(wǎng)絡(luò )邊緣執行靠近數據源的計算任務(wù)來(lái)提升系統的智能程度。
那么如何替代云端龐大的計算資源從而在網(wǎng)絡(luò )邊緣執行推理呢?一種方式就是利用FPGA固有的并行處理能力來(lái)加速神經(jīng)網(wǎng)絡(luò )的性能。設計人員可以使用經(jīng)過(guò)特別優(yōu)化的低功耗低密度FPGA滿(mǎn)足網(wǎng)絡(luò )邊緣對嚴苛性能和功耗限制的要求。萊迪思的ECP5和iCE40 UltraPlus FPGA可滿(mǎn)足這一需求。設計人員可通過(guò)功耗不足1W 的ECP5 FPGA和毫瓦級iCE40 UltraPlus FPGA來(lái)加速神經(jīng)網(wǎng)絡(luò ),構建高效、基于A(yíng)I的網(wǎng)絡(luò )邊緣計算應用。(參見(jiàn)圖3)
圖3. 基于萊迪思FPGA的低功耗(1mW-1W)機器學(xué)習推理
Lattice sensAI? 簡(jiǎn)介
除了計算硬件外,設計人員還需要各類(lèi)IP、工具、參考設計和設計專(zhuān)業(yè)知識來(lái)構建有效的解決方案并將其快速推向市場(chǎng)。
為幫助開(kāi)發(fā)人員應對這一日益嚴峻的挑戰,萊迪思現推出基于iCE40 UltraPlus和ECP5 FPGA系列的新型全套開(kāi)發(fā)生態(tài)系統。Lattice sensAI旨在幫助開(kāi)發(fā)人員快速構建適用于智能家居、智慧城市、智能工廠(chǎng)、智能汽車(chē)和移動(dòng)應用的AI網(wǎng)絡(luò )邊緣解決方案,為網(wǎng)絡(luò )邊緣提供優(yōu)化靈活的推理。
正如下列圖4所示,Lattice sensAI通過(guò)集成模塊化硬件平臺、神經(jīng)網(wǎng)絡(luò )IP核、軟件工具、參考設計和來(lái)自合作伙伴生態(tài)系統的定制設計服務(wù),簡(jiǎn)化了靈活推理解決方案的開(kāi)發(fā),經(jīng)優(yōu)化具有低功耗(1mW-1W)、封裝尺寸小(小至5.5mm2)、批量?jì)r(jià)格低(約1-10美元)等優(yōu)勢。
圖4. Lattice sensAI為開(kāi)發(fā)人員構建網(wǎng)絡(luò )邊緣計算解決方案提供了堅實(shí)的基礎
如圖4所示,Lattice sensAI以萊迪思的硬件套件為基礎。為實(shí)現這一功能,萊迪思提供全新的模塊化硬件平臺,加速機器學(xué)習的原型設計,滿(mǎn)足廣泛的性能和功耗需求。萊迪思還提供基于低功耗iCE40 UltraPlus FPGA的移動(dòng)開(kāi)發(fā)平臺(MDP),可用于毫瓦級功耗AI設計。MDP重點(diǎn)包括一系列板載傳感器,如圖像傳感器、麥克風(fēng)、羅盤(pán)、壓力傳感器和陀螺儀等。針對功耗稍高但總體低于1W的應用,萊迪思則提供基于ECP5 FPGA系列的模塊化視頻接口平臺(VIP)。VIP可實(shí)現包括MIPI CSI-2、嵌入式DisplayPort(eDP)、HDMI、GigE Vision和USB3在內的廣泛接口的互連。屢獲殊榮的嵌入式視覺(jué)開(kāi)發(fā)套件是萊迪思首批硬件平臺之一。該模塊化平臺包含了一塊CrossLink輸入板、一塊ECP5處理器板和一塊HDMI輸出板。隨著(zhù)全新eDP和USB3 GigE I/O板的加入,設計人員可輕易置換輸出板以支持其他應用。
除開(kāi)發(fā)板外,萊迪思還提供新的神經(jīng)網(wǎng)絡(luò )加速器IP核,便于開(kāi)發(fā)人員在FPGA上進(jìn)行演示。該軟IP包括一個(gè)針對iCE40 UltraPlus FPGA優(yōu)化后的二值神經(jīng)網(wǎng)絡(luò )(BNN)加速器,可讓開(kāi)發(fā)人員使用iCE40 UltraPlus FPGA通過(guò)二值神經(jīng)網(wǎng)絡(luò )算法實(shí)現深度學(xué)習應用。萊迪思還提供一個(gè)卷積神經(jīng)網(wǎng)絡(luò )加速器(CNN)核。該核可靈活設置參數,適用于萊迪思的ECP5 FPGA,它還支持不同量化,讓設計人員實(shí)現精度和功耗的平衡。
如圖5所示,Lattice sensAI能讓用戶(hù)通過(guò)易用的工具流程實(shí)現快速設計空間探索和平衡。使用Caffe和TensorFlow等行業(yè)標準框架可實(shí)現網(wǎng)絡(luò )訓練。然后神經(jīng)網(wǎng)絡(luò )編譯器工具能將經(jīng)過(guò)訓練的網(wǎng)絡(luò )模型映射成定點(diǎn)數值表示,支持不同的權重和激活量化。此外,神經(jīng)網(wǎng)絡(luò )編譯器能幫助分析、模擬和編譯不同類(lèi)型的網(wǎng)絡(luò ),從而在萊迪思的CNN/BNN加速器IP核上實(shí)現,無(wú)需RTL設計經(jīng)驗。然后使用Radiant和Diamond等傳統的FPGA設計軟件工具可實(shí)現總體的FPGA設計,包括剩下的預/后處理模塊。
圖5. 通過(guò)易用的Lattice sensAI工具流程實(shí)現快速設計空間探索和平衡
為簡(jiǎn)化常用AI功能的實(shí)現,Lattice sensAI包含了各類(lèi)使用該產(chǎn)品硬件平臺、IP核以及軟件工具的參考設計和演示示例,例如:
低功耗人臉檢測——該演示包含適用于網(wǎng)絡(luò )邊緣、使用神經(jīng)網(wǎng)絡(luò )模型的、低功耗快速人臉檢測功能。該基于iCE40 UltraPlus FPGA的演示使用了二值權重和激活,能幫助設計人員實(shí)現低于1mW功耗的人臉識別。
汽車(chē)后裝市場(chǎng)攝像頭——該演示主要針對新興的汽車(chē)后裝市場(chǎng)中的攝像頭領(lǐng)域。它展示了設計人員如何通過(guò)FPGA本身的并行計算實(shí)現速度標志牌檢測。在此示例中,在ECP5 FPGA上實(shí)現的卷積神經(jīng)網(wǎng)絡(luò )被訓練讀取過(guò)往的交通指示牌信息。訓練完成后,該攝像頭可在經(jīng)過(guò)交通標志時(shí)檢測并顯示速度限制。
將聲音指令轉換為系統操作——該演示向設計人員展示了如何將聲音指令轉化為系統操作。這項功耗不足5mW的關(guān)鍵詞識別功能使用了集成到iCE40 UltraPlus FPGA的二值神經(jīng)網(wǎng)絡(luò )。示例描述了如何將數字麥克風(fēng)直連到萊迪思推理引擎,從而使用關(guān)鍵詞檢測實(shí)現“實(shí)時(shí)在線(xiàn)”的監聽(tīng)功能。
用于面部跟蹤的目標檢測解決方案——該演示探索了適用于面部跟蹤應用、基于A(yíng)I實(shí)現的目標檢測解決方案。演示描述了使用萊迪思ECP5-85 FPGA進(jìn)行卷積神經(jīng)網(wǎng)路加速,其中8個(gè)卷積層在8個(gè)神經(jīng)網(wǎng)絡(luò )引擎中實(shí)現。該方案在萊迪思的嵌入式視覺(jué)開(kāi)發(fā)套件上獨立運行,上電后在90 x 90 RGB輸入下以14fps運行。ECP5的總功耗僅為0.85 W。
定制化設計服務(wù)
開(kāi)發(fā)團隊通常需要設計服務(wù)合作伙伴的專(zhuān)業(yè)能力來(lái)協(xié)助開(kāi)發(fā)定制化解決方案。AI市場(chǎng)也不例外。為滿(mǎn)足這種需求,萊迪思與智能工廠(chǎng)、智慧城市、智能汽車(chē)、智能家居和移動(dòng)應用等眾多領(lǐng)域的設計服務(wù)伙伴展開(kāi)了合作。例如,萊迪思經(jīng)認證的合作伙伴之一VectorBlox是一家基于神經(jīng)網(wǎng)絡(luò )的推理解決方案開(kāi)發(fā)商。近來(lái),VectorBlox和萊迪思合作在iCE40 UltraPlus FPGA上用不到5000個(gè)LUT的神經(jīng)網(wǎng)絡(luò )實(shí)現了人臉檢測應用。該解決方案使用了開(kāi)源RISC V軟處理器和定制加速器,大大降低了功耗,同時(shí)縮短了響應時(shí)間。
為了更快地在萊迪思FPGA中實(shí)現推理解決方案,開(kāi)發(fā)人員可能需要求助于具備神經(jīng)網(wǎng)絡(luò )設計和訓練相關(guān)知識的設計服務(wù)專(zhuān)家。這些知識通常需要與Caffe和TensorFlow框架以及傳統的RTL設計經(jīng)驗相結合。為了讓這些專(zhuān)業(yè)知識更易獲取,萊迪思推出了Lattice sensAI設計服務(wù)計劃,推薦設計服務(wù)公司,從而加速設計,在萊迪思FPGA上實(shí)現深入學(xué)習應用。這些公司提供開(kāi)發(fā)和訓練網(wǎng)絡(luò )的專(zhuān)業(yè)知識,且能開(kāi)發(fā)RTL實(shí)現特定應用。
參與該計劃的第三方企業(yè)已經(jīng)與萊迪思進(jìn)行合作,展示了其在神經(jīng)網(wǎng)絡(luò )開(kāi)發(fā)、訓練和硬件實(shí)施方面的強大實(shí)力。
結論
網(wǎng)絡(luò )邊緣計算革命蓄勢待發(fā),只有具備AI系統專(zhuān)長(cháng)的開(kāi)發(fā)人員方可駕輕就熟。隨著(zhù)用戶(hù)尋求更高級別的智能,對于靠近IoT數據源的低功耗推理的需求將與日俱增。Lattice sensAI提供靈活、超低功耗、小尺寸和批量?jì)r(jià)格低的網(wǎng)絡(luò )邊緣優(yōu)化解決方案。萊迪思的超低功耗FPGA由廣泛的硬件平臺、軟IP、設計工具、參考設計和第三方專(zhuān)家提供支持,為您打開(kāi)通往成功最可靠、最快捷的途徑。
評論