各類(lèi)處理器大顯身手 人工智能進(jìn)駐物聯(lián)網(wǎng)終端
人工智能終端應用的可能性無(wú)限,舉凡智能型手機、汽車(chē)、照明等,都有機會(huì )成為所謂的邊緣運算裝置。 但在過(guò)去,運算處理器是在數據中心有較為明顯的需求。 目前邊緣運算此一產(chǎn)業(yè)走向的大逆轉,已可從各芯片供貨商,如GPU、CPU等,以及硅智財(IP)授權商紛紛針對人工智能展開(kāi)布局,推出各自處理器縮小化的解決方案,明顯可見(jiàn)一斑。
本文引用地址:http://dyxdggzs.com/article/201706/360677.htm隨著(zhù)人工智能的發(fā)展,有越來(lái)越多應用產(chǎn)品開(kāi)始在終端上進(jìn)行實(shí)時(shí)運算,也就是所謂的邊緣運算。 不過(guò),目前的處理器核心對許多終端裝置來(lái)說(shuō),功耗仍嫌偏高。
AIoT浪潮興起 小型處理器核心滿(mǎn)足邊緣運算需求
索思未來(lái)(Socionext)戰略銷(xiāo)售組銷(xiāo)售部銷(xiāo)售項目總監張育豪(圖1)表示,目前市場(chǎng)上主流的CPU或GPU核心規模很大,雖然運算效能很強,但功耗也高,而且不易針對應用進(jìn)行客制化設計。 有鑒于此,Socionext采取用小型核心堆棧的設計架構,其好處在于從云到端都可以采用同樣的處理器核心,且也較容易針對個(gè)別應用進(jìn)行客制化,例如將CPU核心跟圖像處理核心(VPU)整合在單芯片上。
張育豪觀(guān)察,目前的人工智能應用大多與影像相關(guān),但不管是CPU或GPU,在進(jìn)行影像運算時(shí),功耗/性能比都不盡理想。 這是因為CPU跟GPU原本就不是為了處理影像而設計的芯片。 CPU的強項在于進(jìn)行數據運算,而GPU則適合用來(lái)進(jìn)行3D繪圖處理。 因此,用CPU或GPU來(lái)進(jìn)行影像分析,其實(shí)效率不是太好。 相較之下,專(zhuān)門(mén)為處理影像而設計的VPU,在圖像處理的功耗/性能比方面,是遠勝過(guò)CPU跟GPU的。
舉例來(lái)說(shuō),用CPU來(lái)對4K影像進(jìn)行處理跟分析,功耗預算大概是230瓦左右;若用GPU來(lái)進(jìn)行,功耗更可達到400∼500瓦。 但如果是用Socionext的解決方案,一顆核心的功耗只有5瓦左右,就算串聯(lián)多顆核心,也會(huì )比CPU或GPU來(lái)得省電許多。 因此,張育豪認為,在人工智能進(jìn)駐各類(lèi)終端裝置的趨勢下,如果是與影像分析有關(guān)的人工智能應用,VPU將有非常大的發(fā)展潛力。 Socionext本身?yè)碛袠I(yè)界領(lǐng)先的VPU技術(shù),更是目前市場(chǎng)上唯一已經(jīng)有8K圖像處理芯片的芯片業(yè)者。
不管是針對大規模數據中心,或是在各種終端裝置上直接進(jìn)行邊緣運算,功耗都是非常關(guān)鍵的考慮。 功耗越高,則系統的散熱設計也越昂貴,不僅會(huì )增加終端裝置的生產(chǎn)制造成本,也會(huì )增加系統擁有者的總體持有成本(TCO)。
以數據中心為例,冷卻系統的電費是相當可觀(guān)的,如果處理器能更省電,空調冷卻的電費也可以隨之降低。 其他形形色色的終端裝置也一樣,當芯片的功耗太高時(shí),就得采用更大的散熱片,甚至用風(fēng)扇來(lái)散熱,這些都會(huì )造成產(chǎn)品的生產(chǎn)成本跟總體持有成本增加。
單一叢集配置更彈性 DynamIQ推升大小核效率
針對小型處理器需求的增加,安謀國際(ARM)日前在處理器架構上,也宣布了大幅度調整,也就是DynamIQ技術(shù)。 DynamIQ達成了上一代big.LITTLE架構在單一運算叢集上無(wú)法實(shí)現的大小核彈性配置,對異質(zhì)運算及人工智能這類(lèi)應用帶來(lái)相當明顯的效率提升。 其將作為未來(lái)ARM Cortex-A系列處理器的基礎,亦同時(shí)代表了業(yè)界在多核處理程序設計上的新紀元。
ARM行動(dòng)通訊暨數字家庭市場(chǎng)資深營(yíng)銷(xiāo)經(jīng)理林修平(圖2)表示,DynamIQ可以說(shuō)是ARM big. LITTLE的第二代硬件架構,其最主要的特點(diǎn)在于其可以在同一個(gè)叢集(Cluster)中同時(shí)擺放大小核,且電源(Power)與頻率(Clock)都可以單獨作管理。 在第一代的大小核架構中,一個(gè)叢集只能擺放大核或小核,因此在執行轉換任務(wù)時(shí),必須經(jīng)過(guò)快取(Cache)轉換。 但在DynamIQ中,由于所有任務(wù)都將能在同個(gè)叢集中運作,在任務(wù)切換上,便會(huì )相對迅速很多。
林修平指出,由于人工智能所需要的運算量很大,同時(shí)需要很多矩陣乘法,透過(guò)DynamIQ的架構,將能做1+3、1+7、2+2+4等設計配置。 在過(guò)去的big. LITTLE架構中,由于一個(gè)叢集最多即是4核(大核(Big)4核,小核(LITTLE)4核),是沒(méi)有辦法做到1+7的。 DynamIQ所帶來(lái)的多元變化SoC設計配置,將能幫助應用達到CPU優(yōu)化,進(jìn)而讓效能與功耗能更往上提升。
DynamIQ的頻率可以單獨管理,也將帶來(lái)很大好處。 第一代的大小核,在同一個(gè)叢集當中,頻率是統一的,但DynamIQ可以讓同一叢集中的不同核心,依據運算需求在不同的頻率下運作。
此外,林修平也表示,DynamIQ還可連接外部的硬件加速器。 以人工智能來(lái)說(shuō),不同應用會(huì )有不同的軟硬件加速需求,例如加速器、DSP、CPU、GPU等,像是在高階智能型手機上,可能會(huì )放置加速器,來(lái)使其表現度達到最好、功耗達到最低,不過(guò)這也會(huì )增加集成電路的成本。 因此,若是比較大眾化的產(chǎn)品,則可能會(huì )利用系統上現有的CPU、GPU,來(lái)滿(mǎn)足人工智能的需要。
GPU模型推論效能升級 邊緣運算裝置AI能力更強大
然而,隨著(zhù)各種邊緣運算裝置上所內建的人工智能(AI)能力變得更加強大,GPU模型的推論效能也必須隨之提升。 輝達(NVIDIA)旗下軟件目前已可協(xié)助客戶(hù)做8位與16位的神經(jīng)網(wǎng)絡(luò )運算優(yōu)化,不僅讓GPU模型的推論(Inference)更形完善,同時(shí)對硬件資源的需求也明顯降低,只需要一小塊電路板就能支持AI算法。
針對邊緣運算日益漸增的需求,NVIDIA近期推出了新款開(kāi)發(fā)板Jetson TX2,將整套人工智能系統縮小在一塊電路板之上,為商用無(wú)人機、工業(yè)機械、智能型攝影設備等領(lǐng)域,提供進(jìn)階的導航、影像與語(yǔ)音識別功能。 相較前一代產(chǎn)品Jetson TX1,Jetson TX2的效能提升了兩倍,耗電量則不到7.5瓦,能源效率提升了兩倍多。 這讓Jetson TX2可在終端裝置上運行更大、更深的神經(jīng)網(wǎng)絡(luò ),進(jìn)而開(kāi)發(fā)出更高智能化的裝置,并提升影像分類(lèi)、導航以及語(yǔ)音識別等作業(yè)的精準度與反應速度。
NVIDIA技術(shù)營(yíng)銷(xiāo)經(jīng)理蘇家興(圖3)表示,對于訓練好的模型,NVIDIA也提供Tense RT軟件來(lái)協(xié)助客戶(hù)做模型優(yōu)化、縮小化,其支持整數8位與浮點(diǎn)數16位的運算。 目前的主流是以32位的運算去做訓練,該16位運算也就減少了一半,增加了一倍的效能,8位則增加了四倍的效能,因此在模型推論上能運作的更好。
AI算法日新月異 FPGA靈活特性?xún)?yōu)勢顯著(zhù)
即便目前人工智能(AI)算法日新月異,對嵌入式處理器的靈活性帶來(lái)許多挑戰,這卻也讓以靈活彈性著(zhù)稱(chēng)的現場(chǎng)可編程門(mén)陣列(FPGA)組件有了很大的發(fā)揮空間。
賽靈思ISM營(yíng)銷(xiāo)資深技術(shù)經(jīng)理羅霖(圖4)表示,由于人工智能目前還處于發(fā)展階段,算法日新月異,目前還沒(méi)有一個(gè)算法可以固定下來(lái),這為特殊應用集成電路(ASIC)的設計帶來(lái)很大挑戰,因客戶(hù)往往需要的是十分靈活的架構。
有鑒于此,賽靈思推出reVISION堆棧技術(shù),其具備了可重組以及所有形式鏈接的特性,讓開(kāi)發(fā)者能充分運用堆棧技術(shù),快速研發(fā)與部署升級方案,這樣的特性對于開(kāi)發(fā)未來(lái)需求的智能視覺(jué)系統是至關(guān)重要的的。 不僅如此,該技術(shù)也使開(kāi)發(fā)者在結合機器學(xué)習、計算機視覺(jué)、傳感器融合與連接的應用時(shí),能夠獲得顯著(zhù)優(yōu)勢。 舉例而言,相較于其他嵌入式GPU與傳統SoC,reVISION將機器學(xué)習推論的每秒每瓦影像效能,提升了6倍、計算機視覺(jué)每秒每瓦每幀處理速度提升了42倍,而延遲卻只有五分之一。
羅霖分析,相較于同等級GPU技術(shù),FPGA在低延遲(Low Latency)的部分,本身就與傳統的架構不同,傳統架構是將收集到的數據送到DDR內存中進(jìn)行緩存,處理器要再從DDR中取出數據進(jìn)行運算,運算完成后再送回DDR。 但FPGA則是采用像素流(Stream)的方式,直接可以到模擬進(jìn)行運算,運算完成后,輸出結果即可,由于省去了存取DDR的時(shí)間,因此可以延遲可以降到非常低。
從算法的層面來(lái)看,人工智能含有許多智能決策的部分,因此需要有很強的平行運算能力。 這些算法進(jìn)而對處理器結構產(chǎn)生了不同的需求,像是在神經(jīng)網(wǎng)絡(luò )中,卷積運算強調的是平行運算,適合在FPGA上運行,但在傳感器融合的部分,則比較適合在CPU上運行,因其必須將硬件進(jìn)行分割,再將不同的算法,放到處理器中。
羅霖指出,在脫機的神經(jīng)網(wǎng)絡(luò )訓練部分,GPU的確是比較有優(yōu)勢的,由于其要求的浮點(diǎn)運算性能特別高,因此不少深度學(xué)習都是采用GPU,而賽靈思的立場(chǎng)是不會(huì )以FPGA去進(jìn)攻這塊市場(chǎng),不過(guò)若是以在線(xiàn)的任務(wù)來(lái)看,FPGA還是很有優(yōu)勢的。 目前邊緣運算對嵌入式處理器的要求除了傳感器的接口要夠多,組件的I/O型態(tài)也十分多變,可能是高速率、中速率或低速率,這些處理器都要能支持,且在線(xiàn)處理的能力也相當關(guān)鍵。
蘇家興則表示,無(wú)論是軟件還是硬件公司,都須要對訓練好的深度學(xué)習模型進(jìn)行優(yōu)化,除了邊緣設備會(huì )采用縮小化的模型,在服務(wù)器與數據中心端,也會(huì )有某些情境需要采用這些優(yōu)化過(guò)的模型去做推論。 舉例而言,Facebook、百度在做語(yǔ)音識別的推論時(shí),若能透過(guò)優(yōu)化的模型讓運作更快,勢必能讓消耗的功耗越少。
不過(guò),并不是所有的應用都適合做前端邊緣運算。 以AlphaGo來(lái)看,其是以32臺服務(wù)器在做運算,因AlphaGo運算量非常大,所以就不太可能進(jìn)行邊緣運算,因1臺服務(wù)器與32臺服務(wù)器運算的精準度,絕對是有差異的。 若以語(yǔ)音識別來(lái)看,即便可以同時(shí)采用在線(xiàn)與脫機的方式進(jìn)行,但精準度也勢必會(huì )有落差。
蘇家興指出,應用開(kāi)發(fā)商須盡快分辨出哪些運算任務(wù)適合采用邊緣運算,哪些部分還是得留在服務(wù)器端執行。 舉例來(lái)說(shuō),當無(wú)人機飛到有些沒(méi)有網(wǎng)絡(luò )的地方,便必須運用邊緣運算,設計出可承載范圍內的推論。 NVIDIA相信,未來(lái)數據中心與邊緣運算將會(huì )并存,但在瞄準的應用上必定會(huì )有所不同。
用DSP驅動(dòng)CNN引擎邊緣運算效率大增
除了GPU、CPU、FPGA,以DSP架構驅動(dòng)的卷積神經(jīng)網(wǎng)絡(luò )(Convolutional Neural Network, CNN)引擎,在成本與功耗上也相當具優(yōu)勢。
全球DSP主要供貨商CEVA認為,若要在嵌入式系統中實(shí)現CNN,DSP甚至能取代GPU和CPU,因CNN在本質(zhì)上,就十分適合運用DSP。 此外,CEVA也推出CDNN網(wǎng)絡(luò )產(chǎn)生器,協(xié)助將訓練完成的網(wǎng)絡(luò ),配置到邊緣運算裝置中,同時(shí)為市場(chǎng)提供更形完善的低功耗嵌入式解決方案。
CEVA汽車(chē)市場(chǎng)部門(mén)總監Jeff VanWashenova(圖5)表示,DSP能有效地達成CNN,是因為DSP的架構能夠實(shí)現平行處理,且其為可充分運用的核心。 相較GPU只能達到40∼50%的使用率,DSP可以達到90%以上的核心使用率。
Jeff VanWashenova表示,
隨著(zhù)人工智能將導入在手機中,
神經(jīng)網(wǎng)絡(luò )處理的功耗與效率,變
得更為重要。
VanWashenova進(jìn)一步表示,與典型的混合式CPU/GPU的處理架構方案相比,建基于DSP架構的CNN引擎,能提供高達近三倍的性能。 而且,DSP引擎除了所需功耗比GPU小30倍之外,所需的內存帶寬,也只有約GPU的五分之一。 CNN算法,屬于乘法和加法密集型(Multiply-accumulate, MAC),因此本質(zhì)上十分適合運用DSP。 也就是說(shuō),若要在嵌入式系統中實(shí)現CNN,DSP不僅能夠取代GPU和CPU,而且成本和功耗更低。
VanWashenova指出,當神經(jīng)網(wǎng)絡(luò )配置到現場(chǎng)進(jìn)行「推斷」時(shí),CEVA擁有的優(yōu)勢便可充分發(fā)揮,這些優(yōu)勢不僅展現在處理方面,還在于可采用現有的網(wǎng)絡(luò ),并可在嵌入式DSP上運行。
VanWashenova分析,在神經(jīng)網(wǎng)絡(luò )的訓練過(guò)程中,是在大型運算平臺上完成,并具有32位浮點(diǎn)精度。 然而,訓練完成的網(wǎng)絡(luò ),對于低功耗嵌入式解決方案來(lái)說(shuō)通常太大,因此可運用CEVA的CDNN網(wǎng)絡(luò )產(chǎn)生器,將網(wǎng)絡(luò )轉換成16位定點(diǎn),縮小并優(yōu)化網(wǎng)絡(luò )規模。
這也是目前CEVA客戶(hù)經(jīng)常面臨的問(wèn)題,就是如何把一些在GPU這樣大型且昂貴的運算器平臺上所開(kāi)發(fā)的網(wǎng)絡(luò ),進(jìn)行實(shí)際配置。 因為在大規模部署的產(chǎn)品中,功率、尺寸和效能都有所限制,與大型運算平臺并不相同。
對AI而言,要求最嚴苛的領(lǐng)先市場(chǎng)就是汽車(chē)產(chǎn)業(yè)。 為了確保汽車(chē)應用的可靠性和性能,必須降低延遲,而且精度是至關(guān)重要的。 除此之外,汽車(chē)正在使用的攝影相機功能,從兩百萬(wàn)像素(MP)到八百萬(wàn)像素,幀率通常在30fps或更高。 且往往是多個(gè)攝影相機一起使用,并有多個(gè)并行處理同時(shí)地進(jìn)行。
VanWashenova指出,CEVA目前正與許多領(lǐng)先的一級汽車(chē)供貨商和原始設備制造商合作,以確保透過(guò)硬件和軟件兩方面,皆能支持神經(jīng)網(wǎng)絡(luò )和拓樸結構。 在硬件方面,CEVA提供視覺(jué)和神經(jīng)網(wǎng)絡(luò )處理器和加速器(CEVA-XM、CDNN HWA),而軟件方面則提供神經(jīng)網(wǎng)絡(luò )軟件框架(CDNN2)。
人工智能這塊大餅究竟有多大,目前還無(wú)從確認,但從各大芯片供貨商在邊緣運算的充分布局看來(lái),可以確定的是,目前邊緣裝置的開(kāi)發(fā)進(jìn)程,已經(jīng)有了十分穩固的芯片處理基礎。
評論