專(zhuān)用DSP核心助陣 SoC支持AI算法非難事
雖然英特爾(Intel)、NVIDIA等芯片大廠(chǎng)近期在人工智能(AI)、神經(jīng)網(wǎng)絡(luò )(NN)、深度學(xué)習(Deep Learning)等領(lǐng)域動(dòng)作頻頻,但半導體領(lǐng)域的其他業(yè)者也沒(méi)閑著(zhù),而且其產(chǎn)品發(fā)展策略頗有以鄉村包圍城市的味道。 益華計算機(Cadence)旗下的CPU/DSP處理器核心授權公司Tensilica,近期便發(fā)表針對神經(jīng)網(wǎng)絡(luò )算法設計的C5 DSP核心授權方案。 在16奈米制程條件下,該核心所占用的芯片面積約僅1平方公厘,卻可提供達到1TMAC的運算效能,而且功耗遠比CPU、GPU等處理器更低,適合各種嵌入式運算裝置使用。
本文引用地址:http://dyxdggzs.com/article/201705/359167.htmCadence Tensilica營(yíng)銷(xiāo)資深事業(yè)群總監Steve Roddy表示,神經(jīng)網(wǎng)絡(luò )技術(shù)正以飛快的速度演進(jìn)。 根據該公司所收集的數據顯示,在2012~2015年間,每幾個(gè)月就有新的神經(jīng)網(wǎng)絡(luò )算法問(wèn)世,且復雜度均比先前的算法明顯增加。 在短短3年內,神經(jīng)網(wǎng)絡(luò )算法的復雜度已增加16倍,遠超過(guò)摩爾定律的發(fā)展速度。
也由于神經(jīng)網(wǎng)絡(luò )算法演進(jìn)的速度比半導體技術(shù)進(jìn)步的速度還快,因此神經(jīng)網(wǎng)絡(luò )算法的開(kāi)發(fā)者只能用內建更多處理器核心的硬件來(lái)執行新的算法。 但這種作法只能在云端數據中心行得通,無(wú)法適用于功耗、體積與成本均受到嚴格限制的嵌入式裝置。
另一方面,目前神經(jīng)網(wǎng)絡(luò )算法大多在通用型CPU、GPU芯片上執行,也是一種遷就于現實(shí)的結果。 CPU、GPU是已經(jīng)大量生產(chǎn)的芯片,取得容易且成本遠比自己打造ASIC來(lái)得低,而且對算法開(kāi)發(fā)者來(lái)說(shuō),CPU跟GPU提供很好的編程環(huán)境與應用設計靈活性,這也是ASIC所比不上的。
事實(shí)上,Tensilica也認為,利用硬件加速器這類(lèi)ASIC來(lái)執行神經(jīng)網(wǎng)絡(luò )算法,絕對是一條行不通的路。 因為ASIC設計通常需要數個(gè)月到1年時(shí)間,至于芯片要大量生產(chǎn),應用在終端產(chǎn)品上,更常已是2~3年后的事。 在神經(jīng)網(wǎng)絡(luò )發(fā)展日新月異的情況下,除非芯片設計者擁有未卜先知的能力,精準預測出3年后神經(jīng)網(wǎng)絡(luò )算法會(huì )發(fā)展到何種地步,否則芯片開(kāi)發(fā)者的產(chǎn)品可能還沒(méi)上市就已經(jīng)過(guò)時(shí)了。
除了產(chǎn)品開(kāi)發(fā)時(shí)程的問(wèn)題,單純從技術(shù)層面來(lái)看,用硬件加速器與通用處理器共同執行神經(jīng)網(wǎng)絡(luò )算法,也是問(wèn)題重重。 由于神經(jīng)網(wǎng)絡(luò )會(huì )牽涉到大量數據傳輸,若要將運算工作切割開(kāi)來(lái),用兩顆芯片共同執行,則兩顆芯片間光是數據傳輸,便很可能會(huì )占用掉一大半處理器資源,并帶來(lái)可觀(guān)的功耗量。
因此,如果有一種針對神經(jīng)網(wǎng)絡(luò )算法優(yōu)化的處理器核心,既能兼顧應用設計靈活性,又比通用型CPU、GPU有更高的算法執行效率,對于神經(jīng)網(wǎng)絡(luò )的普及應用,將是一大加分。 這也是Tensilica決定推出專(zhuān)為神經(jīng)網(wǎng)絡(luò )算法設計的C5數字信號處理器(DSP)核心的原因。
C5 DSP核心在16奈米制程條件下所占用的芯片面積為1平方公厘,能提供達1TMAC的乘法器效能給神經(jīng)網(wǎng)絡(luò )算法使用。 若應用需要更高的乘法器效能,C5 DSP也允許SoC設計者采取多核心架構。 而且,因為C5 DSP是針對神經(jīng)網(wǎng)絡(luò )運算優(yōu)化的核心,因此功耗極低,不會(huì )像CPU或GPU,芯片功耗動(dòng)輒數十瓦以上,甚至上百瓦,一般的嵌入式裝置也能輕松采用。
Roddy透露,雖然C5 DSP核心才剛正式發(fā)布不久,但早已有先導客戶(hù)正在利用C5 DSP核心開(kāi)發(fā)下一代支持神經(jīng)網(wǎng)絡(luò )算法的SoC。 據其預估,最早在2017年第3季,第一顆內建C5 DSP核心的SoC產(chǎn)品就會(huì )Tape Out。
評論