本土AI模組及芯片發(fā)展動(dòng)向
作者 / 王瑩 王金旺 《電子產(chǎn)品世界》編輯(北京 100036)
本文引用地址:http://dyxdggzs.com/article/201803/377626.htm摘要:AI已成為國家戰略,激勵本土AI研發(fā)企業(yè)不斷探索。實(shí)際上,本土有一小批新銳公司,正面向特定領(lǐng)域推出模組或芯片。為此,本媒體特別采訪(fǎng)了國內幾家有代表性企業(yè),介紹了其AI硬件及相關(guān)算法的最新進(jìn)展。
AI芯片企業(yè)需加強軟硬件協(xié)同能力
目前市場(chǎng)上AI主要的商業(yè)應用場(chǎng)景有安防監控、家居/消費電子和自動(dòng)駕駛汽車(chē)。安防監控以及消費電子市場(chǎng)已經(jīng)較為成熟,且國內企業(yè)從產(chǎn)品能力到產(chǎn)業(yè)鏈整合能力均占據優(yōu)勢地位,是目前國內人工智能企業(yè)展開(kāi)競爭的主戰場(chǎng)。本土的汽車(chē)主機廠(chǎng)和零部件廠(chǎng)商較為弱勢,目前在無(wú)人駕駛領(lǐng)域的布局以互聯(lián)網(wǎng)等非傳統汽車(chē)產(chǎn)業(yè)鏈內企業(yè)為主。針對不同的應用場(chǎng)景,國內的主流AI企業(yè)已經(jīng)開(kāi)始從算法與架構的實(shí)現向提供特定應用場(chǎng)景系統解決方案發(fā)展并不斷向上游的ASIC芯片設計延伸。如地平線(xiàn)、深鑒科技等企業(yè)均已開(kāi)始推出自己的芯片產(chǎn)品。
在對服務(wù)的安全性、實(shí)時(shí)性要求不高的應用領(lǐng)域,云端布局的人工智能服務(wù)將依然會(huì )是市場(chǎng)的主流。而在對服務(wù)的安全性、實(shí)時(shí)性、隱私性等要求較高的應用領(lǐng)域,前端部署已成為市場(chǎng)共識,未來(lái)市場(chǎng)空間非常巨大。
異構算法要求更高的軟硬協(xié)同能力
一直以來(lái),GPU、FPGA、ASIC三者就因其鮮明的特點(diǎn)分工在人工智能領(lǐng)域發(fā)揮著(zhù)巨大的作用。GPU適合大規模并行運算,在訓練深度神經(jīng)網(wǎng)絡(luò )方面具有優(yōu)勢。FPGA具備可編程、高性能、低功耗、架構靈活等特點(diǎn),方便研究者進(jìn)行模型優(yōu)化,一般被用作芯片原型設計和驗證,或是用在通信密集型和計算密集型場(chǎng)景中,諸如通信、軍工、汽車(chē)電子、消費及醫療等行業(yè)。ASIC將性能和功耗完美結合,具有體積小、功耗低、可靠性高、保密性強、成本低等幾方面的優(yōu)勢。
國內人工智能企業(yè)在從單獨的架構、算法構建到行業(yè)應用系統解決方案提供的轉變過(guò)程中,通過(guò)異構的方式解決優(yōu)化系統各部分的適配性已經(jīng)成為行業(yè)內的共識。這一架構和算法上的趨勢,將進(jìn)一步提升軟件在人工智能系統中的地位,對公司的軟硬協(xié)同能力提出了更高的要求。
AI芯片設計要考慮終端需求
由于人工智能領(lǐng)域是新興事物,整個(gè)產(chǎn)業(yè)鏈還不完整,產(chǎn)業(yè)分工尚未形成,AI芯片企業(yè)必須提供從芯片/硬件、軟件SDK到應用的解決方案已基本成為業(yè)內共識。
這一現狀要求每家AI芯片公司都成為一家軟件加系統公司,這樣才能在市場(chǎng)競爭中取得優(yōu)勢。比如,公司在芯片設計時(shí)候就需要考慮未來(lái)面對的終端用戶(hù)的需求,并通過(guò)將芯片集成到系統中,使其運行更加簡(jiǎn)單。此外,應盡可能減少第三方協(xié)作以及為用戶(hù)提供更多的參考設計也是更好地服務(wù)下游用戶(hù)的方式之一。
AI芯片能力亟需提高,數據仍是AI核心
目前AI技術(shù)仍處于起步階段,監督學(xué)習仍是主要的手段。AI的主流分支——深度學(xué)習技術(shù)也將隨著(zhù)計算力的不斷提升,創(chuàng )造出更加智能的落地應用。
在兆芯看來(lái),短期內,AI的發(fā)展趨勢有如下特點(diǎn):
1)網(wǎng)絡(luò )的復雜度和訓練集的規模將會(huì )進(jìn)一步提高,計算復雜度將達到一個(gè)新的高度;
2)帶label的數據將成為AI發(fā)展階段最有價(jià)值的資源;
3)傳統的AI是在設計好的網(wǎng)絡(luò )結構下訓練未知參數,而最新的方法利用GAN類(lèi)似的機制,可以將網(wǎng)絡(luò )訓練成一個(gè)更高精度的全新網(wǎng)絡(luò )框架,而不需要設計者參與。這對于做框架算法的人也帶來(lái)了巨大的挑戰——他們該如何在這個(gè)重數據的AI時(shí)代突破重圍,將AI帶到更高的臺階;
4)CNN等網(wǎng)絡(luò )的安全性問(wèn)題,例如pixel攻擊(通過(guò)干擾讓目標識別錯誤,或者認定為指定目標),這也對現有的應用安全落地帶來(lái)了極大的挑戰。因為在某些應用中安全性是致命的決定因素,如自動(dòng)駕駛;
5)另外新興的網(wǎng)絡(luò )如capsule是否有機會(huì )替代現有CNN網(wǎng)絡(luò ),這些對于不能軟件編程的AI芯片來(lái)說(shuō)也許是致命的。
AI芯片設計面臨速度、安全及兼容的挑戰
處理器技術(shù)決定互聯(lián)、智慧與傳統制造業(yè)的融合度,從而帶動(dòng)產(chǎn)業(yè)鏈上下游企業(yè)競相入局。AI對處理器設計提出了更高的要求。如邊緣計算,AI設備需要高度集成、低功耗的專(zhuān)用解決方案,因此可以選擇將專(zhuān)用AI模塊集成到SoC內部,并對SoC訪(fǎng)存系統進(jìn)行優(yōu)化,滿(mǎn)足AI模塊的高帶寬需求,同時(shí)可以通過(guò)內置硬件編解碼器,提升視頻的處理性能。在云端計算層面,可以選擇支持多PCIe 3.0接口,連接GPU或AI加速卡,構建AI運算平臺。傳統行業(yè)設計人員可以復用部分原始軟件代碼,將智能功能調用AI完成,從而降低軟件的開(kāi)發(fā)成本,并大幅縮短新產(chǎn)品設計周期。
而在A(yíng)I芯片設計方面,具體有如下挑戰:
1)網(wǎng)絡(luò )復雜度提高,意味著(zhù)需要更高的計算能力。
2)由深度學(xué)習產(chǎn)生的非規則的網(wǎng)絡(luò )結構,雖然效果好,但是復雜的連接關(guān)系會(huì )令傳統ASIC AI芯片更加難以?xún)?yōu)化加速。
3)安全性問(wèn)題是AI最為敏感話(huà)題,也是新的網(wǎng)絡(luò )結構的需求,或者說(shuō)下一代的AI網(wǎng)絡(luò )結構需要解決的問(wèn)題。
4)新興網(wǎng)絡(luò ),如capsule,雖然解決了CNN網(wǎng)絡(luò )諸多問(wèn)題,也引出了與現有硬件不太適應的問(wèn)題。如何提好訓練效率,如何設計硬件讓其在可編程性和高效之間達到一個(gè)平衡點(diǎn),來(lái)滿(mǎn)足不斷演進(jìn)的算法需求,是芯片設計商的設計原則。
x86+外接AI PCIe加速卡及AI計算芯片
面對AI需求的迅速崛起,兆芯正在思考如何對這些產(chǎn)品形態(tài)進(jìn)行智能升級,通過(guò)x86+外接AI PCIe加速卡的方式構建運算平臺加速應用落地。
與此同時(shí),兆芯已經(jīng)利用自己GPU技術(shù)的獨特優(yōu)勢,設計了全新的AI計算芯片:
1)基于兆芯GPU的AI硬件加速框架很好的解決了多計算單元的并行性管理和可擴展性問(wèn)題,以及軟件生態(tài)的兼容性問(wèn)題,支持OpenCL、CUDA等GPGPU API;
2)獨有專(zhuān)用加速器在能效比和可編程性之間做了很好的折中;
3)新型壓縮技術(shù)大幅降低了芯片的帶寬需求,從而有效地提高了計算單元和加速器利用率。
總之,對于A(yíng)I來(lái)講,目前仍處于一個(gè)開(kāi)始的階段,數據仍是整個(gè)AI的核心,硬件和軟件架構都在不斷地相互變化中,每一次硬件變革都會(huì )帶來(lái)軟件變化,軟件變化、工藝變化又會(huì )促進(jìn)硬件的進(jìn)一步改良。對于兆芯來(lái)講,我們一方面會(huì )不斷演進(jìn)加速器設計,讓其更好地加速主流算法,同時(shí)會(huì )保留足夠通用編程靈活性,給新的算法創(chuàng )造好的并行計算環(huán)境,也為國內AI高端芯片自主可控發(fā)展貢獻力量。
華夏芯全新架構的人工智能專(zhuān)用處理器內核
安防領(lǐng)域一直被認為是人工智能最先落地的行業(yè),智能駕駛正在成為另一個(gè)高速發(fā)展以及炙手可熱的人工智能的典型應用場(chǎng)景。以智能駕駛和智能安防為例,“云邊結合”正逐步取代“中心分析”成為AI應用發(fā)展的趨勢。針對不同人工智能應用場(chǎng)景的AI終端芯片有望在今后數年內成為芯片廠(chǎng)商的主戰場(chǎng)。云端的計算需求主要是支持海量數據下的計算開(kāi)銷(xiāo)。因此,由超級性能的CPU、GPU、FPGA、專(zhuān)用加速器組成的超高計算性能的芯片組成為主要的芯片平臺。在云端芯片市場(chǎng),Intel 約占71%、英偉達約占16%的市場(chǎng)。而終端側的計算需求更多的是要考慮有限功耗下的系統開(kāi)銷(xiāo)。因此,高性能、低功耗的CPU、GPU、DSP、專(zhuān)用芯片組成的高集成度的SoC芯片成為首選。在這一市場(chǎng),Intel、英偉達并無(wú)優(yōu)勢,相反,Arm、Ceva、華夏芯這樣的公司有優(yōu)勢。面對這一趨勢,華夏芯公司立足于為其客戶(hù)的芯片定制提供包括CPU、DSP和人工智能在內的系列內核和完整解決方案。
華夏芯公司新年伊始正式向業(yè)界公開(kāi)了其全新架構的嵌入式人工智能專(zhuān)用處理器的內核方案。作為少數具備全系列處理器內核設計能力的高科技企業(yè),華夏芯公司之前已經(jīng)陸續發(fā)布了其自主設計的64位體系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )內核方案,首次在嵌入式處理器領(lǐng)域引入了可變長(cháng)矢量處理(Variable Length Vector,VLV)技術(shù)。因此,本次針對人工智能專(zhuān)用處理器內核方案的公開(kāi)發(fā)布,進(jìn)一步展露了華夏芯在人工智能領(lǐng)域的龐大戰略,即華夏芯公司立足于為其客戶(hù)的芯片定制提供完整的包括CPU、DSP和人工智能在內的系列內核,并希望在芯片整體性能、功耗、成本、編程、生態(tài)和開(kāi)發(fā)周期方面占據領(lǐng)先的位置。
此次,華夏芯公司推出的人工智能專(zhuān)用處理器內核方案,預計2018年下半年第一款全部采用華夏芯CPU/DSP/人工智能處理器內核的量產(chǎn)芯片開(kāi)始下線(xiàn),進(jìn)入市場(chǎng)。
完全卷積神經(jīng)網(wǎng)絡(luò )IP——DPU “聽(tīng)濤”系列 SoC
算法、數據和算力并稱(chēng)為新AI時(shí)代三大驅動(dòng)力。如何在追求更好性能的同時(shí)實(shí)現低功耗、低延遲和低成本,逐漸成為擺在所有AI從業(yè)者面前的艱巨挑戰之一。
很多硬件平臺都展示了自身所具備的強大算力,然而當用戶(hù)在真正運行一個(gè)應用時(shí),卻發(fā)現在讀取數據時(shí)會(huì )產(chǎn)生比較明顯的卡頓現象。這表明,即便用戶(hù)在掌握大量數據的前提下,依然不能將AI運算單元填滿(mǎn),從而導致計算硬件的計算效力低下。以谷歌第一代TPU為例,其平均硬件乘法陣列使用率只有28%,這意味著(zhù)72%的硬件在大部分時(shí)間內是沒(méi)有任何事情可以做的。
另外,如果將完成16位整數加法能量消耗定義為1,那么將32比特的數據從DDR內存傳輸到芯片中,就將花費1萬(wàn)倍的能量消耗。因此,過(guò)大的訪(fǎng)問(wèn)帶寬增加了數據的復用性,導致AI芯片功耗高居不下。
而要提升計算效率、降低功耗,總結起來(lái)有三條路徑:首先,優(yōu)化計算引擎,增加計算并行度;其次,優(yōu)化訪(fǎng)存系統;第三,利用神經(jīng)網(wǎng)絡(luò )稀疏性,實(shí)現軟硬件協(xié)同設計。這樣的產(chǎn)品規劃路線(xiàn)能走得通的一個(gè)關(guān)鍵因素,就在于用戶(hù)在未來(lái)的ASIC芯片和之前的FPGA模組上使用的是同樣的編程和軟件開(kāi)發(fā)環(huán)境,能實(shí)現在應用上的無(wú)縫切換。
DPU “聽(tīng)濤”系列 SoC
深鑒科技正式發(fā)布基于自主研發(fā)的人工智能處理器核心DPU 的“聽(tīng)濤”系列 SoC。該DPU屬于完全卷積神經(jīng)網(wǎng)絡(luò )IP,支持傳統的1X1和3X3卷積層,能夠實(shí)現高效的目標識別和加速。在該架構基礎之上,深鑒科技做出了第一代5X5 FPGA產(chǎn)品,并在攝像頭市場(chǎng)實(shí)現了批量出貨。
DPU計算核心采用全流水設計結構設計,內部集成了大量的卷積運算器、加法器、非線(xiàn)性Pulling/ReLu之類(lèi)的運算算子,在確保每一個(gè)運算單元都能夠被充分的調動(dòng)起來(lái)的前提下,可同時(shí)支持不同動(dòng)態(tài)精度的量化方法。像VGG16比較重的應用中,深鑒科技DPU的運算器利用率可以達到85%,對主流算法可以達到50%以上,功耗方面則低出競爭對手一個(gè)數量級。
相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,將于年中交付的“聽(tīng)濤”SoC產(chǎn)品的預期功耗約為3 W,峰值算力4 TOPS,考慮到網(wǎng)絡(luò )壓縮部分,這個(gè)數字應該再擴大5~10倍。
參考文獻:
[1]胡郁.人工智能與語(yǔ)音識別技術(shù)[J].電子產(chǎn)品世界,2016(4):23-25.
[2]王瑩.“CPU+”異構計算時(shí)代,華夏芯通過(guò)HSA搶占高地[J].電子產(chǎn)品世界,2016(9):15-17.
[3]陳俊穎,周順風(fēng),閔華清.基于CAPI FPGA的醫學(xué)超聲成像算法異構加速[J].電子產(chǎn)品世界,2016(10):41-44.
[4]王瑩,王金旺.異構計算帶來(lái)AI視覺(jué)新突破[J].電子產(chǎn)品世界,2017(7):28-29.
本文來(lái)源于《電子產(chǎn)品世界》2018年第4期第22頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論