降低MCU運行AI算法的門(mén)檻!恩智浦Nano.AI工具鏈解讀
編譯 | 心緣
編輯 | 漠影
5月25日,覆蓋輕量級神經(jīng)網(wǎng)絡(luò )模型設計、模型壓縮、AI推理引擎、AI芯片架構創(chuàng )新等主題的GTIC 2021嵌入式AI創(chuàng )新峰會(huì )將在北京舉行。屆時(shí),嵌入式AI產(chǎn)業(yè)鏈10+位技術(shù)大牛及業(yè)界專(zhuān)家齊聚,探討物聯(lián)網(wǎng)與AI融合賽道的核心議題。峰會(huì )前夕,我們與多位嘉賓進(jìn)行系列深度訪(fǎng)談,提前一睹他們對產(chǎn)業(yè)的真知灼見(jiàn)。本期訪(fǎng)談嘉賓為恩智浦半導體IoT解決方案高級經(jīng)理秦建峰,他將帶來(lái)主題為《如何設計高效率MCU AI工具鏈》的演講。秦建峰擁有中國科學(xué)技術(shù)大學(xué)碩士學(xué)位,負責AI/ML技術(shù)在恩智浦的MCU及MPU上的應用開(kāi)發(fā),曾帶領(lǐng)團隊獨立研發(fā)并發(fā)布了全球第一款基于MCU RT106F的低功耗、低成本的人臉識別方案,基于雙目活體算法的方案廣泛應用于門(mén)鎖及門(mén)禁等產(chǎn)品。他帶領(lǐng)團隊獨立研發(fā)的Nano.AI工具鏈,能快速準確地將客戶(hù)的算法模型從MPU平臺部署到MCU平臺,達到降功耗和降成本的目的。就MCU部署AI應用的痛點(diǎn)、現有AI開(kāi)源工具鏈的局限性、恩智浦打磨軟件工具的經(jīng)驗與解法等話(huà)題,我們與秦建峰進(jìn)行了深入交流。
AI跑在MCU上,存在哪些技術(shù)挑戰和痛點(diǎn)?
在物聯(lián)網(wǎng)與AI交匯之處,技術(shù)創(chuàng )新的火苗正逾燃逾旺,從芯片大廠(chǎng)到創(chuàng )業(yè)公司都在積極涌入嵌入式AI新浪潮,恩智浦正是其中的代表玩家之一。在理解物聯(lián)網(wǎng)客戶(hù)需求方面,很少有公司能有像恩智浦這樣的深度和廣度。一方面,它是MCU(微控制單元)、應用處理器領(lǐng)域的資深玩家;另一方面,它的物聯(lián)網(wǎng)布局還覆蓋到各種無(wú)線(xiàn)連接產(chǎn)品、安全功能芯片、超寬帶(UWB)芯片及相應軟件和方案。從與客戶(hù)的交流中,秦建鋒發(fā)現恩智浦的物聯(lián)網(wǎng)客戶(hù)有一些共性需求,除了關(guān)注成本外,也越來(lái)越看重MCU的算力、豐富的AI功能,以及尋求產(chǎn)品的差異化。MCU在低功耗、低成本的物聯(lián)網(wǎng)應用中落地廣泛,比如智能門(mén)鎖、基于電池的手持端設備,它們不像安防監控設備需要高分辨率、快響應速度,更在乎是否足夠便宜、耐用性好。相比初創(chuàng )公司,恩智浦手中握著(zhù)沉甸甸的數十年MCU產(chǎn)品經(jīng)驗,這是它獨有的技術(shù)財富。除了持續加固自身技術(shù)壁壘外,恩智浦也在思考著(zhù)怎么解決客戶(hù)最棘手的問(wèn)題。不過(guò),當AI應用逐漸遍及MCU領(lǐng)域,新的挑戰開(kāi)始出現。第一道難關(guān)即是硬件算力的受限和運行內存空間大小的挑戰。囿于低功耗、低成本,有些中低端MCU不支持外擴SDRAM,僅支持內部幾百KB的SRAM和受限到幾十兆空間的Flash。大部分廠(chǎng)商的AP處理器采用基于A(yíng)rm Cortex-A系列的多核、高主頻CPU,對于浮點(diǎn)數跟定點(diǎn)數的處理能力都非常強,功耗和成本也相對偏高。功耗和成本較低的MCU則往往是單核的,主頻幾百MHz,恩智浦目前主流的是600MHz,1GHz剛剛推出,即便這樣,Arm Cortex-M MCU處理器面向低功耗設計,對于浮點(diǎn)數的處理能力較弱。這些MCU需要設計輕量化的模型,并進(jìn)行一些量化、裁剪、融合等優(yōu)化操作。這就帶來(lái)第二個(gè)難關(guān)——目前MCU轉化及量化缺乏成熟且統一的標準。如果廠(chǎng)商可以針對MCU的特點(diǎn)開(kāi)發(fā)一些好工具鏈,就能在MCU上得到相應非常好的性能。而關(guān)鍵的難題在于,盡管各開(kāi)源大廠(chǎng)對自身的訓練框架、引擎級模型支持較好,但對于一些相對復雜或特殊的模型,大概率無(wú)法成功地轉化,或者是看似成功,實(shí)際上精度丟失比較嚴重。有些推理引擎為了實(shí)現跨平臺和兼容性,一定程度上犧牲了性能;有些開(kāi)源推理引擎因追求大而全,致使體量過(guò)于龐大,內存空間浪費嚴重。如果客戶(hù)并未深度掌握AI機器學(xué)習技術(shù),一旦工具鏈出問(wèn)題,就無(wú)法繼續在MCU上部署AI模型。因此,開(kāi)源工具鏈是一種選擇,但存在很大的技術(shù)風(fēng)險和不確定性。這也是恩智浦嗅到機會(huì )的地方——針對AI在MCU上的部署,客戶(hù)需要依賴(lài)一些商用工具的支持。
AI工具鏈已打磨三年降低MCU部署AI門(mén)檻
從2018年底啟動(dòng)研發(fā)至今,恩智浦的Nano.AI工具鏈已經(jīng)打磨了將近三年,目前已到試用階段。傳統AI機器學(xué)習模型如果直接在MCU上運行,運行效率非常低,可能與優(yōu)化后的性能大概相差10倍以上。因此這些模型需要通過(guò)開(kāi)源工具鏈或是廠(chǎng)商自己開(kāi)發(fā)的工具鏈來(lái)做轉換。借助AI工具鏈,客戶(hù)無(wú)需在原始AI模型轉換方面做過(guò)多投入,即便缺乏應用經(jīng)驗,也能比較省力地將其原始算法模型轉換成在MCU上能直接使用的算法庫。在MPU領(lǐng)域,開(kāi)源標準已經(jīng)發(fā)展的相對成熟,支持范圍較廣,出現問(wèn)題的可能性較低。但在MCU領(lǐng)域,還沒(méi)出現一款足夠成熟好用的AI工具鏈。發(fā)現這一空白后,恩智浦決定綜合各類(lèi)方案的優(yōu)缺點(diǎn),打造一個(gè)適用于MCU的AI工具鏈,起名為Nano.AI工具鏈,并基于自研工具開(kāi)發(fā)出一些完整解決方案,交予客戶(hù)商用。
恩智浦的AI工具鏈主要包含兩部分,一部分是將原始算法模型轉換成MCU上能夠快速運行的數據和庫,另一部分包含一個(gè)輕量級推理引擎,能做出一個(gè)能跑在MCU上、只需幾兆Flash甚至幾兆SDRAM的方案。同時(shí),恩智浦也可以將具體的優(yōu)化措施反饋給客戶(hù),包括從算法、算法、模型本身和源頭上如何做優(yōu)化從而實(shí)現一個(gè)更適合在MCU上跑的算法模型。這需要一個(gè)相互支持的合作模式。要做出這樣一套AI工具鏈,首先MCU技術(shù)團隊需對自家產(chǎn)品的架構優(yōu)勢等各方面有深入了解。比如,恩智浦之所以能在MCU上實(shí)現很多視覺(jué)與語(yǔ)音AI應用,是因為恩智浦對自身在總線(xiàn)架構設計上的優(yōu)勢有信心,像大尺寸cache、大TCM內存,天然就能在MCU上得到很好的AI性能。另外,一些終端方案的大廠(chǎng)會(huì )推出自家的工具鏈、算法,但它們主要是服務(wù)于自身,同時(shí)在對MCU的理解深度方面通常不如芯片廠(chǎng)商。相對而言,恩智浦不是AI軟件公司,而是一家芯片供應商,天然就有幫助客戶(hù)解決技術(shù)壁壘的意愿,會(huì )通過(guò)合作幫助客戶(hù)解決基于MCU的AI方案的種種技術(shù)壁壘。
恩智浦IoT半導體的競爭力:深入客戶(hù)、車(chē)規標準、供貨穩定、交鑰匙方案
AI工具鏈只是恩智浦強化其IoT半導體業(yè)務(wù)實(shí)力的一個(gè)能力分支。在交流過(guò)程中,秦建峰總結了恩智浦IoT半導體方案的4項競爭力。第一,恩智浦有幾十年的微控制器和應用處理器的產(chǎn)品經(jīng)驗,在芯片架構積累了一些獨到的能力,并對客戶(hù)應用有深入理解,能從廣泛的客戶(hù)群中挖掘出很多共性的需求。第二,作為一個(gè)領(lǐng)先的汽車(chē)芯片供應商,恩智浦在非汽車(chē)芯片的很多設計也遵循車(chē)規的要求,因此產(chǎn)品質(zhì)量本身過(guò)硬。第三,恩智浦堅持長(cháng)期供貨,在芯片設計界有優(yōu)良口碑,能幫客戶(hù)降低很多風(fēng)險。第四,恩智浦長(cháng)期大量投入軟件和方案,像秦建峰所在的解決方案部門(mén)一直幫助客戶(hù)基于恩智浦的芯片、算法及工具鏈做交鑰匙方案,進(jìn)而降低方案開(kāi)發(fā)門(mén)檻、減少研發(fā)投入,并能及時(shí)支持一些定制化需求,使客戶(hù)的方案快速投入到市場(chǎng)。例如,恩智浦近兩年已成功推出基于MCU的亞馬遜Alexa方案,其中包含多類(lèi)算法。如果沒(méi)有像恩智浦這樣廠(chǎng)商去牽頭去做,普通客戶(hù)很難得到亞馬遜的認證。恩智浦把整個(gè)交鑰匙方案做好之后,客戶(hù)就能快速出產(chǎn)品。
下一代MCU將集成更豐富的AI特性
在秦建峰看來(lái),要衡量一個(gè)IoT芯片產(chǎn)品的優(yōu)劣,首先要找到整體成本和性能表現的一個(gè)最佳平衡點(diǎn),除此以外,還有幾點(diǎn)還需要綜合考慮:一是整體的功耗和方案的可擴展性,二是否引入了太多的第三方,導致開(kāi)發(fā)進(jìn)度、靈活度受到限制,三是有沒(méi)有一個(gè)長(cháng)期路線(xiàn)圖,能確保方案設計存在延續性,可以持續地迭代更新。目前,恩智浦正在規劃的下一代MCU和AP平臺,將集成更豐富的AI功能和無(wú)線(xiàn)連接特性,并基于這些芯片路線(xiàn)圖推出更多交鑰匙解決方案,進(jìn)一步覆蓋語(yǔ)音和視覺(jué)AI的一些高性?xún)r(jià)比應用方案。談及后續計劃,他透露說(shuō),恩智浦會(huì )在邊緣設備的AI方面持續投入,包括帶有神經(jīng)網(wǎng)絡(luò )加速器的全系列微控制器和應用處理器、完整的機器學(xué)習工具鏈,以及基于機器的視覺(jué)、聽(tīng)覺(jué)和健康運動(dòng)數據分析處理等各種AI解決方案。在MCU上運行視覺(jué)AI方面,恩智浦已推出基于MCU的語(yǔ)音及人臉識別的一系列完整方案,后續還將推出更多的姿態(tài)識別、手勢識別等方案。
結語(yǔ):AIoT的核心挑戰:找到AI殺手級應用
長(cháng)期來(lái)看,如果谷歌、Arm等各大軟硬件廠(chǎng)商持續合作,應該能慢慢形成一些基于MCU的標準,并隨著(zhù)時(shí)間的積淀而做得越來(lái)越完備?!昂芏嗫蛻?hù)仍需依賴(lài)最終的芯片廠(chǎng)商,來(lái)得到一個(gè)最優(yōu)化的MCU部署AI的工具鏈支持?!鼻亟ǚ逭f(shuō)。在他看來(lái),AIoT芯片領(lǐng)域仍將面臨的挑戰是真正找到AI機器學(xué)習的殺手級應用,光有技術(shù)是不夠的,最終要跟客戶(hù)需求相匹配,找到一些共性的應用來(lái)持續推動(dòng)技術(shù)前進(jìn)。在5月25日(下周二)舉辦的GTIC 2021嵌入式AI創(chuàng )新峰會(huì )上,秦建峰將帶來(lái)圍繞MCU部署AI應用的主要痛點(diǎn)、如何提升MCU邊緣端AI運算性能和精度等方面的分享,并對恩智浦Nano.AI工具鏈系統框架設計做更詳細地解讀。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。