沈緒榜院士談嵌入式系統的挑戰與新機遇
作者/沈緒榜 中國航天科技集團公司九院七七一研究所研究員、博士生導師、中國科學(xué)院院士
本文引用地址:http://dyxdggzs.com/article/201901/397255.htm編者按: 不久前, 在第十六屆中國計算機學(xué)會(huì )(CCF) 全國嵌入式系統大會(huì )上, 沈緒榜院士介紹了嵌入式系統發(fā)展的新趨勢、 新挑戰和新機遇。
嵌入式系統發(fā)展的新趨勢
最近幾年, 物聯(lián)網(wǎng)、 信息物理系統CPS(Cyber-Physical System)、 VR/AR技術(shù)、 人工智能技術(shù)、 自動(dòng)駕駛技術(shù)以及區塊鏈技術(shù)等新興技術(shù)的出現和發(fā)展, 嵌入式系統設計呈現新的發(fā)展趨勢。
針對高性能低成本低功耗的嵌入式系統的硬件設計,要從算法優(yōu)化、體系結構、軟硬件協(xié)同等幾個(gè)方面統籌考慮?!蚓w榜
第一, 功能需求越來(lái)越多。 自動(dòng)駕駛技術(shù)要求能夠針對語(yǔ)音、 NLP、 圖像、 視頻等數據進(jìn)行處理;要求能夠支持paddle等多個(gè)深度學(xué)習框架, 靈活支持訓練和預測; 還要求對雷達、 攝像頭等傳感器的多路數據進(jìn)行快速地處理。
第二, 低功耗、 低延遲、 低成本、 高可靠性是該領(lǐng)域需求趨勢。 物聯(lián)網(wǎng)、 信息物理系統、 自動(dòng)駕駛技術(shù)都要利用神經(jīng)網(wǎng)絡(luò )算法對其數據進(jìn)行快速地的處理, 算力大、 低延時(shí)是基本要求。 由于復雜的外部環(huán)境, 可移動(dòng)設備、 可穿戴設備和自動(dòng)駕駛等對功耗和可靠性也有很高的要求。
第三, 嵌入式系統的優(yōu)化越來(lái)越依賴(lài)專(zhuān)用算法優(yōu)化、硬件體系結構的優(yōu)化以及軟硬件協(xié)同的優(yōu)化。 嵌入式系統是硬件、 中間層、 操作系統和上層應用軟件的集合體。 從專(zhuān)用算法、 硬件體系結構和軟硬件協(xié)同三個(gè)角度考慮, 才能夠統籌全局, 有利于設計出低功耗、 低延遲、低成本、 高可靠性的嵌入式系統。
嵌入式系統面臨的新挑戰
第一,專(zhuān)用算法上,像很多新興算法,可能會(huì )因為模型復雜度太高或者其他原因,不能直接用于實(shí)現。比如自動(dòng)駕駛領(lǐng)域的算法層面,目前還沒(méi)有一家公司可以保證自家的算法完全可以投產(chǎn)商用。
第二,系統架構上,傳統的嵌入式系統,處理器之間采用分布式設計,相互之間通過(guò)片外的高速通信總線(xiàn)等方式進(jìn)行信息交換,不僅硬件設計難度較高,而且處理器軟件系統之間的協(xié)同性與穩定性一直是困擾研發(fā)工程師的難題之一。
第三,算法與架構協(xié)調上,特殊的專(zhuān)用算法與通用處理器架構之間的協(xié)同不充分,既不能發(fā)揮處理器的計算能力,又不能達到該應用領(lǐng)域的算力和功耗的要求。
第四,系統軟件上,對于異構處理器,雖然OpenCL標準和“AllProgrammable”平臺都提供了統一的編譯環(huán)境,滿(mǎn)足了用軟件設計語(yǔ)言實(shí)現CPU、GPU、DSP、FPGA等的編譯要求,但不可避免地帶來(lái)了編譯器和編譯方法的復雜性、編譯效率低、存取開(kāi)銷(xiāo)和時(shí)間開(kāi)銷(xiāo)大等眾多軟件開(kāi)發(fā)問(wèn)題。
第五,網(wǎng)絡(luò )帶寬上,傳輸速度跟不上大數據云端分析的需求。根據國際電信聯(lián)盟電信標準分局(ITU-T)的研究報告,到2018年,世界上三分之一的人口將擁有智能手機或者可穿戴設備,到2020年,這些設備將生成43萬(wàn)億GB的數據。而機器學(xué)習的訓練環(huán)節目前只能在云端實(shí)現。GPU、FPGA、ASIC(例如GoogleTPU1.0/2.0)等都已應用于云端訓練環(huán)境。處理這些數據需要進(jìn)一步擴展數據中心,這再次引起了人們對網(wǎng)絡(luò )流量壓力的廣泛關(guān)注。IDC也發(fā)布了相關(guān)預測,到2018年,50%的物聯(lián)網(wǎng)網(wǎng)絡(luò )將面臨網(wǎng)絡(luò )帶寬的限制。
嵌入式系統的新機遇
第一,專(zhuān)用算法的優(yōu)化上有兩類(lèi):一方面,復雜算法模型和協(xié)議不斷地被優(yōu)化,比如區塊鏈底層協(xié)議、簽名機制和共識機制的不斷優(yōu)化,吞吐率也在不斷提高,功耗逐漸降低;另一方面,針對海量數據的分析與儲存對網(wǎng)絡(luò )帶寬提出了巨大的挑戰,邊緣計算可以利用適合數據管理任務(wù)的空閑計算資源,在邊緣節點(diǎn)處過(guò)濾或者分析以減少網(wǎng)絡(luò )等待時(shí)間。
第二,硬件體系結構上有兩種類(lèi)型。第一種是對于能效、功耗和散熱要求都比較高的領(lǐng)域,其數據處理單元往往經(jīng)過(guò)如下演進(jìn)過(guò)程:CPU構建初始模型,多核異構(CPU+GPU+FPGA+DSP)處理單元搭建硬件加速引擎,定制AISC專(zhuān)用處理單元三個(gè)階段。比如比特幣礦機芯片、AI深度學(xué)習處理系統、自動(dòng)駕駛處理系統等,對算力、功耗有極高的要求,但由于通用芯片效能顯然無(wú)法滿(mǎn)足功耗、散熱等問(wèn)題,其體系結構只能經(jīng)過(guò)異構處理階段,最終已經(jīng)或者將要走向AISC硬件加速階段。第二種是對功耗要求不是那么高的領(lǐng)域,多核異構技術(shù)確實(shí)是一種不錯的方案,可以兼有不同體系結構各自的優(yōu)點(diǎn)。在云端模型訓練中,NVIDIA的GPU占主導地位,多GPU并行架構是云端訓練常用的基礎架構方案。在云端識別中,基于功耗與運算速度的考量,單獨基于GPU的方式并非最優(yōu)方案,利用CPU、GPU、FPGA、ASIC各自的優(yōu)勢,采用異構計算(CPU+GPU+FPGA/ASIC)是目前主流方案。在高速數據采集與處理行業(yè)解決方案中,利用ARM+DSP+FPGA多核異構技術(shù)的特點(diǎn),有效地應對了人工智能領(lǐng)域所提出的技術(shù)要求,如大規模并行數據處理。
第三,算法與硬件的協(xié)同設計上,在修改機器學(xué)習算法以使它們對硬件更友好的同時(shí)還維持準確度方面,研究界在減少計算量、數據傳輸和存儲要求方面不斷地有新的進(jìn)展。通過(guò)在這些方面的研究,使得硬件的處理速度更快,硬件資源更少,功耗更低。
結論
基于以上嵌入式系統新挑戰和新機遇的考慮, 針對高性能低成本低功耗的嵌入式系統的硬件設計, 要從算法優(yōu)化、 體系結構、 軟硬件協(xié)同等幾個(gè)方面統籌考慮。這些方面統籌考慮為設計出更高性能、 更低功耗的嵌入式系統硬件提供了新思路。
本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2019年第2期第1頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處
評論