智慧視覺(jué)的算法、研發(fā)和產(chǎn)品動(dòng)向
作者 迎九 金旺 《電子產(chǎn)品世界》編輯
本文引用地址:http://dyxdggzs.com/article/201706/361119.htm摘要:人工智能(AI)開(kāi)始由科研走向行業(yè)應用,其中嵌入式視覺(jué)是重要的應用場(chǎng)景,例如汽車(chē)、監控、虛擬現實(shí)/增強現實(shí)、醫學(xué)診斷、工業(yè)視覺(jué)、無(wú)人機和移動(dòng)市場(chǎng)等。為此,筆者探訪(fǎng)了業(yè)內部分相關(guān)企業(yè),請他們介紹了部分算法、研發(fā)和產(chǎn)品動(dòng)向。
從嵌入式視覺(jué)到視覺(jué)導向機器學(xué)習的挑戰
今天我們討論終端的計算和嵌入式計算的時(shí)候,也需要來(lái)討論機器學(xué)習的推斷,再加上計算機視覺(jué),還有傳感器融合和任意互聯(lián),來(lái)實(shí)現新一代的視覺(jué)導向自主和智能系統。
機器學(xué)習概況
根據Moor Insight & Strategy提供的機器學(xué)習范圍圖(如圖1),在縱軸上主要是行業(yè)領(lǐng)域,橫軸上主要是關(guān)于應用的位置,看它是嵌入式的應用還是更多靠近云端。但是也有一些應用是既在邊緣/終端,又在云上,也就是說(shuō)它首先進(jìn)行本地智能的處理,之后還要到云端進(jìn)行分析,使得它的解決方案能夠更加強大。
關(guān)于右側列的深色應用區塊,2016年底,Xilinx推出的可重配置加速堆棧更多是關(guān)注這部分,當然也可以適用于中間一些混合解決方案。不久前Xilinx推出的reVISION堆棧,希望把它應用于左側列非常廣泛的機器學(xué)習領(lǐng)域,也有中間的一些少量的應用,即圖1的淺色區塊部分??梢?jiàn)reVISION加上可重配置加速堆棧,能夠實(shí)現從終端到云的全面覆蓋和布局,推動(dòng)下一代的機器學(xué)習。
具體地,現在正在出現這樣一種轉型,即越來(lái)越多的從圖2左邊的應用轉向右邊的應用。左邊的應用都是非常簡(jiǎn)單的傳感器的配置,一般是各種各樣的攝像頭,并有一個(gè)非常核心的技術(shù),也就是計算機視覺(jué)處理技術(shù)來(lái)識別整個(gè)框架環(huán)境中的物體。右邊的應用會(huì )越來(lái)越使用各種不同類(lèi)型的傳感器技術(shù),再加上圖像傳感器,還要和機器學(xué)習實(shí)現智能的融合。例如,過(guò)去在工廠(chǎng)里有機器人在籠子里來(lái)完成它們的工作,但是現在已經(jīng)有了新一代的協(xié)作機器人,它們是與人肩并肩一起在工作,而且它們是可以移動(dòng)的。同樣,在汽車(chē)ADAS(高級駕駛員輔助系統)里包含有前視攝像頭。但是現在為了要支持自動(dòng)駕駛汽車(chē)的發(fā)展,攝像頭也是多種多樣,會(huì )有不同的傳感器,例如遠程雷達、中程雷達、短程雷達,還有激光雷達、毫米波雷達等不同類(lèi)型的傳感器。再加上機器學(xué)習的融合,使得這些車(chē)輛在行駛時(shí)能夠做出自己的決策。所以,現在客戶(hù)更多地要求從左邊的應用轉向右邊的應用,這個(gè)過(guò)程中就出現了一個(gè)很大的轉型。
客戶(hù)的三個(gè)主要的應用使命或要求是:1.智能性及高效的立即響應性,比如行人從車(chē)前經(jīng)過(guò);2.升級到最新算法和傳感器的靈活性;3.在一個(gè)萬(wàn)物互聯(lián)的物聯(lián)網(wǎng)世界,還需要實(shí)現隨時(shí)與其他機器及云保持連接。
很多開(kāi)發(fā)視覺(jué)產(chǎn)品的客戶(hù)通常采用傳統的RTL流程(圖3),需要具備相應的硬件方面的專(zhuān)有知識。所以要真正實(shí)現非常廣泛的視覺(jué)應用,就必須要支持新的編程模式,也就是軟件定義的編程,同時(shí)還要滿(mǎn)足相應行業(yè)標準庫和新型的框架來(lái)支持機器學(xué)習的應用。所以,通過(guò)軟件定義的編程以及符合行業(yè)標準的庫和框架,就能夠擴展視覺(jué)導向的機器學(xué)習應用范圍。
reVISION堆棧包含一些基礎的平臺,可以支持算法的開(kāi)發(fā),而且它帶有非常符合行業(yè)標準的庫和元素,針對于計算機視覺(jué)以及機器學(xué)習都是非常重要的。而且,它又更進(jìn)一步采用的是應用的開(kāi)發(fā)商喜聞樂(lè )見(jiàn)的平臺。這些框架包括在機器學(xué)習領(lǐng)域是Caffe,在計算機視覺(jué)領(lǐng)域就是OpenVX(如圖3右側)。
圖3縱軸上表現的是開(kāi)發(fā)應用時(shí)所需要的時(shí)間和精力,橫軸上顯示的是開(kāi)發(fā)這些應用所使用的方法。大約在2010年以前,Xilinx推出了新的提高產(chǎn)率的工具,也就是基于RTL的硬件設計的工作流程。2015年下半年,Xilinx推出軟件定義的編程環(huán)境——SDSoC,基于Xilinx的Zynq SoC芯片,主要是嵌入式的應用。通過(guò)2017年上半年推出的reVISION堆棧,開(kāi)發(fā)時(shí)間可以大大壓縮。所以,傳統的模式是Xilinx提供芯片以及開(kāi)發(fā)環(huán)境中20%的解決方案,剩下的80%要由客戶(hù)來(lái)完成。但是有了reVISION堆棧以后,Xilinx能夠完成解決方案當中80%的工作,剩下的客戶(hù)只要完成20%,就可以實(shí)現其應用。
經(jīng)Xilinx測算,相比同類(lèi)產(chǎn)品(諸如英偉達的Tegra和典型SoC),Xilinx的解決方案在機器學(xué)習的效率方面能夠提升6倍,在計算機視覺(jué)領(lǐng)域要提高40倍以上。在實(shí)時(shí)快速響應的系統當中,更重要的一個(gè)參數是時(shí)延,Xilinx在時(shí)延方面只有同類(lèi)產(chǎn)品的1/5。
軟硬件的可重配置性和可編程性
圖4顯示的是不同類(lèi)別的傳感器演進(jìn)的過(guò)程,如果Xilinx看一下這些視覺(jué)導向應用,比如圖像,Xilinx可以看到在傳感器的類(lèi)型和配置方面是出現了一個(gè)爆炸,這種情況Xilinx把它稱(chēng)作傳感器的融合。Xilinx可以看到是人工智能和機器學(xué)習的不斷擴展驅動(dòng)了這種傳感器融合的趨勢,所以也需要可重配置性來(lái)跟上這些變化的步伐。
如果把所有這些元素都放在圖5里??v軸體現的是系統的響應時(shí)間,橫軸體現的是系統可重新配置的能力來(lái)適應新的神經(jīng)網(wǎng)絡(luò )、算法和傳感器。為了做到全面完整,在這里也包含了CPU和大型的GPU。這些器件在推斷方面表現是非常優(yōu)異的,但是在時(shí)延方面就不是那么理想,但是由于它們精度非常高,所以它們非常適用于在一些數據中心的研發(fā)方面的訓練,所以它們響應的時(shí)間方面是非常低的,但是因為它們需要固定的硬件,它們的可重配置性方面也很低。而reVISION具有很強的可重配置性和可編程性。
Cadence的視覺(jué)、雷達、融合傳感器計算
在神經(jīng)網(wǎng)絡(luò )的器件方面,英偉達主宰了通用GPU。而Cadence Tensilica發(fā)布的神經(jīng)網(wǎng)絡(luò )DSP IP則是面向嵌入式芯片。
最新的Cadence Tensilica Vision C5 DSP由于可配置,可以面向多種CNN。因為CNN更新很快,但從拿到IP到芯片上市通常要兩三年時(shí)間,因此固化硬件的方案會(huì )導致不能滿(mǎn)足未來(lái)的需求變化,所以并不合適,而DSP IP的靈活性使其適合嵌入式系統中的NN(神經(jīng)網(wǎng)絡(luò ))實(shí)現。
通常的NN加速器中,HW(硬件) NN ACC(加速器)與Imaging(圖像)DSP、CPU或GPU的通訊/連接很繁瑣,可能占整個(gè)計算工作量的40%。而由于Cadence重新設計了NN加速器,C5的計算能力可達1T MAC/s,面積在1mm2以?xún)?注:16nm工藝)。
C5與友商的差異化
實(shí)際上,專(zhuān)用芯片/ASIC的功耗更低,大批量制造成本也更低。另外,FPGA支持的運行頻率較低,只有幾十MHz,而Vision C5可以支持幾百MHz的運行頻率。
相比同是處理器IP廠(chǎng)商的Synopsys與CEVA,后兩者的CNN方案需要三部分:控制、Imaging處理器、HW NN ACC(加速器)。而C5把后兩部分集成在一起,因此只需要兩大塊,方案更為簡(jiǎn)潔,同時(shí)提高了Imaging處理的效率。
Mobileye自動(dòng)駕駛的下一步計劃
Mobileye(現被Intel收購)現在做的是三大技術(shù)支柱:1.視覺(jué)感知;2.做適用于自動(dòng)駕駛的地圖;3.教會(huì )車(chē)如何去行駛,即和現有的人開(kāi)車(chē)的車(chē)流去混合行進(jìn)。
視覺(jué)感知
Mobileye是一個(gè)以單目攝像頭做視覺(jué)的技術(shù), Mobileye現在是做三目,再后來(lái)是八目,在前方是三個(gè)攝像頭,側邊一邊兩個(gè),后面一個(gè),加起來(lái)是八個(gè),不同于現在的環(huán)視系統,Mobileye開(kāi)發(fā)的這款產(chǎn)品不管是哪個(gè)攝像頭獲取的信息都要進(jìn)行判斷。從這個(gè)角度看,需要判斷的東西非常多。即使Mobileye做三攝像頭的解決方案,三個(gè)焦距,其實(shí)它是三個(gè)不同焦距的攝像頭,定位遠、中、近,每個(gè)攝像頭的角度不一樣,這樣,三個(gè)攝像頭之間是互相覆蓋和冗余的,從而可以做到在城市道路上不同的攝像頭會(huì )起到作用,做到更寬、更遠、更精準的判斷。
Mobileye接下來(lái)將可以做到3D(立體),也就是車(chē)不管什么角度,Mobileye都是可以識別出來(lái),預計2018年可用于量產(chǎn)的車(chē)。
美光:適用于視頻監控行業(yè)的創(chuàng )新邊緣存儲解決方案
邊緣存儲技術(shù)是指錄制視頻并存儲在攝像頭或直連存儲設備中,而不是通過(guò)網(wǎng)絡(luò )存儲到集中式記錄設施中。這項技術(shù)迅速得到了認可,并在IP 視頻監控應用中得到了廣泛的采用。
IP視頻監控中邊緣存儲面臨的挑戰
目前市場(chǎng)上的絕大多數 microSD 卡都是消費級產(chǎn)品,而不是為 IP 視頻監控攝像頭中的商業(yè)和工業(yè)邊緣存儲設計的。因此,許多系統集成商和安裝 者認為邊緣存儲“不可靠”。大多數用戶(hù)都不了解, 邊緣錄制中使用的 microSD 卡的壽命和質(zhì)量可能千差萬(wàn)別,具體取決于所選卡的質(zhì)量。選擇質(zhì)量不佳 的microSD 卡可能會(huì )導致在部署完成后的幾個(gè)月內 就發(fā)生代價(jià)不菲的現場(chǎng)故障。
適用于邊緣存儲應用的美光工業(yè)卡
憑借閃存技術(shù)方面的專(zhuān)業(yè)知識和監控應用知識,美光科技開(kāi)發(fā)了一種監控專(zhuān)用的工業(yè)級存儲卡,用于 IP 視頻監控應用中的邊緣存儲。這種卡具備高耐用性、卓越的錄制性能、工業(yè)級質(zhì)量、可監控運行狀況的智能工具等優(yōu)勢。
參考文獻:
[1]王瑩.眾廠(chǎng)商談智能制造的技術(shù)市場(chǎng)動(dòng)向[J].電子產(chǎn)品世界,2016(42-3):13-18.
[21]胡郁.人工智能與語(yǔ)音識別技術(shù)[J].電子產(chǎn)品世界,2016(4):23-25.
[3]Tom Austin,陳勇.智能機器:區分事實(shí)與虛幻[J].電子產(chǎn)品世界,2016(10):7-8.
[4]王瑩,王金旺.智能感知的市場(chǎng)與發(fā)展[J].電子產(chǎn)品世界,2016(10):13-19.
本文來(lái)源于《電子產(chǎn)品世界》2017年第7期第24頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論