高性能DSP核心搶攻嵌入式視覺(jué)市場(chǎng)
為了滿(mǎn)足行動(dòng)手機、汽車(chē)和視訊產(chǎn)品的高性能和高功效成像需求,嵌入式視覺(jué)演算法正持續快速發(fā)展,并在數位訊號處理(DSP)核心IP公司之間開(kāi)啟了全新的戰場(chǎng)。
繼Ceva公司在一年前發(fā)布可程式的低功耗成像與視覺(jué)平臺MM3101之后,今年2月,Tensilica公司也推出了名為IVP的成像與視訊資料層處理器單元(DPU)。
Tensilica公司的IVP DPU是一種可授權的半導體IP核心,專(zhuān)門(mén)設計用于從主處理器卸載復雜的成像功能。據Tensilica公司創(chuàng )辦人兼CTO Chris Rowen透露,雖然目前IVP IP核心主要用于大眾市場(chǎng),但已有兩家客戶(hù)將它運用于其系統晶片中。
IVP DPU具有每秒每瓦執行5,000億畫(huà)素作業(yè)的能力,采用臺積電(TSMC)的28nm制程技術(shù)制造。據Tensilica公司介紹,IVP DPU中每顆核心占用面積不到0.5平方毫米,因此非常適合低成本應用。
推動(dòng)對于成像/視訊處理器核心的需求來(lái)自于各種新功能,例如行動(dòng)手機和數位相機中使用的高動(dòng)態(tài)范圍影像擷取、臉部辨識與追蹤;數位電視(DTV)中使用的手勢控制與視訊后處理;先進(jìn)駕駛輔助系統(ADAS)中的正面碰撞警示、車(chē)道偏離警告等。
這些復雜的成像/視覺(jué)演算法發(fā)展非常迅速,以致于行動(dòng)手機和汽車(chē)公司希望「在數周內而不是幾個(gè)月內」,就能將這些新功能整合于其產(chǎn)品系統中,Tensilica公司成像/視訊總監Gary Brown表示。
多種方案選擇
對于系統供應商來(lái)說(shuō),成像/視訊處理解決方案有多種方案備選,從在CPU中完成所有功能到卸載成像功能至GPU,或是增加專(zhuān)用于成像功能的硬線(xiàn)邏輯等各種選擇。
「舉例來(lái)說(shuō),光是在1.5GHz頻率的A8 四核心上進(jìn)行視訊處理,而不包括其它功能,也很容易就達到3瓦功耗?!筊owen表示。
對于行動(dòng)手機或數位相機而言,想要單獨在CPU上做到這一點(diǎn)尤其困難,特別是當這種消費系統需要在拍照的同時(shí)連續執行高動(dòng)態(tài)范圍等演算法時(shí)。
IVP處理器核心架構
透過(guò)使用硬線(xiàn)邏輯,可實(shí)現一些專(zhuān)用功能,如臉部檢測、視訊穩定或物件追蹤等。但是,隨著(zhù)越來(lái)越多的高階人機界面功能向下轉移到消費設備上,從現在開(kāi)始的兩個(gè)月內就必須提供更多新的硬線(xiàn)模組。

Tensilica的IVP DPU平臺架構
將成像功能卸載到GPU是另外一種選擇。值得注意的是,GPU的側重點(diǎn)在于浮點(diǎn)運算和3D繪圖處理,Rowen認為,這種修改可能會(huì )降低成像效率,并增加晶片占用面積。此外,GPU較難以進(jìn)行編程處理,他補充道。
Berkeley Design Technology公司總裁Jeff Bier解釋?zhuān)幚砑磿r(shí)影像或視訊資料一般需要「每秒數百億次作業(yè),」這是因為「我們將復雜的演算法運用于即時(shí)資料,并從畫(huà)素中擷取含義——這是嵌入式視覺(jué)的本質(zhì)——也是個(gè)困難的問(wèn)題?!?/P>
另外,這個(gè)難題「從一般意義來(lái)看,事實(shí)上還未能解決,」Bier補充道。這意味著(zhù)「演算法開(kāi)發(fā)方法可能極具試驗性和反覆性?!挂虼?,從另一方面來(lái)看,所需要的成像/嵌入式視覺(jué)解決方案是可加以編程的,也較易于開(kāi)發(fā),他指出。
基于高效處理器的架構
Linley Group公司資深分析師J.Scott Gardner贊同Jeff Bier的看法?!赶噍^于視訊編解碼具有詳細定義的演算法,讓設計者可燒錄于硬體中;而嵌入式視覺(jué)所用的演算法實(shí)際上是無(wú)限制的,而且還一直在發(fā)展中?!顾硎?。
Gardner把嵌入式視覺(jué)稱(chēng)為「完美的應用」,因為它能「充分利用演算法中固有的資料層平行機制」。然而,僅擁有大量畫(huà)素運算單元是不夠的,他補充道,「記憶體系統和匯流排架構必須設計成能夠以接近每秒10億畫(huà)素的速率高效率地提供畫(huà)素資料?!?/P>
那么在針對嵌入式視覺(jué)應用實(shí)現最佳化處理器時(shí),設計者必須具備哪些特殊能力?Jeff Bier列舉:必須能應用多種架構化平行機制,充分利用畫(huà)素處理平行特色;支援更短與更長(cháng)的資料類(lèi)型(如8位元、16位元和32位元),這樣當需要較低精度時(shí),就能平行執行更多作業(yè)以及節省記憶體頻寬,而在需要較高精度時(shí)也能立即得到滿(mǎn)足;提供非常高的記憶體頻寬,以便能使所需的大量資料有效率地進(jìn)出處理器;提供專(zhuān)門(mén)的指令,以便有效率地建置這些演算法中所使用的關(guān)鍵作業(yè)。
事實(shí)上,Tensilica公司的IVP架構就能滿(mǎn)足許多這種要求。IVP基于四路可變長(cháng)度指令擴展(FLIX)架構。FLIX是Tensilica版本的VLIW架構,提供混合了緊密編碼指令的高度平行機制。IVP采用一套32路向量單指令多資料(SIMD)的資料集和一條平衡的9級管線(xiàn)。
這種架構包含一個(gè)直接記憶體存取(DMA)傳送引擎,支援高達每秒10GB的吞吐量和每周期1,024位元(64x16位元畫(huà)素/周期)的局域記憶體吞吐量,可充分滿(mǎn)足解析度和畫(huà)面播放速率要求。IVP還采用了許多特殊成像作業(yè)指令,可加速8位元、16位元和32位元畫(huà)素資料類(lèi)型和視訊作業(yè)模式,據Tensilica公司介紹。
Tensilica IVP vs CEVA架構
當然,Tensilica并不是第一家致力于開(kāi)發(fā)成像和嵌入式視覺(jué)用處理器核心的公司。CEVA公司于2012年1月發(fā)布的MM3101與Tensilica的IVP有許多相似之處,也混合使用了VLIW和SIMD。

CEVA-MM3101平臺專(zhuān)用于滿(mǎn)足最先進(jìn)的成像增強和電腦視覺(jué) 應用等極端計算需求
Gardner認為,「隨著(zhù)Tensilica進(jìn)入嵌入式視覺(jué)市場(chǎng),CEVA將必須重新改善其MM3000平臺?!?/P>
相較于Tensilica的IVP,CEVA公司的MM3101提供較低的原生運算性能和較小的記憶體頻寬。Tensilica支援32路SIMD(512位元向量),可能平行處理32個(gè)16位元畫(huà)素,相形之下,MM3101在使用兩個(gè)128位元的向量處理單元時(shí)僅支援每周期16個(gè)16位元畫(huà)素,Gardner解釋道。
此外,雖然CEVA的MM3101有一個(gè)獨立的256位元向量載入/儲存單元,但Tensilica的IVP支援每周期高達2個(gè)512位元的參考記憶體,可實(shí)現高達4倍的記憶體頻寬。
評論