嵌入式實(shí)時(shí)面部檢測應用設計指南
嵌入式計算機視覺(jué)系統與人類(lèi)的視覺(jué)系統非常相似,對來(lái)自范圍廣泛的各種產(chǎn)品的視頻信息進(jìn)行分析和提取,執行與人類(lèi)視覺(jué)系統相同的視覺(jué)功能。 在智能手機、數碼相機和便攜式攝像機等嵌入式便攜產(chǎn)品中,必須在有限的尺寸、成本和功耗條件下提供較高的性能。新興的大容量嵌入式視覺(jué)產(chǎn)品市場(chǎng)包括汽車(chē)安全、監控和游戲。計算機視覺(jué)算法識別場(chǎng)景中的物體,然后產(chǎn)生一個(gè)比其它圖像區域更重要的圖像區。例如,物體和面部檢測可用于增強視頻會(huì )議體驗、公共安全檔案管理,以及基于內容的檢索和其它許多方面。 可以進(jìn)行剪裁和尺寸調整,以便適當地將圖像放在面部中心。在本文中,我們提出了一種檢測數碼圖像中的面部、剪裁選定的主面部,并將調整尺寸到固定尺寸輸出圖像的應用(參見(jiàn)圖1)。這種應用可在單一圖像或在視頻流上使用,并且設計用于實(shí)時(shí)運行。只要人們關(guān)注移動(dòng)產(chǎn)品上的實(shí)時(shí)面部檢測,為了實(shí)現實(shí)時(shí)吞吐量,就必須采取合適的執行步驟。 本文提出了在可編程向量處理器上執行實(shí)時(shí)面部檢測應用的部署步驟,這些步驟可用于在任何移動(dòng)產(chǎn)品上執行類(lèi)似的計算機視覺(jué)算法,從這一點(diǎn)上說(shuō),它們是通用的。 圖1:CEVA面部檢測應用 雖然靜態(tài)圖像處理消耗少量的帶寬和分配內存,但是,視頻對于目前的存儲器系統的要求卻相當嚴苛。 另一方面,由于檢測和區分物體需要更多的處理步驟,計算機視覺(jué)算法的存儲器系統設計極具挑戰性??紤]19x19像素大小的面部圖形縮略圖。對于這種小圖,可能的灰度值組合就有256361種,需要極高的三維空間。由于面部圖像的復雜性,明確描述面部特征具有一定的難度;因此,建立了以統計模型為基礎的其它方法。這些方法將人臉區域視為一個(gè)圖形,通過(guò)瞄準許多“面部”和“非面部”樣品構建區分器,然后通過(guò)分析檢測區域的圖形來(lái)確定圖像是否包含人臉。 面部檢測算法必須克服的其它挑戰是:姿態(tài)(正面,45度,側面,倒置)、存在或缺乏結構部分(胡須、眼鏡)、面部表情、遮擋(部分面部可能被其它物體遮?。?、圖像取向(在相機光軸不同的旋轉方向,面部外表直接變化)及成像條件(照明、相機特點(diǎn)、分辨率)。 雖然文獻中已經(jīng)介紹了許多面部檢測算法,但是,只有少量算法能夠滿(mǎn)足移動(dòng)產(chǎn)品的實(shí)時(shí)限制性。雖然據報道,許多面部檢測算法能夠產(chǎn)生高的檢測率,但是,由于手機等移動(dòng)產(chǎn)品的計算和存儲器限制,很少有算法適合實(shí)時(shí)部署在這些移動(dòng)產(chǎn)品上。 通常,面部檢測算法的實(shí)時(shí)執行在具有相對強大的CPU和較大存儲器尺寸的PC電腦上進(jìn)行。針對現有面部檢測產(chǎn)品的考察顯示,Viola和Jones在2001年推出的算法已經(jīng)被廣泛采納。這是一項突破性的工作,允許采用基于外表的方法來(lái)實(shí)時(shí)運行,同時(shí)保持相同或更高的準確度。 這種算法利用簡(jiǎn)單特征的增強級聯(lián),并且可以分為三個(gè)主要部分:(1)積分圖 - 用于快速特征評估的高效卷積;(2)使用用于特征選擇的Adaboost,并按照重要性順序對它們進(jìn)行篩選。每個(gè)特征可作為一個(gè)簡(jiǎn)單的(弱)區分器使用;(3)使用Adaboost來(lái)了解將最不可能包含面部的區域濾出的級聯(lián)區分器(弱區分器的集合)。圖2是區分器級聯(lián)的示意圖。在圖像中,大多數子圖像并不是面部實(shí)例。 根據這種假設,我們可以利用更小的高效區分器在早期排除許多否定例,同時(shí)檢測出差不多所有的肯定例。在后期采用更復雜的區分器來(lái)審查疑難情況。 例:24級級聯(lián)區分器 一級2特征區分器=> 排除60%非面部,同時(shí)檢測100%面部 二級5特征區分器=> 排除80%非面部,同時(shí)檢測100%面部 3級、4級和5級20特征區分器 6級和7級50特征區分器 8級至12級100特征區分器 13級至24級200特征區分器 圖2:區分器的級聯(lián) 在面部檢測算法的第一級,利用被稱(chēng)為積分圖像的中間表示,可以快速計算矩形特征。如圖3所示,點(diǎn)(x,y)的積分圖像值是上部和左部所有像素的總和。D內像素的總和可以計算為4+1-(2+3)。 圖3:采用積分圖像對矩形特征進(jìn)行快速評估 為了在嵌入式產(chǎn)品上執行實(shí)時(shí)面部檢測應用,需要將指令級并行性和和數據級并行性相結合的高級并行性。超長(cháng)指令字(VLIW)架構能夠實(shí)現高級并行指令處理,提供擴展的并行性及低功耗。
評論