基于樹(shù)形檢測器的多標志識別
摘要:本文首先采用了soft cascade結構的頭結點(diǎn)分類(lèi)器檢測出大量的背景圖像;然后,通過(guò)一個(gè)貪婪搜索算法構建分叉樹(shù)分類(lèi)器,將不同的臺標分類(lèi)到正確的檢測線(xiàn)路中;最后,使用普通cascade結構來(lái)得到更加準確的識別結果。實(shí)驗結果,本文的檢測器可以獲得較高的識別準確度。
關(guān)鍵詞:soft cascade,joint boosting,canny算子
0 引言
自動(dòng)的電視臺標檢測和識別已經(jīng)在多媒體領(lǐng)域獲得非常高的關(guān)注度。如今,多數的手機都具備了攝像頭功能,所以人們可以隨心所欲地拍攝各種事物,然后利用各種算法去分析處理獲得的圖像。本文中,展示一個(gè)系統一利用手機內置攝像頭幫助人們識別電視頻道信息。日常觀(guān)看的電視頻道就有幾十個(gè)不同的臺標,所以可以把這個(gè)問(wèn)題看作是一個(gè)多類(lèi)檢測問(wèn)題,而單類(lèi)的檢測即識別,最終就實(shí)現了多類(lèi)識別。
對于單類(lèi)檢測問(wèn)題,Viola和Jones給出了state-of-the-art算法。他們先訓練了一系列節點(diǎn)分類(lèi)器去檢測圖像里的每一個(gè)子窗口,只有那些能夠通過(guò)所有節點(diǎn)分類(lèi)器的子窗口圖像才被認為是正樣本。吳將Voila的工作簡(jiǎn)單地拓展到了多視角人臉檢測上,為每個(gè)獨立的人臉視角訓練了一個(gè)不同的 cascade結構,并且并行地運用它們進(jìn)行檢測。但是當正樣本的類(lèi)型數量增加時(shí),這個(gè)方案所花費的檢測時(shí)間也是線(xiàn)性增長(cháng)的,而這個(gè)代價(jià)是我們無(wú)法負擔的。Torrobla提出了一種新的boosting框架,命名為jointboosting。他將N類(lèi)分類(lèi)問(wèn)題轉化為N-1個(gè)兩類(lèi)分類(lèi)問(wèn)題,然后自動(dòng)地共享相同的弱分類(lèi)器。盡管它的檢測器可以共享特征,但是當檢測目標時(shí),它仍然需要計算全部特征,所以它并不是一個(gè)快速檢測框架。
近些年來(lái),樹(shù)形檢測器被引入了多視角人臉檢測應用中。許多研究者更加偏愛(ài)于這種樹(shù)形結構,例如,Fleuret和Geman的scalar tree,Li等人的金字塔結構,還有Huang chang的廣度優(yōu)先搜索樹(shù)。在他們的工作里,Huang的工作最有新意,他提出來(lái)一種新的輸出一個(gè)布爾矢量的boosting算法,取名為vector boosting。由于它具有良好的性能,本文選用它作為分叉樹(shù)的部分。有別于多視角人臉的并行結構,經(jīng)驗證明直接構建一個(gè)由粗到精的樹(shù)是比較困難的。故此,本文設計了一種根據不同組合的誤報率來(lái)構建分叉樹(shù)的方法。詳細的方案會(huì )在1.3中闡述。
本文的其他部分是這樣組織的:在1.1小節中,本文介紹所采用的特征集,然后簡(jiǎn)要地描述下普通cascade結構和soft cascade結構。在實(shí)驗過(guò)程中,作者測試了本文算法的精確度和檢測所需的平均特征數。
1 檢測器框架
在實(shí)驗中,本文采用了一架攝像機來(lái)拍攝電視節目的全屏幕圖像??紤]到此方法的通用性,不假設關(guān)于臺標位置的先驗信息(盡管臺標通常會(huì )出現在屏幕的上部)。為了可以檢測出臺標,本文先使用了一個(gè)分類(lèi)器對大量的不同尺度和位置的子窗口進(jìn)行掃描。因為多數的子窗
口都是背景,而背景的輪廓特征不明顯,所以可以將任務(wù)分割成兩個(gè)部分:首先是盡可能早的拒判掉非臺標的子窗口,然后是區別每個(gè)臺標屬于哪個(gè)頻道。接下來(lái)描述下算法的第一部分。
評論