基于嵌入式系統實(shí)時(shí)交互的手勢識別
手勢交互是人機交互領(lǐng)域近年來(lái)的研究熱點(diǎn),特別是利用攝像頭來(lái)實(shí)現對手勢信息的非接觸性捕獲,并由計算機進(jìn)行分析理解,然后完成交互任務(wù),由于其自然和符合人自身行為習慣的交互方式而備受青睞。手勢的形態(tài)在交互過(guò)程中的變化以及周?chē)h(huán)境的干擾都會(huì )影響到手勢的識別和理解,因此手勢識別是計算機視覺(jué)和人機交互領(lǐng)域中的重要問(wèn)題,如何將這種交互方式更好地在嵌入式系統中應用更是一個(gè)富有挑戰性的工作。
基于視覺(jué)的手勢識別過(guò)程通常分為四個(gè)步驟,即分割、表示、識別和應用。手勢識別算法的關(guān)鍵和難點(diǎn)是分割和識別兩個(gè)步驟,現有算法在這兩個(gè)步驟通常都有計算量大、時(shí)間復雜度高的特點(diǎn),而嵌入式設備又受到資源和計算能力的限制,要能夠做到基于嵌入式系統的實(shí)時(shí)手勢交互,就有必要對傳統的手勢識別算法進(jìn)行改進(jìn)。
本文在單攝像頭條件下,在手勢跟蹤的相關(guān)工作基礎上,提出了一種基于手勢結構特征的手勢識別方法,使之滿(mǎn)足嵌入式系統中的人機交互對實(shí)時(shí)性、準確性及連續性的要求。本文使用了計算量小且性能高的Camshift 算法作為跟蹤算法,并將其跟蹤結果作為手勢識別的參考因子,這樣可以大大減少手勢識別的工作量; 手勢的識別則采用了手勢跟蹤結果與手勢形態(tài)結構特征相結合的處理方法。將手勢跟蹤的結果作為參考因子,可以除去圖像中與手勢無(wú)關(guān)的背景圖像,利用手勢形態(tài)結構特征使得手勢識別工作不是對手勢邊緣的每個(gè)點(diǎn)進(jìn)行處理,轉而對手勢的外接多邊形進(jìn)行處理。這兩種方法相結合不僅使識別工作的計算量大大降低,對手勢識別的精確度也有所提高,而且不需要對各種手勢進(jìn)行訓練就可以完成識別工作,使得識別更加方便和簡(jiǎn)潔。
1 相關(guān)工作
關(guān)于手勢識別的算法,國內外的研究人員已經(jīng)提出了很多不同的解決方案。目前比較常用的有基于統計的HMM 模型、基于遺傳算法以及基于人工神經(jīng)網(wǎng)絡(luò )的手勢識別等?;诮y計的HMM 方法,其優(yōu)點(diǎn)是利用先驗知識建立視覺(jué)特征之間的因果關(guān)系來(lái)處理視頻處理中固有的不確定性問(wèn)題,不但能夠在每個(gè)時(shí)刻上對多個(gè)隨機變量所對應的不同特征之間的依存關(guān)系進(jìn)行概率建模,而且考慮了各個(gè)時(shí)刻間的轉移概率,能夠很好地反映特征之間的時(shí)序關(guān)系。但是它需要維護一個(gè)具有一定規模的樣本庫,而且在使用HMM 進(jìn)行手勢識別時(shí)計算量大。當然,樣本庫的規模越大其分布越接近實(shí)際情況,手勢識別的準確率就越高,而且還需要使用數據平滑的技術(shù)來(lái)擴大小概率的值。遺傳算法對圖像進(jìn)行離散化處理,對圖像離散點(diǎn)進(jìn)行控制,把圖像識別問(wèn)題轉換為一系列離散點(diǎn)的組合優(yōu)化問(wèn)題; 但它不能夠及時(shí)利用網(wǎng)絡(luò )的反饋信息,搜索速度比較慢,所需訓練樣本大、訓練時(shí)間長(cháng)。人工神經(jīng)網(wǎng)絡(luò )通過(guò)把大量的簡(jiǎn)單處理單元( 神經(jīng)元) 廣泛地連接起來(lái)構成一種復雜的信息處理網(wǎng)絡(luò ),它在不同程度和層次上模仿人腦神經(jīng)系統的信息處理、存儲和檢索功能,需要的樣本少、效率高; 但是需要人的參與訓練,識別的正確率受主觀(guān)因素的影響。
總體來(lái)說(shuō),在人機交互系統中,手勢的跟蹤與識別應該滿(mǎn)足以下幾個(gè)要求:
a) 實(shí)時(shí)性好,避免對高維度特征矢量的計算,數據量大的數組處理以及復雜的搜索過(guò)程。
b) 足夠的魯棒性。不受識別對象旋轉、平移和比例改變以及攝像頭視角改變的影響。
c) 手勢跟蹤的連續性和自動(dòng)初始化,能夠在跟蹤失敗后自動(dòng)恢復跟蹤,盡量減少人的干預。
本文提出手勢識別和跟蹤方法不再追隨傳統的將識別的四個(gè)步驟孤立起來(lái),而是將手勢跟蹤的結果與手勢的識別這兩個(gè)獨立的步驟聯(lián)系起來(lái),將跟蹤得到的手勢預測的區域設為下一幀圖像識別的感興趣區域( region of interesting,ROI) ; 基于Camshift 算法,根據前一幀手勢在圖像中的位置和顏色信息,對手勢在下一幀圖片所處的位置進(jìn)行預測,主要是基于顏色的統計信息。它運算量小,不僅能很好地滿(mǎn)足嵌入式系統的需求,而且跟蹤和預測的效果也非常好。通過(guò)對ROI 區域進(jìn)行手勢的分割和識別,可以排除背景圖像對手勢的部分干擾,識別過(guò)程的計算量也減小很多。由于每種手勢的邊線(xiàn)都有不同特征,這些不同的特征能很好地反映在手勢的外接多邊形上,因此,可以對不同手勢和外接多邊形建立一個(gè)一一映射的關(guān)系; 通過(guò)建立不同手勢的外接多邊形特征庫,對分割出來(lái)的手勢作多邊形擬合,只要將提取出來(lái)的多邊形與特征庫中的外接多邊形進(jìn)行匹配就能判斷出手勢的類(lèi)型。
本文提出的手勢識別方法主要包括三個(gè)部分:
a) 手勢分割。將手部區域從場(chǎng)景中分割出來(lái),并對手部的區域和輪廓進(jìn)行提取。這里的手部區域主要根據c) 跟蹤的結果提供。
b) 手勢圖像的外接多邊形擬合以及匹配部分。對a) 提取出來(lái)的手勢輪廓作多邊形擬合,分析多邊形的形狀特點(diǎn),并在特征庫中查找與擬合的多邊形特征相符合的對象,再映射到具體的手勢。
c) 手勢跟蹤部分。根據顏色信息對手的區域進(jìn)行定位,并對圖像進(jìn)行空間轉換,利用統計原理對下一幀手可能出現的區域進(jìn)行預測,并將預測的結果反饋給a) 的手勢分割部分。
手勢識別流程如圖1 所示。
2 手勢識別框架
手勢識別主要由靜態(tài)手勢的識別和手勢跟蹤兩部分的工作組成,手勢識別框架結構如圖2 所示。在本文提出的方法中,采用了將這兩部分的工作進(jìn)行并行處理的方式,手勢識別的結果傳遞給跟蹤部分,作為跟蹤的對象,并且手勢跟蹤的預測結果反饋給識別部分,將為靜態(tài)手勢識別提供ROI 圖像區域。這樣不僅能有效地提高跟蹤的高效性,還能提高識別的準確性,將這兩個(gè)部分有效地統一起來(lái)。
2. 1 靜態(tài)手勢識別
通過(guò)靜態(tài)手勢的識別,使系統能夠對被跟蹤對象有一個(gè)基本的理解,為實(shí)現自動(dòng)跟蹤初始化與跟蹤的自動(dòng)恢復奠定了基礎。首先,手部區域需要從場(chǎng)景中分割出來(lái)。本文采用一種基于模糊集和模糊運算的方法進(jìn)行手的區域和輪廓提取,通過(guò)對視頻流中空域和時(shí)域上的背景、運動(dòng)、膚色等信息執行模糊運算,分割出精確的人手。
靜態(tài)手勢的識別是基于輪廓特征的識別,對分割出來(lái)的人手作邊緣檢測,得到手勢完整的輪廓邊緣。通過(guò)前面的模糊集合運算,能得到圖像的手勢分割的二值圖。兩個(gè)具有不同灰度值的相鄰區域之間總存在邊緣。邊緣是灰度值不連續的結果,這種不連續可利用求導方便地檢測出來(lái)。
這樣就能得到完整的輪廓邊緣。如圖3 所示,左邊為手部區域,右邊為手勢的輪廓。
接下來(lái)是對提取的手勢輪廓作外接多邊形擬合。KenjiOka 和Yoichi Sato 的指尖搜索方法是首先在一個(gè)較大的搜索窗口內掃描確定20 個(gè)候選指尖位置,然后再對匹配度最大的候選位置周?chē)暮蜻x進(jìn)行抑制,同時(shí)按一定規則去除位于指尖中間的部分候選。該方法由于需要對搜索區域進(jìn)行多次逐像素的掃描,造成計算量較大,而且除去手勢中部候選位置的方法的魯棒性較差。文獻[5]給出了通過(guò)遍歷手勢輪廓的曲率來(lái)進(jìn)行之間位置搜索的方法,通過(guò)對手勢按輪廓順序進(jìn)行定長(cháng)掃描的方法,可以找出指尖并做出輪廓線(xiàn)的外接多邊形。但是這種查找方式需要遍歷輪廓線(xiàn)的每個(gè)點(diǎn),而且對每個(gè)點(diǎn)還需要作除法運算,這使得算法的計算量太大,而且在搜索指尖時(shí),當受到光線(xiàn)變化使得輪廓線(xiàn)出現很多突起的邊緣時(shí),使得識別工作出現困難。本文提出了一種查找外接邊的搜索方法,通過(guò)對手勢輪廓按輪廓點(diǎn)順序進(jìn)行定長(cháng)掃描,將手勢輪廓線(xiàn)的外接多邊形擬合出來(lái),同時(shí)將滿(mǎn)足定義1 的手勢輪廓外接凸邊形缺陷結構設為手勢識別的判斷特征。
2. 1. 1 手勢缺陷圖
定義1 手勢缺陷圖是指由手勢輪廓線(xiàn)外接多邊形以及多邊形各條邊所對應的谷底( depth point) 所組成的特征描述方程。谷底是指外接多邊形的邊與該邊所對應的輪廓線(xiàn)上距離邊最遠的輪廓點(diǎn)。定義
linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)
評論