圖片操作的手勢動(dòng)態(tài)識別系統
摘要:為了實(shí)現圖片操作命令的手勢輸入,設計了圖片操作的手勞動(dòng)態(tài)識別系統。系統以ARM(S3C6410)為硬件處理核心,利用數字圖像處理和嵌入式視覺(jué)技術(shù),由攝像頭捕捉幀圖像,經(jīng)OpenCV技術(shù)處理識別后,發(fā)出相應命令,操作顯示屏上的圖片,實(shí)現了對圖片非接觸式的縮放和切換操作等功能。進(jìn)行實(shí)驗測試,取得了良好的效果,所提出的設計思想為手語(yǔ)輸入、機器人視覺(jué)輸入的方案設計提供了參考。
關(guān)鍵詞:手勢識別,圖片操作;ARM;OpenCV;QT/E
0 引言
數字圖像處理技術(shù)是將獲得的低質(zhì)量圖像利用計算機處理成更適合人眼觀(guān)察或儀器檢測的圖像的技術(shù)。嵌入式視覺(jué)技術(shù)是使用攝像機和計算機代替人眼對目標進(jìn)行識別,跟蹤和測量的技術(shù)。因此。數字圖像處理技術(shù)和嵌入式視覺(jué)技術(shù)被廣泛地應用在基于圖像的識別控制系統中。
當前人機交互的主要信息輸入方式有鍵盤(pán)輸入、鼠標輸入、觸摸屏輸入,語(yǔ)音輸入、視覺(jué)輸入。對于鼠標、鍵盤(pán)和觸屏輸入方式,信息輸入者需要接觸輸入設備,而語(yǔ)音輸入和視覺(jué)輸入不需要接觸輸入設備。語(yǔ)音輸入對特定語(yǔ)音識別率較高,非特定語(yǔ)音輸入識別率低,因此語(yǔ)音輸入普適性差;基于視覺(jué)的輸入通過(guò)攝像頭捕捉手部運動(dòng),將手語(yǔ)轉換成對應的命令,實(shí)現手勢輸入,這就可以讓人擺脫人機交互時(shí)接觸的限制。本文介紹了一種基于ARM的操作圖片的手勢動(dòng)態(tài)識別系統,利用數字圖像處理技術(shù)和嵌入式視覺(jué)技術(shù),通過(guò)攝像頭捕捉手勢動(dòng)態(tài)來(lái)操作顯示屏上的圖片,實(shí)現以非接觸的方式對圖片進(jìn)行放大、縮小、切換等操作。
1 系統硬件架構
如圖1所示,手勢動(dòng)態(tài)識別的硬件系統主要由ARM S3C6410處理器、USB攝像頭、USB控制器、LCD控制器、存儲器控制器等組成。系統由攝像頭獲取手勢動(dòng)態(tài)的圖片,經(jīng)過(guò)S3C6410處理判斷操作者意圖,對顯示屏的圖片進(jìn)行操作。
S3C6410處理器的部分硬件特性如下:采用ARM1176JZF-S核,包含16 KB的指令數據CACHE和16KB的指令數據TCM,主頻最高可達667MHz;
支持TFT 24 b LCD屏,分辨率能支持到1 024×1 024;獨立的USB Host控制器,支持USB Host 1.1;支持(Mobile)SDRAM和(Mobile)DDR SDRAM;具有圖像處理模塊;支持JPEG編解碼功能,最大尺寸為4 096×4 096;支持對YUV420/422和RGB565/888的數據進(jìn)行硬件翻轉。
2 系統軟件設計
系統軟件架構主要由Linux操作系統,OpenCV,QT/E構成。Linux操作系統負責整個(gè)系統資源的分配和管理;OpenCV及QT/E完成圖像采集、圖像處理、動(dòng)作識別、圖像顯示等功能。軟件架構如圖2所示。
2.1 實(shí)現原理
本系統以幀差法為基礎,通過(guò)記錄兩幀中人手的坐標信息或者面積信息,判斷人手的運動(dòng)軌跡來(lái)操作顯示屏上的圖片。
以顯示屏的左上角為坐標原點(diǎn)建立平面直角坐標系如圖3所示。當人手進(jìn)入攝像頭捕捉區域后,攝像頭對人手進(jìn)行2次拍照,S3C6410對獲取圖像進(jìn)行預處理,并獲取人手圖片的數據信息,將次時(shí)刻的圖片數據與前一時(shí)刻的圖片數據進(jìn)行相應的運算處理,即可判斷人手的運動(dòng)方向,確定操作者的意圖,從而操作顯示屏上的圖片。
評論