基于多特征SVMs分類(lèi)器的手語(yǔ)識別的研究

作者：時(shí)間：2016-12-22 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

　　引言

　　手語(yǔ)識別的目的就是通過(guò)計算機提供一種有效的、準確的機制將聾啞人常用的手語(yǔ)手勢識別出來(lái)，使得他們與健全人之間的交互變得更方便、快捷。同時(shí)，手語(yǔ)識別的應用還可以提供更自然的人機交互方式，方便聾啞人對計算機等常用信息設備的使用。目前手語(yǔ)識別可以分為基于視覺(jué)(圖像)的識別系統和基于數據手套(佩戴式設備)的識別系統?；谝曈X(jué)的手勢識別系統采用常見(jiàn)的視頻采集設備作為手勢感知輸入設備，價(jià)格便宜、便于安裝。鑒于基于視覺(jué)的手勢識別方法交互自然便利，適于普及應用，且更能反映機器模擬人類(lèi)視覺(jué)的功能，所以目前是手勢識別的研究重點(diǎn)。

　　手語(yǔ)識別的研究開(kāi)始于1982年，Shantz和Poizner實(shí)現了一個(gè)合成美國手語(yǔ)的計算機程序。之后，中國、美國、日本、德國等許多國家都進(jìn)行了自己國家的手語(yǔ)識別與合成研究，并取得了許多重要的研究成果。Triesch和Malsburg開(kāi)發(fā)了一種彈性圖模板匹配技術(shù)對復雜背景下的手形進(jìn)行分類(lèi)[1]，在相對復雜的背景下的識別率達到86.2%。Davis和Shah將戴上指間具有高亮標記的視覺(jué)手套的手勢作為系統的輸入，可識別7種手勢[2]。Starner[3]等在對美國手語(yǔ)中帶有詞性的40個(gè)詞匯隨機組成的短句子識別率達到99.2%。Yang等人采用7Hu不變矩特征量進(jìn)行手語(yǔ)字母識別，最好識別率為90%[4]。

　　本文采用SVMs (Support Vector Machines，支持向量機)作為手語(yǔ)識別的分類(lèi)器，提出了一種基于視覺(jué)的手語(yǔ)字母識別方法。SVMs在解決小樣本、非線(xiàn)性及高維模式識別問(wèn)題中表現出許多特有的優(yōu)勢，并能夠推廣應用到函數擬合等其他機器學(xué)習問(wèn)題中。采用SVMs作為圖像分類(lèi)器首先要解決的問(wèn)題是：如何用典型視覺(jué)特征來(lái)表征圖像的不同視覺(jué)特性[5]。

　　在圖像特征提取方面，為了能夠同時(shí)表征圖像的全局特性和局部特性，需要同時(shí)提取圖像的全局特征和局部特征，并且這些特征中用以描述圖像整體形狀的特征應當具備平移、旋轉和尺度不變性。SIFT(Scale Invariant Feature Transform)是一種對尺度空間、圖像縮放、旋轉甚至仿射不變的圖像局部特征描述算子[6];而7Hu不變矩特征量具有平移、旋轉和尺度不變性的特點(diǎn)，具有很好的穩定性，適合描述目標整體形狀。

　　手語(yǔ)簡(jiǎn)介

　　手語(yǔ)是一種聾人使用的語(yǔ)言，是一種靠動(dòng)作/視覺(jué)交際的特殊語(yǔ)言[7]。中國手語(yǔ)包括30個(gè)手指字母，大約5500個(gè)基本手勢詞。手指語(yǔ)是從字母語(yǔ)言發(fā)展起來(lái)的，是漢語(yǔ)手語(yǔ)的一種，用一個(gè)指式代表一個(gè)漢語(yǔ)拼音字母，按照漢語(yǔ)拼音方案拼成普通話(huà)。而手勢語(yǔ)則是由象形語(yǔ)言發(fā)展起來(lái)的。它充分利用人的手勢、表情和身體動(dòng)作形象地表達物體和行動(dòng)的最基本特征。

　　中國文字改革委員會(huì )、教育部等單位于1963年聯(lián)合公布實(shí)施漢語(yǔ)手指字母方案[7]。方案中包括漢語(yǔ)拼音中26個(gè)單字母(A～ Z)和4個(gè)雙字母(ZH、CH、SH、NG)如圖1所示。

　　圖1 中國手語(yǔ)字母表

　　SVMs

　　SVMs的主要思想是建立一個(gè)超平面作為決策曲面，使得正例和反例之間的隔離邊緣被最大化。對于二維線(xiàn)性可分情況，令 H為把兩類(lèi)訓練樣本沒(méi)有錯誤地分開(kāi)的分類(lèi)線(xiàn)，H1，H2分別為過(guò)各類(lèi)中離分類(lèi)線(xiàn)最近的樣本且平行于分類(lèi)線(xiàn)的直線(xiàn)，它們之間的距離叫做分類(lèi)間隔。所謂最優(yōu)分類(lèi)線(xiàn)就是要求分類(lèi)線(xiàn)不但能將兩類(lèi)正確分開(kāi)，而且使分類(lèi)間隔最大。在高維空間，最優(yōu)分類(lèi)線(xiàn)就成為最優(yōu)分類(lèi)面[8，9]。

　　設線(xiàn)性可分樣本集為(xi,yi))，i=1,2,…,n,x∈Rd，即x是d維特征向量，y∈{+1,-1}是類(lèi)別標號，d維空間線(xiàn)性判斷函數的一般形式為g(x)=w×x+b，分類(lèi)面方程為：w×x+b=0 (1)

　　式中w為權向量，b為分類(lèi)閾值。要求分類(lèi)面對所有樣本正確分類(lèi)，就是要求它滿(mǎn)足：

　　Yi[w×xi+b]-1≥0,i=1,2,…,n (2)

　　滿(mǎn)足上述條件且使||w||2最小的分類(lèi)面就叫做最優(yōu)分類(lèi)面， H1，H2上的訓練樣本點(diǎn)，也就是使式(2)中等號成立的樣本點(diǎn)，稱(chēng)作支持向量。解這個(gè)最優(yōu)化問(wèn)題后得到的最優(yōu)分類(lèi)函數是：

　　在學(xué)習樣本是線(xiàn)性不可分，但卻是非線(xiàn)性可分的情況下，可以通過(guò)非線(xiàn)性變換把學(xué)習樣本變換到高維空間，使其在高維空間里是線(xiàn)性可分的。用核函數 K(x,y)代替原來(lái)的點(diǎn)積(x·y)，Mercer定理指出，核函數 K(x,y)通過(guò)與其相聯(lián)系的非線(xiàn)性變換Φ隱含地把特征向量映射到高維特征空間，使得學(xué)習樣本成為線(xiàn)性可分的。常用的核函數有:

　　圖像特征選取

　　手語(yǔ)圖像特征的選取，會(huì )直接影響到識別的效果，因此在表示圖像的不同視覺(jué)特征時(shí)本文同時(shí)提取全局視覺(jué)特征和局部視覺(jué)特征。為了避免圖像分割工具可能帶來(lái)的問(wèn)題，在特征提取時(shí)不進(jìn)行圖像分割。在研究中，將提取圖像的以下特征：(1)7維不變矩特征量，作為圖像整體形狀描述的特征向量(2)用Gabor小波提取48維的紋理特征，以表示圖像的整體結構屬性[10];(3)提取一定數量的興趣點(diǎn)及它們的SIFT特征[11]，以表示圖像的局部結構特征與所包含目標的大致形狀。實(shí)驗表明，全局和局部視覺(jué)特征可以有效的表示出圖像的主要視覺(jué)特征。

　　Hu不變矩特征量

　　利用矩不變量進(jìn)行形體識別是模式識別中的一種重要的方法， Hu在1961年首先提出了矩不變量的概念。Hu首先提出代數不變矩的概念，并給出了一組基于通用矩組合的代數矩不變量。這些矩具有平移、尺度和旋轉不變性，被稱(chēng)為Hu’s矩。

　　對于連續灰度函數 f(x, y)，它的(p + q)階二維原點(diǎn)矩Mpq 的定義為：

　　假設 f(x, y)為分段連續的有界函數，并且在x，y平面上有限區域內有非零值。根據唯一性定理，它的各階矩存在且唯一地被 f(x, y)確定，反過(guò)來(lái)，f(x, y)也唯一地被它的各階矩確定。

　　此外，還可以定義 f(x, y)的(p + q)階中心矩μpq 為：

　　Hu首先提出了不變矩，他給出了連續函數矩的定義和關(guān)于矩的基本性質(zhì)，證明了有關(guān)矩的平移不變性、旋轉不變性以及比例不變性等性質(zhì)，具體給出了具有平移不變性、旋轉不變性和比例不變性的七個(gè)不變矩的表達式。

新聞中心

基于多特征SVMs分類(lèi)器的手語(yǔ)識別的研究

評論

相關(guān)推薦

技術(shù)專(zhuān)區