一種脫機手寫(xiě)簽名認證方法
1 引言
手寫(xiě)簽名認證方法屬于生物測定技術(shù)。簽名認證與其他生物測定技術(shù)相比,具有難以模仿、區分性較高、尊重隱私權、信息獲取高效等優(yōu)點(diǎn),在特征的可搜集性、人體傷害可接受性和魯棒性方面都很突出,具有廣闊的應用前景。但與其他生物測定方法相比,手寫(xiě)簽名認證的識別率并不是很高,尤其是脫機中文手寫(xiě)簽名認證。因為在脫機簽名認證中,丟失了書(shū)寫(xiě)過(guò)程中的動(dòng)態(tài)信息,使可利用的信息減少,增加了鑒別的難度。另外,有些高超的偽造簽名模仿得惟妙惟肖,有時(shí)即使是人類(lèi)專(zhuān)家進(jìn)行鑒定,識別率也可能會(huì )很低。這里針對脫機中文簽名,提出一種主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò )相結合的脫機手寫(xiě)簽名認證方法。
2 主成分特征提取
假設x是一個(gè)N×1的隨機向量,即x的每個(gè)元素xi都是一個(gè)隨機變量。x的均值可用L個(gè)樣本向量估計:
而其協(xié)方差矩陣可由式(2)估計:
協(xié)方差矩陣是N×N的實(shí)對稱(chēng)矩陣。對角元素是各個(gè)隨機變量的方差,非對角元素是它們的協(xié)方差。用矩陣A定義一個(gè)線(xiàn)性變換,它可由任意向量x通過(guò)式(3)得一個(gè)新向量y:
式中,A的行向量就是Cx的特征向量。
這里為了方便,對這些行向量按使得其對應的特征值遞減的順序排列。變換后的向量y是具有零均值的隨機向量,其協(xié)方差矩陣與x的協(xié)方差矩陣的關(guān)系為:
由于A(yíng)的行向量是Cx的特征向量,所以Cy是對角陣且其對角元素為Cx的特征值。于是:
從而λk也是Cy的特征值。因為Cy的非對角元素都是零,所以y個(gè)元素之間都是不相關(guān)的。于是線(xiàn)性變換A去掉了變量間的相關(guān)性。此外,λk是第k個(gè)變換后的變量yk的方差??赏ㄟ^(guò)略去對應于較小特征值的一個(gè)或多個(gè)特征向量給y降維。令B為M×N的矩陣(MN),B是通過(guò)丟棄A的下面N-M行,并假定m=0構成的,這樣,變換向量變小(即成為M×1維):
MSE只是與被舍棄的特征向量對應的特征值之和。通常,特征值幅度差別很大,可忽略其中一些較小值而不會(huì )引起很大誤差。
進(jìn)行模式分類(lèi)時(shí).理論上可將一幅MxN圖像的M×N個(gè)灰度特征作為分類(lèi)依據,但這樣會(huì )引起算法運算時(shí)間過(guò)長(cháng)而失去意義,系統也因此崩潰。如何對這M×N個(gè)灰度特征進(jìn)行主要特征提取,用提取出的k個(gè)灰度特征表征該圖像而使算法不會(huì )引起很大誤差。根據以上論述得知,這樣做可行。
對一幅M×N的簽名罔像,首先將圖像進(jìn)行局部區域劃分,即將圖像劃分成4×4或者8×8的小塊,這樣一幅圖像就被劃分成L個(gè)小塊,即:
然后將每一個(gè)小塊的16(或64)個(gè)灰度值看成一個(gè)N×1的隨機變量.假設x是一個(gè)N×1的隨機向量,x的每一個(gè)元素都是用上面的一個(gè)小塊的16(或64)個(gè)灰度值構成的隨機變量。實(shí)際x是一個(gè)16(或64)×L的矩陣,x的協(xié)方差矩陣由式(10)估計:
通過(guò)求得Cx的特征值來(lái)表征圖像的灰度主成分特征。將求得的特征值與先前的M×N個(gè)灰度特征相比,已明顯減少。這里取前10個(gè)最大的特征值作為特征分類(lèi)依據,由于后面的特征值很小,對其忽略不會(huì )引起太大誤差。
3 徑向基函數神經(jīng)網(wǎng)絡(luò )及其分類(lèi)器設計
徑向基函數神經(jīng)網(wǎng)絡(luò )RBFNN(Radial Basis FunctionNeural Network)起源于數值分析中的多變量插值的徑向基函數,它不僅具有任意精度的泛函逼近能力和最優(yōu)泛函逼近特性,而且具有較快的收斂速度。這里利用徑向基函數神經(jīng)網(wǎng)絡(luò )構成一個(gè)分類(lèi)器實(shí)現簽名真偽的認證采用高斯核函數作為徑向基函數,形式為:
式中,Zi是核函數的中心,δi為核函數的寬度,可控制基函數的徑向作用范圍,即方差。
而第i個(gè)隱結點(diǎn)的輸出定義為:
式中,wi是第i個(gè)隱結點(diǎn)到輸出層結點(diǎn)的權值,θ是輸出層結點(diǎn)的閾值。
一般常利用K均值聚類(lèi)算法確定各基函數中心及相應的方差,網(wǎng)絡(luò )權值的確定用局部梯度下降法修正。由于K均值聚類(lèi)方法要事先給出聚類(lèi)個(gè)數K,且聚類(lèi)結果對K 值大小都很敏感,不同K值的聚類(lèi)學(xué)習結果往往大相徑庭,因此,如何確定K值是一個(gè)難題。這里不采用上述的K均值聚類(lèi)方法,而采用文獻[4]中的一種根據相似性閾值和最小距離原則的簡(jiǎn)單聚類(lèi)方法確定RBF網(wǎng)絡(luò )的中心。其主要步驟為:
(1)設待分類(lèi)的模式集為{x1,x2…xn},選定類(lèi)內距離門(mén)限T;
(2)seed=RandomSelect(x);∥從對象集合x(chóng)中,任選一對象Seed;
(3)Dist1,2=Compute Distance(seed,x2);∥計算下一模式特征矢量x2到Seed的距離;
(4)若Dist1,2>T,則建立新的一類(lèi)ω2,其中心Z2=x2,若Dist1,2≤T,則x2∈ω1;
(5)假設已有聚類(lèi)中心Z1?Z2…Zk,計算尚未確定類(lèi)別的特征矢量xi到各聚類(lèi)中心Zj(j=1,2…,k)的距離dij。如果dij>T,則 xi作為新的一類(lèi)ωk+1的中心,Zk+1=xi,否則,如果dij=mindij,則判斷xi∈ωg,檢查是否所有的模式都劃分完類(lèi)別,如都劃分完則結束,否則返同(5),
上述算法采用規格化的Euclidean計算公式度量?jì)蓚€(gè)對象間的距離。具體公式定義如下:
在包含有N個(gè)對象的m維單位空間(各屬性取值均采用規格化處理)中,對象間的平均距離為
。對象間的平均距離與對象的個(gè)數及維數有關(guān)。在一定空間內,待分類(lèi)的對象個(gè)數越少,各對象的維數越大,各對象間的距離就越大;反之,對象數量越大,各對象的維數越小,則各對象間的距離就越小。
在包含有N個(gè)對象的m維單位空間(各屬性取值均采用規格化處理)中,對象間的平均距離為以此為標準,并按照“各聚類(lèi)中對象問(wèn)的距離不應超過(guò)此標準,各聚類(lèi)間距離不應低于此標準”的規則進(jìn)行聚類(lèi)學(xué)習。采用此方法得到的聚類(lèi)類(lèi)別數即為將要確定的隱層神經(jīng)元數。
整個(gè)RBF網(wǎng)絡(luò )的學(xué)習步驟為:
(1)設由上述聚類(lèi)算法得到的RBF網(wǎng)絡(luò )隱層單元數為K,最大允許誤差ε,置所有可調參數(權)為均勻分布的較小數(0~1或-1~1之間的隨機數)。置初始誤差E為0,學(xué)習率η為0~1之間的小數。網(wǎng)絡(luò )訓練后達到的精度Emin為一個(gè)正小數。
(2)采用上面根據相似性閾值和最小距離原則的簡(jiǎn)單聚類(lèi)方法確定基函數的中心Zi及δi方差,
(3)按梯度下降法調整網(wǎng)絡(luò )權值W直至誤差Eε,才結束。
4 實(shí)驗結果
徑向基神經(jīng)網(wǎng)絡(luò )由主成分特征提取出的10特征值作為輸入節點(diǎn),而隱含層節點(diǎn)個(gè)數則根據每組訓練樣本的不同(參見(jiàn)上述算法)確定,輸出層只有一個(gè)神經(jīng)元,該神經(jīng)元的輸出就是簽名圖像的對應分類(lèi)(真假兩類(lèi))。
實(shí)驗中共采集11個(gè)人的660個(gè)簽名。每人有30個(gè)真簽名和其他人模仿的30個(gè)假簽名。圖1和圖2是部分訓練和測試樣本,圖1和圖2的前兩個(gè)簽名為作者簽名,其他為假冒簽名。
在每個(gè)人的60個(gè)簽名中,42個(gè)簽名(其中真簽名21個(gè),假簽名21個(gè))作為訓練樣本,剩下的18個(gè)真假簽名作為測試樣本,因為有11個(gè)人的11組簽名,所以認證工作也分成11次,即1次進(jìn)行1個(gè)人訓練簽名樣本的訓練和測試樣本的測試。把這些樣本送入RBF神經(jīng)網(wǎng)絡(luò )進(jìn)行分類(lèi)驗證,實(shí)驗結果見(jiàn)表1:
5 結論
提出一種基于主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò )相結合的脫機手寫(xiě)簽名認證方法。首先為了減少運算量,對經(jīng)過(guò)預處理的簽名灰度圖像進(jìn)行降維,即采用主成分特征提取的方法降低圖像維數,同時(shí)過(guò)濾掉高頻干擾信號,突出簽名的主要特征,得到適合計算機識別的低維圖像,然后在簽名的分類(lèi)認證中,基于徑向基神經(jīng)網(wǎng)絡(luò )的驗證方法可以在合理的時(shí)間內,以較少的主成分個(gè)數得到較好的識別效果。因為國內尚未出現統一的簽名數據庫,實(shí)驗在自行采集的小型簽名數據樣本進(jìn)行,對更大型的數據庫的認證識別是今后需做的工作。
評論