基于圖像識別的閱卷系統的設計與實(shí)現
高校學(xué)生的期末考試是普通高等學(xué)校管理的一項重要工作,它是根據國家對高等學(xué)校學(xué)生德智體全面發(fā)展的要求,按照統一的原則、方法和程序,對學(xué)生學(xué)習和行為的表現進(jìn)行階段和全程的質(zhì)量考核、記載、評價(jià)和處理。目前客觀(guān)題型較多的英語(yǔ)考試或計算機基礎考試均實(shí)現了閱卷自動(dòng)化,無(wú)需教師干預,既能加快試卷反饋的速度,又能保證公平公正。傳統的閱卷系統利用光學(xué)標記閱讀機的光電變換原理,對填涂在答題卡上的內容進(jìn)行高速采集,然后進(jìn)入計算機處理[1]。但是它對答題卡紙張和印刷質(zhì)量要求太高,如套印誤差和剪切誤差必須分別控制在0.1 mm和0.2 mm以?xún)?;對使用者涂?xiě)要求太高,限制太多,如需要用專(zhuān)用鉛筆涂滿(mǎn)長(cháng)方條,不得涂出長(cháng)方條外,整張答題卡涂寫(xiě)要深淺一致等;機械傳動(dòng)機構復雜、使用壽命短、維護量大、設備一致性差[2]。
本文提出一種基于圖像識別的閱卷系統,允許使用者使用任何顏色的圓珠筆、鋼筆或鉛筆在一般紙張的固定位置上涂寫(xiě)如“√”、“w”、“○”等手寫(xiě)符號完成答題,由閱卷系統采用圖像識別技術(shù)自動(dòng)識別答題卡信息,實(shí)現閱卷自動(dòng)化。本系統與傳統的光學(xué)標記閱讀機閱卷系統的不同之處在于,本閱卷系統對答題卡紙張和填涂符號均無(wú)特殊要求,無(wú)需特制答題卡,無(wú)特殊涂寫(xiě)要求[3]。
1 系統實(shí)現流程及模塊組成
(1)設計和定義答題卡,將允許用戶(hù)填寫(xiě)的手寫(xiě)符號限定在一定的矩形區域內;
(2)通過(guò)CCD采像設備采集答題卡圖像,經(jīng)掃描、采樣、量化等過(guò)程,同時(shí)將答題卡圖像以JPG格式保存在主機內存和硬盤(pán)里;
(3)對答題卡圖像進(jìn)行預處理,包括粘連字符分割、灰度變換、二值化、圖像偏斜糾正、平滑和細化等過(guò)程,以將答題卡固有的紙張問(wèn)題、書(shū)寫(xiě)不規范、答題卡傳動(dòng)機械定位精度所帶來(lái)的干擾因素排除掉,并為后續的識別工作做好準備[4];
(4)對答題卡信息進(jìn)行識別。通過(guò)圖像分析抽取圖像,并經(jīng)過(guò)綜合特征提取,結合答題卡表格的邏輯結構和幾何結構,準確識別填涂在矩形塊位置上的“√”、“w”、“○”等手寫(xiě)符號得到答題信息。答題卡識別算法的優(yōu)劣決定了整個(gè)系統的性能(如識別的精度、可靠性等),是整個(gè)軟件系統中最重要的部分;
(5)對識別的答題信息進(jìn)行加工、整理、分析和統計,結合軟件的設置對答題卡信息進(jìn)行判分。
綜上所述,系統實(shí)現流程如圖1所示。
為了便于學(xué)生和教師查詢(xún)和分析閱卷結果,本閱卷系統還設置了用戶(hù)登錄模塊、學(xué)生信息管理模塊、課程基本信息管理模塊、試卷分析模塊、成績(jì)查詢(xún)模塊、答題卡圖像查詢(xún)模塊、報表打印模塊和補考管理模塊。其中試卷分析模塊對試卷的各項數據進(jìn)行分析和統計,包括最高分、最低分、平均數、及格率方差、標準差等,完成試卷分析功能;答題卡圖像查詢(xún)模塊允許學(xué)生通過(guò)姓名查詢(xún)存儲在硬盤(pán)中的答題卡圖片;補考管理模塊統計不及格、缺考或舞弊學(xué)生信息,生成補考表;報表打印模塊完成答題卡圖片、成績(jì)報告單、試卷分析報告和補考表等的打印功能。系統模塊組成如圖2所示。
2 系統主要實(shí)現技術(shù)
2.1答題卡設計
答題卡設計成表格的形式,由試卷答題卡基本信息、考生基本信息、答題卡填寫(xiě)說(shuō)明及題目選項列表組成,考生用“√”、“w”、“○”等手寫(xiě)符號在相應的矩形框中選擇答案。答題卡示例如圖3所示。
答題卡版面與普通表格一樣具有幾何結構和邏輯結構,幾何結構反映了所填寫(xiě)的信息區域的位置和大小,邏輯結構則表示答題卡中所填寫(xiě)信息的實(shí)際意義以及填寫(xiě)信息與填寫(xiě)項之間的對應關(guān)系。
在傳統的光學(xué)標記閱讀機閱卷系統中,答題卡的幾何結構大部分都是采用定位標記塊進(jìn)行描述,這種描述方法具有很多缺點(diǎn),如浪費版面空間、缺乏靈活性、版面設計比較復雜、對印刷質(zhì)量要求高、不便于修改等,而且定位標記塊看起來(lái)也不美觀(guān)。在本系統答題卡版面中,填寫(xiě)信息在幾何結構上可以看成由若干個(gè)互不相交的矩形塊組成,它們組成了答題卡版面的最小單位[5],可以以答題卡的邊框線(xiàn)建立二維坐標系,以矩形的對角頂點(diǎn)坐標來(lái)描述矩形塊的位置和大小,完成對答題卡的幾何結構描述,該方法簡(jiǎn)潔、靈活,便于識別。
答題卡的邏輯結構描述是定義矩形塊的屬性。矩形塊的屬性包括對填寫(xiě)項以“√”、“w”、“○”表示的選擇或者不選擇。
本系統采用文檔結構描述語(yǔ)言同時(shí)對幾何結構和邏輯結構進(jìn)行描述。設一張答題卡包含n個(gè)填寫(xiě)有信息的矩形塊B1,B2,...,Bn, 矩形塊之間存在著(zhù)上下結構和左右結構的幾何位置關(guān)系,其邏輯順序一般是從上到下、從左到右,在描述文檔結構時(shí)也采用這種順序,則文檔結構描述語(yǔ)言DDL 表示如下:
其中i 是答題卡的序號;n是矩形塊的總數;xi為矩形塊在水平方向的位置;yi為矩形塊在垂直方向的位置;li為矩形塊的長(cháng)度;wi為矩形塊的寬度;attri表示矩形塊的屬性,當attri為0時(shí),表示該矩形塊的填寫(xiě)內容為待識別的字符,attri為1時(shí),矩形塊作為圖像保存。
將答題卡設計成常見(jiàn)的表格形式,一方面它和一般考試用到的答題卡的形式類(lèi)似,符合人們的使用習慣和書(shū)寫(xiě)習慣;另一方面可以利用文檔描述語(yǔ)言對它的幾何結構和邏輯結構進(jìn)行描述,以便更好地對矩形框內的字符特征進(jìn)行提取與識別,辨別矩形框中的字符,與標準答案比對,對考生客觀(guān)題進(jìn)行判分。
2.2 答題卡信息識別
本系統采用漢字識別方法中的統計決策方法對手寫(xiě)字符進(jìn)行識別,如圖4所示,首先提取字符特征,對字符進(jìn)行分類(lèi)判別,經(jīng)過(guò)訓練和識別兩個(gè)階段,最后識別出字符[6]。訓練階段,收集日常人們習慣的手寫(xiě)符號為樣本,經(jīng)過(guò)篩選分類(lèi)建立樣本庫,以便對待識別字符進(jìn)行分類(lèi)和識別。識別階段,將待識別符號的特征與訓練階段中所建立的標準樣本特征比較,計算最大相似度以判別該手寫(xiě)符號所屬的類(lèi)別[7]。
2.2.1 字符特征提取
學(xué)生在答題過(guò)程中由于緊張和個(gè)人原因,寫(xiě)出的√、w、○等答題符號往往千變萬(wàn)化。為準確識別這些手寫(xiě)符號,需要進(jìn)行字符結構特征提取,將最能體現這個(gè)字符特點(diǎn)和字符間差異的結構特征提取出來(lái)。本系統提取的特征是以下特征的組合。
(1)點(diǎn)特征
點(diǎn)特征是一種重要的結構特征,是指字符筆畫(huà)中的端點(diǎn)。端點(diǎn)反映了字符中筆畫(huà)的起點(diǎn)和終點(diǎn)信息,與該點(diǎn)相連的點(diǎn)數為 1。
(2)筆畫(huà)密度特征
筆畫(huà)密度特征是取得符號水平方向筆畫(huà)密度函數d(x)和垂直方向的筆畫(huà)密度函數d(y),然后進(jìn)行相同項合并[1]。如圖5所示,符號“○”水平方向筆劃密度函數d(x)和垂直方向的筆劃密度函數d(y)分別是: d(x)=(1,...,1,2,...,2,1,...,1),d(y)=(1,...,1,2,...,2,1,...,1),則合并后筆畫(huà)密度可表示為d(x)=d(y)=(1,2,1)。
評論