基于圖像的OMR技術(shù)的實(shí)現

作者：時(shí)間：2007-03-09 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

摘要：在分析OMR與OCR的應用特點(diǎn)后，提出了基于圖像的OMR方式。詳細討論了該方法的硬件設計和工作原理，并在軟件處理方面著(zhù)重介紹了傾斜校正和圖像分割。它具有對紙張質(zhì)量要求低和識別準確度高等特點(diǎn)。關(guān)鍵詞：OMR OCR 信號處理傾斜校正圖像分割目前，許多文檔是以紙質(zhì)文檔的形式存在，例如銀行票據、稅務(wù)報表、標準化考試中的機讀卡、人口普查表、彩標投注單、選票、定貨單等。而紙質(zhì)文檔不便于保存、檢索、統計和修改。將這些信息錄入計算機是一件非常繁瑣的事情。長(cháng)期以來(lái)人們通過(guò)鍵盤(pán)手工輸入，不但費時(shí)費力且容易出錯。在實(shí)時(shí)性要求較高的場(chǎng)合（如選舉中的統計選票）自動(dòng)、快速、準確地處理文檔顯得尤為重要。因此，對這些文檔進(jìn)行計算機自動(dòng)錄入具有重要的實(shí)現意義。計算機自動(dòng)錄入是解決這個(gè)同瓶頸的關(guān)鍵所在。其中，光學(xué)字符識別OCR（Optical Character Recognition）和光學(xué)標記識別OMR（Optical Mark Recognition）是解決信號自動(dòng)錄入的有效方法。它們利用光學(xué)方法將信息錄入到計算機并進(jìn)行識別處理，能極大地提高數據信息的采集速度，便于計算機存儲、管理與檢索。 1 OCR與OMR （1）OCR的工作原理 OCR首先將要識別的文字和圖像掃描進(jìn)計算機，然后進(jìn)行圖像的預處理，再抽取字符特片進(jìn)行識別，轉變?yōu)橛嬎銠C能夠識別的字符信息。圖像預處理包括去除噪聲、歪斜校畫(huà)龍點(diǎn)睛、圖像分割、平滑及規范化等。其中圖像分割是一個(gè)重要的步驟，它的作用是將要識別的單個(gè)字符的圖像找到并分割出來(lái)。OCR技術(shù)主要應用于文字圖像識別及處理，例如用于印刷體和限制手寫(xiě)體字符的識別。OCR技術(shù)已成為大規模數據錄入的首選方案，它將隨著(zhù)計算機技術(shù)的發(fā)展而更加成熟。（2）OMR的工作原理 OMR識別“涂點(diǎn)”上有無(wú)標記兩種狀態(tài)?！巴奎c(diǎn)”就是信息卡上可以涂寫(xiě)標記的地址?！巴奎c(diǎn)”所代表的含義可以事先定義，可以代表一個(gè)阿拉伯數字，也可以表示一個(gè)英文字母或符號。OMR技術(shù)快速簡(jiǎn)單，識別率高且成本低，廣泛應用于標準化考慮自動(dòng)閱卷、各類(lèi)調查問(wèn)卷的統計、選舉結果的統計等，是自動(dòng)識別領(lǐng)域中應用較多的一種方法。

2 基于圖像的OMR技術(shù) 目前OMR一般采用光電對管閱讀技術(shù)。識別用的器件是半導體發(fā)光管及光敏管。發(fā)光管是光源器件，由它發(fā)出的光照射到“涂點(diǎn)”上。光敏管是接收器件，接收來(lái)自“涂點(diǎn)”位置的反射光。因為涂有標記的地方反光弱，未涂標記的地方反光強，所以光敏管接收到的光信號強度不同。不同強度的光信號可以代表有無(wú)標記兩種狀態(tài)。將“涂點(diǎn)”位置處的發(fā)光管和光敏這組成一只電眼，可識別一個(gè)涂點(diǎn)。若干個(gè)電眼排列起來(lái)組成光電頭可完成對一排涂點(diǎn)的識別。該方法實(shí)現應用中有如下限制：信息卡上的“涂點(diǎn)”要與電眼完全對齊，即信息卡在錄入時(shí)不能傾斜；信息卡不能折皺；紙張質(zhì)量、印刷技術(shù)要求高；填寫(xiě)標記要規范，否則就要影響識別結果。實(shí)際應用中，信息卡在錄入時(shí)由于走紙機構機械誤差而略有傾斜，會(huì )造成識別出錯。 OCR由于采用了圖像處理技術(shù)，信息卡在錄入時(shí)的傾斜能自動(dòng)校正，保證錄入的高精度，也能處理略有折皺的信息卡。因此，OCR對所用紙張的質(zhì)量、印刷技術(shù)要求不高，降低了運行成本。同時(shí)可以保留填寫(xiě)的原始圖像備查，進(jìn)行復核或重新識別。在借鑒OCR優(yōu)點(diǎn)的基礎上，筆者在課題《彩標閱讀及識別系統》中采用了基于圖像的OMR技術(shù)。所謂基于圖像的OMR技術(shù)，就是將信息卡經(jīng)光電變換，形成二值化圖像；再經(jīng)歪斜校正、圖像分割，對分割出的小塊圖像（含“涂點(diǎn)”）中的黑點(diǎn)數進(jìn)行計數。若大于某個(gè)閾值，就認為有標記，否則就沒(méi)有標記，從而完成了標記識別。相對OCR而言，它省去了最耗時(shí)的字符特征抽取步驟。 3 硬件組成本系統框圖如圖1所示。（1）圖像傳感器采用國產(chǎn)的CIS（Contact Image Sensor）圖像傳感器，其光學(xué)分辨率比CCD略低，但是其驅動(dòng)電路、光學(xué)系統和機械結構卻比CCD簡(jiǎn)單。光學(xué)系統中采用特殊光源實(shí)現光學(xué)濾波，消除或減輕了信息卡背景信息對分割、識別的影響。工作時(shí)，由CPLD（Complex Programable Logic Device）產(chǎn)生一個(gè)周期性的同步脈沖SYN引導每次掃描，時(shí)鐘信號CLK在移動(dòng)寄存器的作用下，對CIS內的像元依次進(jìn)行掃描，像元上的光電信號串行輸出。

（2）走紙控制輸入的信息卡通過(guò)光學(xué)系統成像在圖像傳感器的光敏面上，在CPLD器件產(chǎn)生的掃描信號的驅動(dòng)下，圖像傳感器對信息卡進(jìn)行橫向自?huà)呙?；步進(jìn)電機驅動(dòng)輸紙機構使信息卡縱向運行，從而實(shí)現了信息卡的二維掃描。（3）模擬信號處理模擬信號處理要考慮信息卡顏色的深淺、字跡的輕重和光強均勻度的變化等引起的脈沖幅度的變化。在光電變換中，對信號幅值影響較大的是：光束照射在光敏面上，光強的不均勻性及波動(dòng)影響表現為白電平浮動(dòng)對比度的變化也會(huì )引起信號幅值的較大起伏。處理的好壞直接影響到采集圖像的質(zhì)量。其過(guò)程為：CIS圖像傳感器攝取的原始圖像信號，經(jīng)放大、采樣保持及濾波、對消、浮動(dòng)閾值及二值化等一系列處理，消除或減輕了信息卡背景明暗變化、光源變化、開(kāi)關(guān)噪聲、高低頻干擾等對系統的影響，獲得高質(zhì)量的二值化信號。（4）數字信號處理采用A、B兩塊大容量的SRAM輪流工作在讀或寫(xiě)狀態(tài)。合并二值化的信號，同時(shí)為了加快數據采集的速度，每次將16位的串行信號轉換為2個(gè)字節的并行數據。在標志寄存器的控制下，將信號暫時(shí)寫(xiě)入A中，同時(shí)計算機通過(guò)16位ISA總線(xiàn)從B中取數據。在下一周期，二值化信號寫(xiě)入B中，計算機通過(guò)16位ISA總線(xiàn)從A中取數據。這樣就保證數據傳輸的高效性。（5）邏輯控制整個(gè)系統的邏輯控制采用Lattice公司的CPLD——L1032，它負責控制輪紙機構、圖像傳感器、兩塊SRAM的輪換；并隨時(shí)檢測系統的工作狀態(tài)，協(xié)調各部分的工作；并將檢測到的狀態(tài)即時(shí)送給計算機，便于計算機對整個(gè)系統的管理。 4 軟件處理在大數據量的文檔處理中，為了滿(mǎn)足快速高效地處理，文檔必須針對OCR技術(shù)或OMR技術(shù)進(jìn)行專(zhuān)門(mén)設計。這樣才適合光電閱讀。在信息卡上設計定位標記塊是一種有效手段。它分為水平定位標記塊和垂直定位標記塊，并且按照與填寫(xiě)的字符相同的顏色（黑色）來(lái)印刷。一個(gè)水平定位標記塊表示一個(gè)字符行，垂直定位標記表示一個(gè)字符列。標記填寫(xiě)在以字符行列交叉點(diǎn)為中心的矩形區域。定位標記塊主要用于字符定位和信息卡圖像的傾斜校正，如圖2所示。另一種有效手段就是常常對信息卡學(xué)習，獲得相應的先驗知識，如信息卡的行數、列數、標記出現的主要區域、表格類(lèi)型、每個(gè)黑色定位標記塊的大致位置等。由于對同一批表格而言這些參數都是相同的，在對后續表格的處理中就可利用這些參數指導圖像的分割和識別，從而提高了整批表格的處理效率。硬件系統對信息卡進(jìn)行掃描信號處理后，得到二值化的圖像信號，但是二值化的圖像信號中標記所代表的數字信息才是最終結果。為此，還要對二值化的圖像信號在PC機上利用軟件進(jìn)行噪聲處理、傾斜校正、分割及識別處理，得到感興趣的識別結果。最后再將識別結果進(jìn)行輸出顯示。在基于圖像的OMR技術(shù)中，傾斜校正和圖像分割是最關(guān)鍵的。（1）傾斜校正由于輸紙機構有走紙不均勻的情況，信息卡圖像不可避免地會(huì )產(chǎn)生一定的傾斜。因此必須對傾斜的圖像進(jìn)行旋轉，旋轉到正常位置，才便于圖像分割。對信息卡學(xué)習，獲得正常圖像的定位標記塊的位置。將傾斜圖像沿X，Y軸方向投影，所有的水平定位標記塊和垂直定位標記塊會(huì )分別在投影圖上產(chǎn)生對應的峰，從而可以確定水平定位標記塊和垂直定位標記塊的位置。根據正常圖像和傾斜圖像的定位標記塊的位置，就可以計算出旋轉角δ。將傾斜圖像f(x,y)繞坐標原點(diǎn)O（0,0）旋轉一個(gè)角度-δ，圖像的原始坐標為（x,y），旋轉后的坐標為（x",y"），按式（1）旋轉變換，旋轉后的圖像為（x",y"）。

（2）圖像分割根據上述投影法，可以獲得水平定位標記塊和垂直定位標記塊的位置，并得到交叉點(diǎn)的位置。由于標記填寫(xiě)在以字符行列交叉點(diǎn)為中心的矩形區域，并且設矩形區域長(cháng)為X列，寬為Y行，以此交叉點(diǎn)向左向右各擴展（X+4）/2列，向上向下各擴展（Y+4）/2行形成一分割框，即矩形區域完全包含在該分割框內。逐行以分割框為單位對整個(gè)圖像進(jìn)行分割，并統計各分割框內的黑點(diǎn)數。若大于某個(gè)閾值，就認為有標記；否則就沒(méi)有標記。再結合各標記事先定義的含義，得到識別結果。基于圖像的OMR技術(shù)采用圖像傳感器作為掃描部件，將信息卡的完整圖像讀入微機，并進(jìn)行圖像識別。它克服了采用光電對管閱讀的OMR方式的缺點(diǎn)，同時(shí)它具有如下優(yōu)點(diǎn)： %26;#183;識別精度高； %26;#183;紙張質(zhì)量、印刷技術(shù)要求低，可以處理略有折皺的信息卡； %26;#183;調整表格靈活，可適應多種信息卡； %26;#183;采用了計算機圖像處理技術(shù)，可保存信息卡的原始圖像備查，提高了系統的安全性、可靠性和防偽性。基于圖像的OMR技術(shù)提高了信息卡處理準確率，應用在彩票閱讀及識別系統課題中取得了良好的效果。 linux操作系統文章專(zhuān)題:linux操作系統詳解（linux不再難懂）

新聞中心

基于圖像的OMR技術(shù)的實(shí)現

評論

相關(guān)推薦

技術(shù)專(zhuān)區