機器視覺(jué)常用的三種目標識別方法解析
隨著(zhù)機器視覺(jué)技術(shù)的快速發(fā)展,傳統很多需要人工來(lái)手動(dòng)操作的工作,漸漸地被機器所替代。傳統方法做目標識別大多都是靠人工實(shí)現,從形狀、顏色、長(cháng)度、寬度、長(cháng)寬比來(lái)確定被識別的目標是否符合標準,最終定義出一系列的規則來(lái)進(jìn)行目標識別。這樣的方法當然在一些簡(jiǎn)單的案例中已經(jīng)應用的很好,唯一的缺點(diǎn)是隨著(zhù)被識別物體的變動(dòng),所有的規則和算法都要重新設計和開(kāi)發(fā),即使是同樣的產(chǎn)品,不同批次的變化都會(huì )造成不能重用的現實(shí)。
本文引用地址:http://dyxdggzs.com/article/202205/433944.htm而隨著(zhù)機器學(xué)習,深度學(xué)習的發(fā)展,很多肉眼很難去直接量化的特征,深度學(xué)習可以自動(dòng)學(xué)習這些特征,這就是深度學(xué)習帶給我們的優(yōu)點(diǎn)和前所未有的吸引力。很多特征我們通過(guò)傳統算法無(wú)法量化,或者說(shuō)很難去做到的,深度學(xué)習可以。特別是在圖像分類(lèi)、目標識別這些問(wèn)題上有顯著(zhù)的提升。
Blob分析法(BlobAnalysis)
在計算機視覺(jué)中的Blob是指圖像中的具有相似顏色、紋理等特征所組成的一塊連通區域。Blob分析(BlobAnalysis)是對圖像中相同像素的連通域進(jìn)行分析(該連通域稱(chēng)為Blob)。其過(guò)程就是將圖像進(jìn)行二值化,分割得到前景和背景,然后進(jìn)行連通區域檢測,從而得到Blob塊的過(guò)程。簡(jiǎn)單來(lái)說(shuō),blob分析就是在一塊“光滑”區域內,將出現“灰度突變”的小區域尋找出來(lái)。
舉例來(lái)說(shuō),假如現在有一塊剛生產(chǎn)出來(lái)的玻璃,表面非常光滑,平整。如果這塊玻璃上面沒(méi)有瑕疵,那么,我們是檢測不到“灰度突變”的;相反,如果在玻璃生產(chǎn)線(xiàn)上,由于種種原因,造成了玻璃上面有一個(gè)凸起的小泡、有一塊黑斑、有一點(diǎn)裂縫,那么,我們就能在這塊玻璃上面檢測到紋理,經(jīng)二值化(BinaryThresholding)處理后的圖像中色斑可認為是blob。而這些部分,就是生產(chǎn)過(guò)程中造成的瑕疵,這個(gè)過(guò)程,就是Blob分析。
Blob分析工具可以從背景中分離出目標,并可以計算出目標的數量、位置、形狀、方向和大小,還可以提供相關(guān)斑點(diǎn)間的拓撲結構。在處理過(guò)程中不是對單個(gè)像素逐一分析,而是對圖像的行進(jìn)行操作。圖像的每一行都用游程長(cháng)度編碼(RLE)來(lái)表示相鄰的目標范圍。這種算法與基于像素的算法相比,大大提高了處理的速度。
針對二維目標圖像和高對比度圖像,適用于有無(wú)檢測和缺陷檢測這類(lèi)目標識別應用。常用于二維目標圖像、高對比度圖像、存在/缺席檢測、數值范圍和旋轉不變性需求。顯然,紡織品的瑕疵檢測,玻璃的瑕疵檢測,機械零件表面缺陷檢測,可樂(lè )瓶缺陷檢測,藥品膠囊缺陷檢測等很多場(chǎng)合都會(huì )用到blob分析。
但另一方面,Blob分析并不適用于以下圖像:
1.低對比度圖像;
2.必要的圖像特征不能用2個(gè)灰度級描述;
3.按照模版檢測(圖形檢測需求)。
總的來(lái)說(shuō),Blob分析就是檢測圖像的斑點(diǎn),適用于背景單一,前景缺陷不區分類(lèi)別,識別精度要求不高的場(chǎng)景。
模板匹配法
模板匹配是一種最原始、最基本的模式識別方法,研究某一特定對象物的圖案位于圖像的什么地方,進(jìn)而識別對象物,這就是一個(gè)匹配問(wèn)題。它是圖像處理中最基本、最常用的匹配方法。換句話(huà)說(shuō)就是一副已知的需要匹配的小圖像,在一副大圖像中搜尋目標,已知該圖中有要找的目標,且該目標同模板有相同的尺寸、方向和圖像元素,通過(guò)統計計算圖像的均值、梯度、距離、方差等特征可以在圖中找到目標,確定其坐標位置。
這就說(shuō)明,我們要找的模板是圖像里標標準準存在的,這里說(shuō)的標標準準,就是說(shuō),一旦圖像或者模板發(fā)生變化,比如旋轉,修改某幾個(gè)像素,圖像翻轉等操作之后,我們就無(wú)法進(jìn)行匹配了,這也是這個(gè)算法的弊端。
所以這種匹配算法,就是在待檢測圖像上,從左到右,從上向下對模板圖像與小東西的圖像進(jìn)行比對。
在opencv中有cv2.matchTemplate(src,
templ,result,match_method)方法可以調用,src是待檢測圖像,templ是模板庫,match_method是匹配的方法。
這種方法相比Blob分析有較好的檢測精度,同時(shí)也能區分不同的缺陷類(lèi)別,這相當于是一種搜索算法,在待檢測圖像上根據不同roi用指定的匹配方法與模板庫中的所有圖像進(jìn)行搜索匹配,要求缺陷的形狀、大小、方法都有較高的一致性,因此想要獲得可用的檢測精度需要構建較完善的模板庫。
深度學(xué)習法
2014年R-CNN的提出,使得基于CNN的目標檢測算法逐漸成為主流。深度學(xué)習的應用,使檢測精度和檢測速度都獲得了改善。
自從AlexNet在比賽中使用卷積神經(jīng)網(wǎng)絡(luò )進(jìn)而大幅度提高了圖像分類(lèi)的準確率,便有學(xué)者嘗試將深度學(xué)習應用到目標類(lèi)別檢測中。卷積神經(jīng)網(wǎng)絡(luò )不僅能夠提取更高層、表達能力更好的特征,還能在同一個(gè)模型中完成對于特征的提取、選擇和分類(lèi)。
在這方面,主要有兩類(lèi)主流的算法:
一類(lèi)是結合RPN網(wǎng)絡(luò )的,基于分類(lèi)的R-CNN系列兩階目標檢測算法(twostage);
另一類(lèi)則是將目標檢測轉換為回歸問(wèn)題的一階目標檢測算法(singlestage)。
物體檢測的任務(wù)是找出圖像或視頻中的感興趣物體,同時(shí)檢測出它們的位置和大小,是機器視覺(jué)領(lǐng)域的核心問(wèn)題之一。
物體檢測過(guò)程中有很多不確定因素,如圖像中物體數量不確定,物體有不同的外觀(guān)、形狀、姿態(tài),加之物體成像時(shí)會(huì )有光照、遮擋等因素的干擾,導致檢測算法有一定的難度。進(jìn)入深度學(xué)習時(shí)代以來(lái),物體檢測發(fā)展主要集中在兩個(gè)方向:twostage算法如R-CNN系列和onestage算法如YOLO、SSD等。兩者的主要區別在于twostage算法需要先生成proposal(一個(gè)有可能包含待檢物體的預選框),然后進(jìn)行細粒度的物體檢測。而onestage算法會(huì )直接在網(wǎng)絡(luò )中提取特征來(lái)預測物體分類(lèi)和位置。
兩階算法中區域提取算法核心是卷積神經(jīng)網(wǎng)絡(luò )CNN,先利用CNN骨干提取特征,然后找出候選區域,最后滑動(dòng)窗口確定目標類(lèi)別與位置。
R-CNN首先通過(guò)SS算法提取2k個(gè)左右的感興趣區域,再對感興趣區域進(jìn)行特征提取。存在缺陷:感興趣區域彼此之間權值無(wú)法共享,存在重復計算,中間數據需單獨保存占用資源,對輸入圖片強制縮放影響檢測準確度。
SPP-NET在最后一個(gè)卷積層和第一個(gè)全連接層之間做些處理,保證輸入全連接層的尺寸一致即可解決輸入圖像尺寸受限的問(wèn)題。SPP-NET候選區域包含整張圖像,只需通過(guò)一次卷積網(wǎng)絡(luò )即可得到整張圖像和所有候選區域的特征。
FastR-CNN借鑒SPP-NET的特征金字塔,提出ROIPooling把各種尺寸的候選區域特征圖映射成統一尺度的特征向量,首先,將不同大小的候選區域都切分成M×N塊,再對每塊都進(jìn)行maxpooling得到1個(gè)值。這樣,所有候選區域特征圖就都統一成M×N維的特征向量了。但是,利用SS算法產(chǎn)生候選框對時(shí)間消耗非常大。
FasterR-CNN是先用CNN骨干網(wǎng)提取圖像特征,由RPN網(wǎng)絡(luò )和后續的檢測器共享,特征圖進(jìn)入RPN網(wǎng)絡(luò )后,對每個(gè)特征點(diǎn)預設9個(gè)不同尺度和形狀的錨盒,計算錨盒和真實(shí)目標框的交并比和偏移量,判斷該位置是否存在目標,將預定義的錨盒分為前景或背景,再根據偏差損失訓練RPN網(wǎng)絡(luò ),進(jìn)行位置回歸,修正ROI的位置,最后將修正的ROI傳入后續網(wǎng)絡(luò )。但是,在檢測過(guò)程中,RPN網(wǎng)絡(luò )需要對目標進(jìn)行一次回歸篩選以區分前景和背景目標,后續檢測網(wǎng)絡(luò )對RPN輸出的ROI再一次進(jìn)行細分類(lèi)和位置回歸,兩次計算導致模型參數量大。
MaskR-CNN在FasterR-CNN中加了并行的mask分支,對每個(gè)ROI生成一個(gè)像素級別的二進(jìn)制掩碼。在FasterR-CNN中,采用ROIPooling產(chǎn)生統一尺度的特征圖,這樣再映射回原圖時(shí)就會(huì )產(chǎn)生錯位,使像素之間不能精準對齊。這對目標檢測產(chǎn)生的影響相對較小,但對于像素級的分割任務(wù),誤差就不容忽視了。MaskR-CNN中用雙線(xiàn)性插值解決像素點(diǎn)不能精準對齊的問(wèn)題。但是,由于繼承兩階段算法,實(shí)時(shí)性仍不理想。
一階算法在整個(gè)卷積網(wǎng)絡(luò )中進(jìn)行特征提取、目標分類(lèi)和位置回歸,通過(guò)一次反向計算得到目標位置和類(lèi)別,在識別精度稍弱于兩階段目標檢測算法的前提下,速度有了極大的提升。
YOLOv1把輸入圖像統一縮放到448×448×3,再劃分為7×7個(gè)網(wǎng)格,每格負責預測兩個(gè)邊界框bbox的位置和置信度。這兩個(gè)b-box對應同一個(gè)類(lèi)別,一個(gè)預測大目標,一個(gè)預測小目標。bbox的位置不需要初始化,而是由YOLO模型在權重初始化后計算出來(lái)的,模型在訓練時(shí)隨著(zhù)網(wǎng)絡(luò )權重的更新,調整b-box的預測位置。但是,該算法對小目標檢測不佳,每個(gè)網(wǎng)格只能預測一個(gè)類(lèi)別。
YOLOv2把原始圖像劃分為13×13個(gè)網(wǎng)格,通過(guò)聚類(lèi)分析,確定每個(gè)網(wǎng)格設置5個(gè)錨盒,每個(gè)錨盒預測1個(gè)類(lèi)別,通過(guò)預測錨盒和網(wǎng)格之間的偏移量進(jìn)行目標位置回歸。
SSD保留了網(wǎng)格劃分方法,但從基礎網(wǎng)絡(luò )的不同卷積層提取特征。隨著(zhù)卷積層數的遞增,錨盒尺寸設置由小到大,以此提升SSD對多尺度目標的檢測精度。
YOLOv3通過(guò)聚類(lèi)分析,每個(gè)網(wǎng)格預設3個(gè)錨盒,只用darknet前52層,并大量使用殘差層。使用降采樣降低池化對梯度下降的負面效果。YOLOv3通過(guò)上采樣提取深層特征,使其與將要融合的淺層特征維度相同,但通道數不同,在通道維度上進(jìn)行拼接實(shí)現特征融合,融合了13×13×255、26×26×255和52×52×255共3個(gè)尺度的特征圖,對應的檢測頭也都采用全卷積結構。
YOLOv4在原有YOLO目標檢測架構的基礎上,采用了近些年CNN領(lǐng)域中最優(yōu)秀的優(yōu)化策略,從數據處理、主干網(wǎng)絡(luò )、網(wǎng)絡(luò )訓練、激活函數、損失函數等各個(gè)方面都進(jìn)行了不同程度的優(yōu)化。時(shí)至今日,已經(jīng)有很多精度比較高的目標檢測算法提出,包括最近視覺(jué)領(lǐng)域的transformer研究也一直在提高目標檢測算法的精度。
總結來(lái)看,表示的選擇會(huì )對機器學(xué)習算法的性能產(chǎn)生巨大的影響,監督學(xué)習訓練的前饋網(wǎng)絡(luò )可視為表示學(xué)習的一種形式。依此來(lái)看傳統的算法如Blob分析和模板匹配都是手工設計其特征表示,而神經(jīng)網(wǎng)絡(luò )則是通過(guò)算法自動(dòng)學(xué)習目標的合適特征表示,相比手工特征設計來(lái)說(shuō)其更高效快捷,也無(wú)需太多的專(zhuān)業(yè)的特征設計知識,因此其能夠識別不同場(chǎng)景中形狀、大小、紋理等不一的目標,隨著(zhù)數據集的增大,檢測的精度也會(huì )進(jìn)一步提高。
評論