新目標檢測框架 | 基于改進(jìn)的one-shot的目標檢測
目前在目標檢測方面的進(jìn)展依賴(lài)于大規模的數據集來(lái)獲得良好的性能。然而,在許多場(chǎng)景下可能并不總是有足夠的樣本,從而導致當前基于深度學(xué)習的目標檢測模型的性能下降。
一、簡(jiǎn)要
為了克服上述的問(wèn)題,有研究者提出了一種新的one-shot條件檢測框架(OSCD)。給予一個(gè)含有target object的support image和query image作為輸入,OSCD可以在查詢(xún)圖像中檢測屬于目標對象類(lèi)別的所有目標。
具體來(lái)說(shuō),OSCD由一個(gè)Siamese網(wǎng)絡(luò )和一個(gè)two-stages檢測模型組成。在two-stages檢測的每個(gè)階段,分別設計了一個(gè)特征融合模塊和一個(gè)可學(xué)習的度量模塊來(lái)進(jìn)行有效的條件檢測。一旦訓練,OSCD可以在不需要進(jìn)一步訓練的情況下檢測可見(jiàn)和看不見(jiàn)類(lèi)的對象,這也有優(yōu)勢,包括classagnostic, training-free for unseen classes和without catastrophic forgetting。實(shí)驗表明,該方法在基于Fashion-MNIST和Pascal VOC的數據集上取得了最先進(jìn)的性能
二、背景
如下圖所示。[S.K. Biswas, P. Milanfar, One shot detection with laplacian object and fast matrix cosine similarity, IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)]中提出的傳統one-shot檢測框架,將onr-shot檢測問(wèn)題視為具有滑動(dòng)窗口方案的經(jīng)典檢測問(wèn)題,并選擇了最適合的窗口。特別是使用一個(gè)度量學(xué)習模塊,而不是經(jīng)典的分類(lèi)器,來(lái)計算來(lái)自新感興趣的類(lèi)的support image和query image的標記窗口之間的相似性。另一種方法如下圖(b),LSTD框架選擇利用來(lái)自新感興趣的類(lèi)的support樣本來(lái)優(yōu)化區域候選網(wǎng)絡(luò )(RPN,即取代傳統的滑動(dòng)窗口方案)和基于深度學(xué)習的檢測器,并期望原始檢測流能夠以有限的支持樣本數量自適應地識別新類(lèi)。
由于這兩種方法的基本相似性,結果表明,這兩種方法通過(guò)將新類(lèi)的support圖像作為條件處理,可以與條件目標檢測模型相等。
然后,研究者就提出了將檢測問(wèn)題更好地命名為one-shot條件目標檢測。并設計了一個(gè)基于可學(xué)習度量和two-stages檢測模型的通用one-shot條件目標檢測框架(OSCD),如上圖(c)。
條件目標檢測與目標檢測之間存在一些區別。
首先,他們有不同的目標。條件目標檢測的目的是檢測與測試圖像中給定的條件圖像相似的對象。因此,條件目標檢測可以檢測到屬于不可見(jiàn)類(lèi)別的對象。而目標檢測是檢測所有屬于訓練類(lèi)別的對象,不能檢測看不見(jiàn)類(lèi)對象;其次,這兩種方法有不同的訓練方式。條件目標檢測的訓練是基于support和query圖像對。而目標檢測是標準的監督學(xué)習,并有足夠的訓練樣本;第三,這兩種方法有不同的評價(jià)標準,在各種support和query圖像對上評估了條件目標檢測模型,而目標檢測模型則在許多檢測圖像上進(jìn)行了評估。
三、新框架
在one-shot條件目標檢測的設置中,數據通常成對組織,由support和query圖像組成。support圖像通常包含一個(gè)主導的目標對象(人或馬),并且模型應該能夠在query圖像中檢測到屬于目標對象類(lèi)別的對象。
對于目標檢測,假設在感興趣的類(lèi)中沒(méi)有足夠的樣本,從而導致公共監督學(xué)習方法的性能較差。此外,我們可能不知道在未來(lái)的任務(wù)中存在哪些類(lèi)別。更嚴重的挑戰是,“目標”可以是任何令人感興趣的模式。所有這些問(wèn)題都使得目標檢測任務(wù)對傳統方法來(lái)說(shuō)極其困難。因此,提出了one-shot的條件目標檢測方法來(lái)解決上述問(wèn)題。
如下圖所示。One-shot條件檢測的目標是根據查詢(xún)圖像中的給定條件(目標對象的單個(gè)支持圖像)來(lái)檢測對象。在one-shot條件檢測的情況下,在許多支持查詢(xún)的可見(jiàn)類(lèi)圖像對上訓練一個(gè)模型,以獲得強先驗。一旦訓練,模型可以從具有單一支持圖像的看不見(jiàn)類(lèi)中檢測屬于目標類(lèi)別的所有對象。
通用目標檢測器(Faster R-CNN)和提出的OSCD。Faster R-CNN可以定位和識別可見(jiàn)類(lèi)(人)的對象,但無(wú)法對看不見(jiàn)類(lèi)(馬)的對象進(jìn)行分類(lèi)。相比之下,所提出的OSCD實(shí)現了C-RPN和C-Detector的條件目標檢測,以更加關(guān)注支持類(lèi)的對象,并過(guò)濾掉其他類(lèi)的無(wú)關(guān)對象。
上圖,(a)C-RPN:S操作連接全局平均和最大池support features,并通過(guò)卷積層生成顯著(zhù)support features,然后T平鋪突出support features使平鋪support features具有與query features相同的空間大小,因此F可以連接平鋪support features來(lái)查詢(xún)特征。C1、C2是兩個(gè)卷積層。(b)C-Detector:從C-RPN中選擇候選區域的query features,然后將它們與support features結合起來(lái)。R表示調整大小的操作,F表示深度上的連接??蓪W(xué)習的度量模塊由一個(gè)用于降維的卷積層和兩個(gè)用于檢測的全連接層組成。
四、實(shí)驗及可視化
(a) The generation process of support-query image pairs on the FashionOSCD dataset.
(b) Examples for the Fashion-OSCD dataset. Green boxes denote ground truth bounding boxes. Each image contains as much as 3 objects with multiple scales and aspect ratios.
五、分析總結
研究者提出了一種新的one-shot條件目標檢測框架。一個(gè)精心設計的C-RPN和C-Detector已經(jīng)被實(shí)現,以形成一個(gè)粗到細的two-stages條件檢測通道。在這two-stages,模型通過(guò)所提出的特征融合模塊和可學(xué)習的度量模塊來(lái)學(xué)習識別和定位支持類(lèi)對象。在兩個(gè)數據集上的實(shí)驗證明了新方法在one-shot條件目標檢測方面取得了最先進(jìn)的性能。
雖然模型取得了良好的結果,但仍然有一些局限性:模型和具有足夠訓練樣本的傳統監督學(xué)習檢測器之間的性能差距很大,模型的計算開(kāi)銷(xiāo)大于傳統的監督學(xué)習檢測器。研究者需要繼續改進(jìn)所提出的框架,如利用triplet loss來(lái)提取更具表現力的深度特征和探索更好的Siamese networks。
感覺(jué)研究者進(jìn)行本研究時(shí),還缺乏相關(guān)的OSCD研究。SiamFC and SiamRPN是研究者們所能找到的最相關(guān)的方法。在未來(lái),可以把新方法與更多的one-shot目標檢測方法進(jìn)行比較。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
高通濾波器相關(guān)文章:高通濾波器原理