<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 基于深度學(xué)習的特征提取和匹配(1)

基于深度學(xué)習的特征提取和匹配(1)

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2021-05-14 來(lái)源:工程師 發(fā)布文章

作者丨黃浴@知乎

來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/78053406

編輯丨計算機視覺(jué)life

計算機視覺(jué)需要圖像預處理,比如特征提取,包括特征點(diǎn),邊緣和輪廓之類(lèi)。以前做跟蹤和3-D重建,首先就得提取特征。特征點(diǎn)以前成功的就是SIFT/SURF/FAST之類(lèi),現在完全可以通過(guò)CNN模型形成的特征圖來(lái)定義。

特征提取

? Discriminative learning of deep convolutional feature point descriptors【1】

該方法通過(guò)卷積神經(jīng)網(wǎng)絡(luò )(CNN)學(xué)習鑒別式補丁表示,特別是訓練具有成對(非)相應補丁的Siamese網(wǎng)絡(luò )。在訓練和測試期間它使用L2距離,提出了一種128-D描述符,其歐幾里德距離反映了補丁相似性,并且可作任何涉及SIFT的替代。

如圖所示,用一個(gè)Siamese網(wǎng)絡(luò )來(lái)學(xué)習這樣的描述符,其中非線(xiàn)性映射由CNN表示,它對對應或非對應補丁對優(yōu)化。補丁通過(guò)模型提取描述符然后計算其L2范數,作為圖像描述符的標準相似性度量。而目標是學(xué)習一個(gè)描述符,在其空間中讓非對應的補丁相隔甚遠,而在對應的補丁緊密相連。

1.jpg

考慮每個(gè)圖像塊xi具有索引pi,該索引pi唯一地標識從給定視點(diǎn)大致投影到2D圖像塊的3D點(diǎn),而目標函數定義如下:

2.png

其中p1,p2分別是投影到x1,x2的3D點(diǎn)索引。

這里下表給出的是三層網(wǎng)絡(luò )架構:64×64輸入在第3層中產(chǎn)生128維輸出。每個(gè)卷積層由四個(gè)子層組成:濾波器層,非線(xiàn)性層,池化層和歸一化層。

3.jpg

非線(xiàn)性層,使用雙曲線(xiàn)切線(xiàn)單元(Tanh)池化層使用L2池化,歸一化很重要,這里使用減法歸一化,在第一和二層之后用高斯核減去5×5鄰域的加權平均值。

? Learned Invariant Feature Transform【2】

LIFT是一種深度網(wǎng)絡(luò )架構,實(shí)現了完整的特征點(diǎn)檢測、朝向估計和特征描述,如圖所示。

4.jpg

下圖是以Siamese架構為基礎的整個(gè)特征檢測和描述流水線(xiàn)。為了訓練網(wǎng)絡(luò ),采用圖中的四分支Siamese結構。每個(gè)分支包含三個(gè)不同CNN,一個(gè)檢測器、一個(gè)朝向估計器和一個(gè)描述子。使用四聯(lián)(quadruplets)圖像補丁。每個(gè)包括:圖像塊P1和P2對應于同樣3D點(diǎn)的不同視圖,圖像塊P3包含不同3D點(diǎn)的投影,圖像塊P4不包含任何顯著(zhù)特征點(diǎn)。在訓練期間,每個(gè)四聯(lián)第i個(gè)補丁Pi將通過(guò)第i個(gè)分支。

5.jpg

為了實(shí)現端到端可微分,每個(gè)分支的組件連接如下:

1) 給定輸入圖像塊P,檢測器提供得分圖S;

2) 在得分圖S上執行soft argmax 并返回單個(gè)潛在特征點(diǎn)位置x。

3) 用空間變換器層裁剪(Spatial Transformer layer Crop)提取一個(gè)以x為中心的較小的補丁p(如圖5-3), 作為朝向估計器的輸入。

4) 朝向估計器預測補丁方向θ。

5) 根據該方向第二個(gè)空間變換器層(圖中的Rot)旋轉p產(chǎn)生pθ。

6) pθ送到描述子網(wǎng)絡(luò )計算特征向量d。

最后的運行結構如圖所示。由于朝向估計器和描述子只在局部最大值進(jìn)行評估,將檢測器解耦并在傳統NMS的尺度空間中運行,以獲得其他兩個(gè)組件的建議。

6.jpg

最后看LIFT和SIFT結果比較的例子,如圖所示。

7.jpg

征匹配

MatchNet【3】

MatchNet由一個(gè)深度卷積網(wǎng)絡(luò )組成,該網(wǎng)絡(luò )從補丁中提取特征,并由三個(gè)全連接層組成網(wǎng)絡(luò )計算所提取特征之間的相似性。

如圖是MatchNet訓練時(shí)的網(wǎng)絡(luò )架構(圖C),聯(lián)合學(xué)習將補丁映射到特征表示的特征網(wǎng)絡(luò )(圖 A)和將特征對映射到相似性的測度網(wǎng)絡(luò )(圖 B)。輸出尺寸由(高×寬×深)給出。PS是卷積和池化層的補丁大小; S是步幅。層類(lèi)型:C=卷積,MP=最大池化,FC=全連接。因為填充卷積層和池化層,故輸出高度和寬度是輸入除以步幅的值。對FC層,大小B,F選自:B∈{64,128,256,512},F∈{128,256,512,1024}。除FC3外,所有卷積層和FC層用ReLU激活,輸出用Softmax歸一化。

8.jpg

下圖是MatchNet預測的流水線(xiàn)圖,網(wǎng)絡(luò )拆解為并行的特征網(wǎng)絡(luò )和測度網(wǎng)絡(luò )。分兩個(gè)階段使用特征網(wǎng)絡(luò )和測度網(wǎng)絡(luò ):首先為所有補丁生成特征編碼,然后將這些特征配對并推送它們通過(guò)測度網(wǎng)絡(luò )獲得分數。

9.jpg


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>