工業(yè)檢測:基于密集尺度特征融合&像素級不平衡學(xué)習框架
論文地址:https://arxiv.org/pdf/2203.09387v1.pdf
計算機視覺(jué)研究院專(zhuān)欄
作者:Edison_G
知識蒸餾已成功應用于圖像分類(lèi)。然而目標檢測要復雜得多,大多數知識蒸餾方法都失敗了。
01
前言
邊緣檢測是計算機視覺(jué)領(lǐng)域的一項基本任務(wù),是視覺(jué)場(chǎng)景識別和理解的重要預處理操作。在常規模型中,生成的邊緣圖像模糊不清,邊緣線(xiàn)也很粗,這通常需要使用非極大值抑制(NMS)和形態(tài)細化操作來(lái)生成清晰而細的邊緣圖像。
在今天分享中,研究者旨在提出一種無(wú)需后處理即可生成高質(zhì)量邊緣圖像的單階段神經(jīng)網(wǎng)絡(luò )模型。所提出的模型采用經(jīng)典的編碼器-****框架,其中使用預訓練的神經(jīng)模型作為編碼器,并且將每個(gè)級別的特征相互融合的多特征融合機制作為可學(xué)習的****。
此外,研究者提出了一種新的損失函數,通過(guò)抑制真陽(yáng)性(TP)邊緣和假陰性(FN)非邊緣附近的假陽(yáng)性(FP)邊緣信息來(lái)解決邊緣圖像中的像素級不平衡問(wèn)題。在幾個(gè)基準數據集上進(jìn)行的實(shí)驗結果表明,所提出的方法在不使用NMS和形態(tài)細化操作的情況下實(shí)現了最先進(jìn)的結果。
02
背景
在機器視覺(jué)檢測設備中,缺陷檢測作用是機器視覺(jué)檢測設備使用最普遍的作用的一種,主要是檢驗產(chǎn)品表面的各類(lèi)信息內容。在當代工業(yè)自動(dòng)化制造中,連續性批量生產(chǎn)的每一個(gè)工藝都是有相應的缺陷率,單獨看盡管比例不大,但相乘后卻成為了企業(yè)沒(méi)法提升良率的難題,而且在經(jīng)過(guò)了完整性制程后再剔除殘品成本費會(huì )高許多,所以,及時(shí)性檢驗和祛除不良品對質(zhì)量控制和成本控制十分主要,也是制造產(chǎn)業(yè)更進(jìn)一步升級的主要根基。
我認為缺陷檢測沒(méi)有啥難的,基本上都可以做。那為啥槽點(diǎn)還那么多?我認為很大一部分是AI的槽點(diǎn),因為目前使用AI來(lái)做是主流,或者說(shuō)只傳統方法搞不定的,沒(méi)辦法,只有上AI的方法。AI的槽點(diǎn)有很多,例如:(摘自于知乎皮特潘)
多少人工就有多少智能,太依賴(lài)于標注的數據;
過(guò)擬合嚴重,泛化能力差;
容易被攻擊到,沒(méi)有提取到真正的特征;
提取特征太多抽象,可解釋性差,大家都是“黑盒子”玩家;
經(jīng)驗學(xué)、嘗試學(xué),沒(méi)有建立起方法論,trick太多,很多都是馬后炮強行解釋?zhuān)?/span>
“內卷”嚴重,nlp領(lǐng)域的sota 拿到CV,各種模改就work了?甚至都使用mlp進(jìn)行返租現象,讓我們一時(shí)半會(huì )摸不到方向。
當然,學(xué)術(shù)界和工業(yè)界也有一條巨大的鴻溝。學(xué)術(shù)界在于新,有創(chuàng )新點(diǎn),在開(kāi)源數據上各種嘗試。工業(yè)界強調的是精度、成本、落地。再者場(chǎng)景過(guò)于分散,沒(méi)辦法達成一致的共識,場(chǎng)景、數據、需求等均是如此。
單單從工業(yè)界來(lái)看,在“缺陷檢測”這一個(gè)細分的場(chǎng)景(其實(shí)也不是啥細分場(chǎng)景,所有找異常的都可以叫缺陷檢測)。
[Deep crisp boundaries:Fromboundariestohigher-level tasks]針對高級卷積的空間分辨率低和相鄰像素的相似響應提出了CED方法。[Learning to predict crisp boundaries]認為邊緣像素和非邊緣像素之間的高度不平衡是導致較厚邊緣的原因之一,因此提出了LPCB模型。他們將ResNeXt模塊插入到編碼器-****模型中,并引入Dice系數,使CNN無(wú)需后處理(NMS)即可產(chǎn)生清晰的邊界。[Deep Structural Contour Detection]提出了一種用于生成高質(zhì)量邊緣信息的DSCD方法。受SSIM的啟發(fā),他們提出了一種新的損失函數,并在模型中添加了一個(gè)超模塊,以生成質(zhì)量更好的邊緣特征。[Unmixing Convolutional Features for CrispEdge Detection]為CNN中的混合現象提出了上下文感知跟蹤策略,分解邊界特征以解決定位模糊問(wèn)題。受先前研究的啟發(fā),[Learning Crisp Boundaries Using Deep Refinement Networkand Adaptive Weighting Loss]提出了一種自適應加權損失函數和一個(gè)新的網(wǎng)絡(luò )DRNet,以堆疊多個(gè)細化模塊并獲得更豐富的特征表示,從而實(shí)現清晰的邊界信息。
03
新框架
Model structure diagram
新提出的方法采用卷積編碼器-****框架,廣泛用于邊緣檢測。任何預訓練的 CNN 模型都可以作為編碼器,****由多層特征融合器實(shí)現,充分利用了低層邊緣圖中更多的位置和細節信息,以及高層特征中更魯棒的語(yǔ)義信息,使得模型 可以學(xué)習到更清晰的邊緣,如上圖(a)所示。
提出的多特征跳過(guò)連接不僅有利于編碼器和****之間的互連,而且在****內部也有連接。該模型使用每個(gè)模塊的最后一層作為編碼器的輸出層,定義為[b1,b2,...,b5]。對于****部分,采用了多層特征融合機制。
不同的輸出層bi具有可以通過(guò)常規方法更新的各種大小的特征圖。在這里,研究者以o4為例來(lái)解釋****部分的構造,如下圖(b)和上公式所示,其中函數C(.)表示卷積+批量歸一化+ReLU激活操作。D(.)和E(.)分別表示上采樣和下采樣操作,[.]表示連接。B4中的特征圖直接融合到O4中。
從編碼器的較低層開(kāi)始,首先將最大池化操作應用于B1、B2和B3中的特征圖,然后將它們融合到O4中。隨后,通過(guò)雙線(xiàn)性插值獲得來(lái)自****部分的O5。為了保持通道不變,研究者采用卷積運算來(lái)進(jìn)一步統一通道數。為了更好地將低級細節和空間特征與高級語(yǔ)義特征融合,進(jìn)一步在五個(gè)尺度特征圖上進(jìn)行特征融合。
Pixel-level Imbalance Learning
權重交叉熵。邊緣圖像生成可以看作是一個(gè)像素級的分類(lèi)任務(wù)(邊緣和非邊緣像素)。它在邊緣和非邊緣像素的數量方面非常不平衡。
采用加權交叉熵(見(jiàn)上公式,其中Gi是標簽,Pi是邊緣預測值)來(lái)解決這樣的分類(lèi)任務(wù)并糾正邊緣和非邊緣像素之間的不平衡,可以有效地監督網(wǎng)絡(luò )區分邊緣和非邊緣信息。然而,“厚度”問(wèn)題仍然存在。雖然加權交叉熵可以有效地計算像素級差異,但它不能充分區分與TP邊緣像素相鄰的FP和FN像素值。
04
實(shí)驗
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。