深度框架訓練:不是所有數據增強都可以提升最終精度
數據增強(DA)是訓練最先進(jìn)的深度學(xué)習系統的必要技術(shù)。在今天分享中,實(shí)證地表明數據增強可能會(huì )引入噪聲增強的例子,從而在推理過(guò)程中損害非增強數據的性能。
一、前言&簡(jiǎn)要
為了緩解上述問(wèn)題,有研究者提出了一種簡(jiǎn)單而高效的方法,稱(chēng)為保持增強(KeepAugment),以提高增強圖像的保真度。其主要思想是首先使用顯著(zhù)性map來(lái)檢測原始圖像上的重要區域,然后在增強過(guò)程中保留這些信息區域。這種信息保護策略使我們能夠生成更忠實(shí)的訓練示例。
在實(shí)驗上,也證明了該方法在一些現有的技術(shù)數據增強方案上有了顯著(zhù)的改進(jìn),例如:自動(dòng)增強、裁剪、隨機擦除,在圖像分類(lèi)、半監督圖像分類(lèi)、多視點(diǎn)多攝像機跟蹤和目標檢測等方面取得了很好的效果。
二、知識回顧
首先我們回一下什么叫“數據增強”?
數據增強(Data Augmentation)是一種通過(guò)讓有限的數據產(chǎn)生更多的等價(jià)數據來(lái)人工擴展訓練數據集的技術(shù)。它是克服訓練數據不足的有效手段,目前在深度學(xué)習的各個(gè)領(lǐng)域中應用廣泛。但是由于生成的數據與真實(shí)數據之間的差異,也不可避免地帶來(lái)了噪聲問(wèn)題。
為什么需要數據增強?
深度神經(jīng)網(wǎng)絡(luò )在許多任務(wù)中表現良好,但這些網(wǎng)絡(luò )通常需要大量數據才能避免過(guò)度擬合。遺憾的是,許多場(chǎng)景無(wú)法獲得大量數據,例如醫學(xué)圖像分析。數據增強技術(shù)的存在是為了解決這個(gè)問(wèn)題,這是針對有限數據問(wèn)題的解決方案。數據增強一套技術(shù),可提高訓練數據集的大小和質(zhì)量,以便您可以使用它們來(lái)構建更好的深度學(xué)習模型。在計算視覺(jué)領(lǐng)域,生成增強圖像相對容易。即使引入噪聲或裁剪圖像的一部分,模型仍可以對圖像進(jìn)行分類(lèi),數據增強有一系列簡(jiǎn)單有效的方法可供選擇,有一些機器學(xué)習庫來(lái)進(jìn)行計算視覺(jué)領(lǐng)域的數據增強,比如:imgaug (https://github.com/aleju/imgaug)它封裝了很多數據增強算法,給開(kāi)發(fā)者提供了方便。
計算視覺(jué)數據增強
計算視覺(jué)領(lǐng)域的數據增強算法大致可以分為兩類(lèi):第一類(lèi)是基于基本圖像處理技術(shù)技術(shù)的數據增強,第二個(gè)類(lèi)別是基于深度學(xué)習的數據增強算法。下面先介紹基于基本圖像處理技術(shù)的數據增強方法:
1、flipping翻轉
一般都是水平方向翻轉而少用垂直方向,即鏡像變換。圖像數據集上證實(shí)有用(CIFAR-10,ImageNet等),但無(wú)法應用在文本識別數據集(MNIST,SVHN等)
2、color space色彩空間
簡(jiǎn)單做法是隔離單個(gè)色彩通道,例如R,G或B,此外可以通過(guò)簡(jiǎn)單的矩陣運算以增加或減少圖像的亮度。更高級的做法從顏色直方圖著(zhù)手,更改這些直方圖中的強度值(想到了圖像處理中的直方圖均衡)。
3、cropping裁剪
分統一裁剪和隨機裁剪。統一裁剪將不同尺寸的圖像裁剪至設定大小,隨機裁剪類(lèi)似translation,不同之處在于translation保留原圖尺寸而裁剪會(huì )降低尺寸。裁剪要注意不要丟失重要信息以至于改變圖像標簽。
4、rotation旋轉
要注意旋轉度數。以MNIST為例,輕微旋轉(例如1°-20°)可能有用,再往后增加時(shí)數據標簽可能不再保留。
5、translation位置變換
向左,向右,向上或向下移動(dòng)圖像可能是非常有用的轉換,以避免數據中的位置偏差。例如人臉識別數據集中人臉基本位于圖像正中,位置變換可以增強模型泛化能力。
6、noise injection添加噪聲
添加高斯分布的隨機矩陣
7、color space transformations色彩空間增強
照明偏差是圖像識別問(wèn)題中最常見(jiàn)的挑戰之一,因此色彩空間轉換(也稱(chēng)為光度轉換)的比較直觀(guān)有效。
①遍歷圖像以恒定值減少或增加像素值(過(guò)亮或過(guò)暗)
②拼接出(splice out)各個(gè)RGB顏色矩陣
③將像素值限制為某個(gè)最小值或最大值
④操作色彩直方圖以改變圖像色彩空間特征
注意將彩色圖轉換黑白雖然簡(jiǎn)化了這些操作,但精度會(huì )降低
geometric versus photometric transformations幾何與光度轉換
1、kernel flters內核過(guò)濾器
平滑和銳化,即圖像處理中用卷積核滑過(guò)整幅圖像的操作。這一點(diǎn)尚未開(kāi)發(fā),它和CNN中卷積機制非常相似(就一樣?。?,因此可以通過(guò)調整網(wǎng)絡(luò )參數更好地改善網(wǎng)絡(luò ),而不需要額外進(jìn)行這樣的數據增強操作。
2、mixing images圖像混合
做法是通過(guò)平均圖像像素值將圖像混合在一起:
mixing images
研究發(fā)現是當混合來(lái)自整個(gè)訓練集的圖像而不是僅來(lái)自同一類(lèi)別的實(shí)例的圖像時(shí),可以獲得更好的結果。其它一些做法:
①一種非線(xiàn)性方法將圖像組合成新的訓練實(shí)例:
非線(xiàn)性方法
②另一方法是隨機裁剪圖像并將裁剪后的圖像連接在一起以形成新圖像:
隨機裁剪再拼接
這類(lèi)方法從人的視角看毫無(wú)意義,但確實(shí)提升了精度??赡芙忉屖菙祿笮〉脑黾訉е铝酥T如線(xiàn)和邊之類(lèi)的低級特征的更可靠表示。
3、random erasing隨機擦除
這一點(diǎn)受到dropout正規化的啟發(fā),隨機擦除迫使模型學(xué)習有關(guān)圖像的更多描述性特征,從而防止過(guò)擬合某個(gè)特定視覺(jué)特征。隨機擦除的好處在于可以確保網(wǎng)絡(luò )關(guān)注整個(gè)圖像,而不只是其中的一部分。最后隨機擦除的一個(gè)缺點(diǎn)是不一定會(huì )保留標簽(例如文本8->6)。
三、新方法
新方法控制數據增強的保真度,從而減少有害的錯誤信息。研究者的想法是通過(guò)顯著(zhù)性映射測量圖像中矩形區域的重要性,并確保數據增強后始終呈現得分最高的區域:對于裁剪,通過(guò)避免切割重要區域(見(jiàn)下圖a5和b5);對于圖像級轉換,通過(guò)將重要區域粘貼到轉換圖像頂部(參見(jiàn)下圖a6和b6)。
Eq2:
Eq3:
四、實(shí)驗
CIFAR-10:https://www.cs.toronto.edu/?kriz/cifar.html
open-source code:https://github.com/clovaai/CutMix-PyTorch
open-ReID:https://github.com/Cysu/open-reid
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。