人類(lèi)和DNN的目標識別穩健性比較
深度神經(jīng)網(wǎng)絡(luò )在很多任務(wù)上都已取得了媲美乃至超越人類(lèi)的表現,但其泛化能力仍遠不及人類(lèi)。德國蒂賓根大學(xué)等多所機構近期的一篇論文對人類(lèi)和 DNN 的目標識別穩健性進(jìn)行了行為比較,并得到了一些有趣的見(jiàn)解。機器之心對該論文進(jìn)行了編譯介紹。
本文引用地址:http://dyxdggzs.com/article/201809/392064.htm摘要
我們通過(guò) 12 種不同類(lèi)型的圖像劣化(image degradation)方法,比較了人類(lèi)與當前的卷積式深度神經(jīng)網(wǎng)絡(luò )(DNN)在目標識別上的穩健性。首先,對比三種著(zhù)名的 DNN(ResNet-152、VGG-19、GoogLeNet),我們發(fā)現不管對圖像進(jìn)行怎樣的操作,幾乎所有情況下人類(lèi)視覺(jué)系統都更為穩健。我們還觀(guān)察到,當信號越來(lái)越弱時(shí),人類(lèi)和 DNN 之間的分類(lèi)誤差模式之間的差異會(huì )逐漸增大。其次,我們的研究表明直接在畸變圖像上訓練的 DNN 在其所訓練的同種畸變類(lèi)型上的表現總是優(yōu)于人類(lèi),但在其它畸變類(lèi)型上測試時(shí),DNN 卻表現出了非常差的泛化能力。比如,在椒鹽噪聲上訓練的模型并不能穩健地應對均勻白噪聲,反之亦然。因此,訓練和測試之間噪聲分布的變化是深度學(xué)習視覺(jué)系統所面臨的一大關(guān)鍵難題,這一難題可通過(guò)終身機器學(xué)習方法而系統地解決。我們的新數據集包含 8.3 萬(wàn)個(gè)精心度量的人類(lèi)心理物理學(xué)試驗,能根據人類(lèi)視覺(jué)系統設置的圖像劣化提供對終身穩健性的有用參考。
圖 1:在(有可能畸變的)ImageNet 圖像上從頭開(kāi)始訓練的 ResNet-50 的分類(lèi)表現。(a)在標準的彩色圖像上訓練后的模型在彩色圖像上的測試表現接近完美(優(yōu)于人類(lèi)觀(guān)察者)。(b)類(lèi)似地,在添加了均勻噪聲的圖像上訓練和測試的模型也優(yōu)于人類(lèi)。(c)顯著(zhù)的泛化問(wèn)題:在添加了椒鹽噪聲的圖像上訓練的模型在具有均勻噪聲的圖像上進(jìn)行測試時(shí),表現時(shí)好時(shí)壞——即使這兩種噪聲類(lèi)型在人眼看來(lái)并沒(méi)有太大的區別。
1 引言
1.1 作為人類(lèi)目標識別模型的深度神經(jīng)網(wǎng)絡(luò )
人類(lèi)在日常生活中進(jìn)行的視覺(jué)識別速度很快,似乎也毫不費力,而且很大程度無(wú)關(guān)視角和物體的方向 [Biederman (1987)]。在單次注視過(guò)程中完成的主要由中心凹進(jìn)行的快速識別被稱(chēng)為「核心目標識別(core object recognition)」[DiCarlo et al. (2012)]。比如,在查看「標準的」圖像時(shí),我們能夠在不到 200 毫秒的單次注視內可靠地辨別出視野中心的目標。[DiCarlo et al. (2012); Potter (1976); Thorpe et al. (1996)]。由于目標識別速度很快,所以研究者常認為核心目標識別主要是通過(guò)前饋處理實(shí)現的,盡管反饋連接在靈長(cháng)類(lèi)大腦中無(wú)處不在。靈長(cháng)類(lèi)大腦中的目標識別據信是通過(guò)腹側視覺(jué)通路實(shí)現的,這是一個(gè)由區域 V1-V2-V4-IT 組成的分層結構,來(lái)自視網(wǎng)膜的信息會(huì )首先傳遞至 V1 的皮層 [Goodale and Milner (1992)]。
就在幾年前,動(dòng)物視覺(jué)系統還是已知的唯一能夠進(jìn)行種類(lèi)廣泛的視覺(jué)目標識別的視覺(jué)系統。但這種情況已然改變,在數百萬(wàn)張有標注圖像上訓練之后的腦啟發(fā)式深度神經(jīng)網(wǎng)絡(luò )已經(jīng)在自然場(chǎng)景圖像中的物體分類(lèi)上達到了人類(lèi)水平 [Krizhevsky et al. (2012)]。DNN 現在可用于各種類(lèi)型的任務(wù),并且創(chuàng )造了新的當前最佳,甚至在一些幾年前還被認為需要數十年時(shí)間才能通過(guò)算法解決的任務(wù)上取得了超越人類(lèi)的表現 [He et al. (2015); Silver et al. (2016)]。因為 DNN 和人類(lèi)能達到相近的準確度,所以已有一些工作開(kāi)始研究 DNN 和人類(lèi)視覺(jué)的相似和不同之處。一方面,由于大腦本身的復雜性和神經(jīng)元的多樣性,所以 DNN 的網(wǎng)絡(luò )單元得到了很大的簡(jiǎn)化 [Douglas and Martin (1991)]。另一方面,一個(gè)模型的能力往往并不取決于對原有系統的復現,而在于模型取得原系統的重要方面并將其從實(shí)現的細節中抽象出來(lái)的能力 [如 Box (1976); Kriegeskorte (2015)]。
人類(lèi)視覺(jué)系統最顯著(zhù)的性質(zhì)之一是穩健的泛化能力。即使輸入分布發(fā)生很大的變化(比如不同的光照條件和天氣類(lèi)型),人類(lèi)視覺(jué)系統也能輕松應對。比如,即使在一個(gè)物體前面有雨滴或雪花,人類(lèi)對物體的識別也基本不會(huì )出錯。盡管人類(lèi)在一生中肯定會(huì )遇到很多這樣的變化情況(對于 DNN,即是我們所說(shuō)的「訓練時(shí)間」),但似乎人類(lèi)的泛化方式非常普適,并不局限于之前看過(guò)的同種分布。否則我們將無(wú)法理解存在某些全新之處的場(chǎng)景,之前未見(jiàn)過(guò)的噪聲也會(huì )讓我們束手無(wú)策。即使一個(gè)人的頭上還從未被撒過(guò)彩片碎紙,但他仍然可以毫無(wú)壓力地辨認出花車(chē)巡游中的目標。很自然,這樣通用穩健的機制并不只是動(dòng)物視覺(jué)系統所需的,要讓人工視覺(jué)系統具備超出其訓練時(shí)間所用分布的「眼界」,從而處理各種各樣的視覺(jué)任務(wù),也將需要類(lèi)似的機制。用于自動(dòng)駕駛的深度學(xué)習可能就是其中一個(gè)突出案例:即使系統在訓練時(shí)間從沒(méi)見(jiàn)過(guò)彩片碎紙雨,在花車(chē)巡游時(shí)也需要有穩健的分類(lèi)表現。因此,從機器學(xué)習角度看,因為終身機器學(xué)習所需的泛化能力并不依賴(lài)于在測試時(shí)間使用獨立同分布(i.i.d.)樣本的標準假設,所以對一般噪聲的穩健性可用作終身機器學(xué)習的高度相關(guān)的案例 [Chen and Liu (2016)]。
1.2 泛化能力比較
DNN 的泛化效果一般很好:首先,DNN 能夠在訓練分布上學(xué)習到足夠一般的特征,能在獨立同分布的測試分布上得到很高的準確度;盡管 DNN 也有足夠的能力完全記憶訓練數據 [Zhang et al. (2016)],。有很多研究致力于理解這一現象 [如 Kawaguchi et al. (2017); Neyshabur et al. (2017); Shwartz-Ziv and Tishby (2017)]。其次,在一個(gè)任務(wù)上學(xué)習到特征往往只會(huì )遷移到有所相關(guān)的任務(wù)上,比如從分類(lèi)任務(wù)遷移到顯著(zhù)性預測任務(wù) [Kümmerer et al. (2016)]、情緒識別任務(wù) [Ng et al. (2015)]、醫學(xué)成像任務(wù) [Greenspan et al. (2016)] 以及其它很多遷移學(xué)習任務(wù) [Donahue et al. (2014)]。但是,在用于新任務(wù)之前,遷移學(xué)習仍然需要大量訓練。這里,我們采用第三種設定:終身機器學(xué)習角度的泛化 [Thrun (1996)]。即當一個(gè)視覺(jué)學(xué)習系統在學(xué)習過(guò)處理一種特定類(lèi)型的圖像劣化后,在處理新類(lèi)型的圖像劣化時(shí)效果如何?作為一種目標識別穩健性的度量方法,我們可以測試分類(lèi)器或視覺(jué)系統能夠忍受輸入分布的變化達到一定程度的能力,即在一定程度上不同于訓練分布的測試分布上評估時(shí)的識別表現是否夠好(即在接近真實(shí)的情況下測試,而非在獨立同分布上測試)。使用這種方法,我們可以衡量 DNN 和人類(lèi)觀(guān)察者應對由參數化圖像處理所造成的原始圖像逐漸畸變的能力。
首先,我們將評估在 ImageNet 上訓練的表現最好的 DNN,即 GoogLeNet [Szegedy et al. (2015)]、 VGG-19 [Simonyan and Zisserman (2015)] 和 ResNet-152 [He et al. (2016)],并會(huì )在 12 種不同的圖像畸變上比較這些 DNN 與人類(lèi)的表現,看各自在之前未見(jiàn)過(guò)的畸變上的泛化能力如何。圖 2 展示了這些畸變類(lèi)型,包含加性噪聲或相位噪聲等。
在第二組實(shí)驗中,我們會(huì )直接在畸變圖像上訓練網(wǎng)絡(luò ),看它們在一般意義上處理有噪聲輸入的效果究竟如何,以及在畸變圖像上進(jìn)行多少訓練就能以數據增強的形式助力對其它畸變形式的處理。研究者已對人類(lèi)在目標識別任務(wù)上的行為進(jìn)行了很多心理物理學(xué)研究,這些任務(wù)包括在不同顏色(灰度和彩色)或對比度以及添加了不同量的可見(jiàn)噪聲的圖像上測量準確度。研究表明,這種方法確實(shí)有助于對人類(lèi)視覺(jué)系統的探索,能揭示出有關(guān)其中內部計算和機制的信息 [Nachmias and Sansbury (1974); Pelli and Farell (1999); Wichmann (1999); Henning et al. (2002); Carandini and Heeger (2012); Carandini et al. (1997); Delorme et al. (2000)]。因此,類(lèi)似的實(shí)驗也許同樣能讓我們了解 DNN 的工作方式,尤其是還能通過(guò)與人類(lèi)行為的高質(zhì)量測量結果來(lái)進(jìn)行比較。
特別需要指出,我們實(shí)驗中的人類(lèi)數據是從受控的實(shí)驗環(huán)境中獲得的(而沒(méi)有使用 Amazon Mechanical Turk 等服務(wù),因為這些服務(wù)無(wú)法讓我們充分地控制展示時(shí)間、顯示器校準、視角和參與者在實(shí)驗中的注意力)。我們精心測量得到的行為數據集共包含 12 個(gè)實(shí)驗的 82880 次心理物理學(xué)試驗,這些數據以及相關(guān)材料和代碼都已公開(kāi):https://github.com/rgeirhos/generalisation-humans-DNNs
2 方法
這一節將報告所用的范式、流程、圖像處理方法、觀(guān)察者和 DNN 的核心元素;這里的信息足以讓讀者了解相關(guān)實(shí)驗和結果。更深入的解讀請參閱補充材料,其中有更詳細的細節,可幫助研究者重現我們的實(shí)驗。
2.1 范式、流程和 16-class-ImageNet
為了本研究,我們開(kāi)發(fā)了一種實(shí)驗范式,旨在使用一種強制選擇的圖像分類(lèi)任務(wù)來(lái)盡可能公平地比較人類(lèi)觀(guān)察者和 DNN。實(shí)現公平的心理物理學(xué)比較面臨著(zhù)一些難題:首先,很多表現優(yōu)良的 DNN 是在 ILSRVR 2012 數據庫 [Russakovsky et al. (2015)] 上訓練的,這個(gè)數據庫有 1000 種細粒度的類(lèi)別(比如,超過(guò) 100 種狗)。如果讓人類(lèi)說(shuō)出這些目標的名稱(chēng),他們基本上很自然地會(huì )使用大類(lèi)的名稱(chēng)(比如會(huì )說(shuō)這是「狗」,而不是說(shuō)是「德國牧羊犬」)。因此,我們使用 WordNet 的層次結構 [Miller (1995)] 開(kāi)發(fā)了一種映射方法,將 16 種大類(lèi)類(lèi)別(比如狗、車(chē)或椅子)映射到了它們對應的 ImageNet 類(lèi)別。我們將這個(gè)數據集稱(chēng)為 16-class-ImageNet,因為它將 ImageNet 的一個(gè)子集分組成了 16 個(gè)大類(lèi),即:飛機、兩輪車(chē)、船舶、小車(chē)、椅子、狗、鍵盤(pán)、烤箱、熊、鳥(niǎo)、瓶子、貓、鐘表、象、刀具、卡車(chē))。然后,在每次試驗中都會(huì )有一張圖像顯示在計算機屏幕上,觀(guān)察者必須通過(guò)點(diǎn)擊這 16 個(gè)類(lèi)別中的 1 個(gè)來(lái)選出正確的類(lèi)別。對于預訓練的 DNN,則是計算映射到特定大類(lèi)的所有 softmax 值的總和。然后,具有最高總和的大類(lèi)被用作該網(wǎng)絡(luò )的最終決定。
另一個(gè)難題是實(shí)際上標準的 DNN 在推理時(shí)間僅會(huì )使用前饋式計算,而循環(huán)連接在人腦中無(wú)處不在 [Lamme et al. (1998); Sporns and Zwi (2004)]。為了防止這種差異在我們的實(shí)驗比較中成為混淆結果的主要原因,給人類(lèi)觀(guān)察者的呈現時(shí)間被限制在了 200ms。在展示完一張圖像之后,還會(huì )呈現 200ms 的 1/f 噪聲掩?!谛睦砦锢韺W(xué)上,已知這種方法能夠盡可能地最小化大腦中的反饋影響。
2.2 觀(guān)察者和預訓練的深度神經(jīng)網(wǎng)絡(luò )
來(lái)自人類(lèi)觀(guān)察者的數據與三個(gè)預訓練的 DNN 的分類(lèi)表現進(jìn)行了比較,即 GoogLeNet、 VGG-19 和 ResNet-152。對于我們進(jìn)行的 12 個(gè)實(shí)驗中的每一個(gè),都有 5 或 6 個(gè)觀(guān)察者參與(只有彩色圖像的實(shí)驗除外,該實(shí)驗僅有三位觀(guān)察者參與,因為已有很多研究執行過(guò)類(lèi)似的實(shí)驗 [Delorme et al. (2000); Kubilius et al. (2016); Wichmann et al. (2006)]。觀(guān)察者的視力或矯正后視力處于正常水平。
2.3 圖像處理方法
我們在一個(gè)控制良好的心理物理學(xué)實(shí)驗室環(huán)境中進(jìn)行了總共 12 個(gè)實(shí)驗。在每個(gè)實(shí)驗中,都會(huì )在大量圖像上施加(可能是參數化的)圖像畸變,這樣信號強度的范圍就從「沒(méi)有畸變/全信號」到「有畸變/(更)弱信號」不等。然后我們測量了分類(lèi)準確度隨信號強度的變化情況。我們使用的圖像處理方法中有三種是二分式的(彩色與灰度、真色與反色、原始與均衡化的功率譜);一種處理方式有 4 個(gè)不同層級(旋轉 0、90、180、270 度);還有一種方式有 7 個(gè)層級(0、30……180 度的相位噪聲);其它畸變方法則各有 8 個(gè)不同層級。這些方法為:均勻噪聲(受表示像素層面加性均勻噪聲的邊界的「width」參數控制)、對比度下降(對比度從 100% 到 1% 不等)以及三種來(lái)自 Eidolon 工具箱的三種不同的處理方法 [Koenderink et al. (2017)]。這三個(gè) Eidolon 實(shí)驗都對應于一種參數化圖像處理的不同版本,「reach」參數控制了畸變的強度。此外,對于在畸變上訓練的實(shí)驗,我們也評估了在具有椒鹽噪聲的刺激上的表現(受參數 p 控制,該參數表示將一個(gè)像素設置成黑或白色的概率;p∈[0,10,20,35,50,65,80,95]%)。
更多有關(guān)不同圖像處理方法的信息請參閱補充材料,其中也包含各種不同處理方法和畸變等級的圖例。圖 2 則展示了每種畸變的一個(gè)圖例。整體而言,我們選擇使用的圖像處理方法能夠代表很多不同類(lèi)型的可能畸變。
圖 2:一張鳥(niǎo)圖像在經(jīng)過(guò)所有類(lèi)型的畸變處理后的結果。從左至右的圖像處理方法依次為:(上面一行):彩色原圖(未畸變)、灰度、低對比度、高通、低通(模糊)、相位噪聲、功率均衡;(下面一行):反色、旋轉、Eidolon I、Eidolon II、Eidolon III、加性均勻噪聲、椒鹽噪聲。補充材料中提供了所用到的所有畸變等級。
2.4 在畸變圖像上訓練
除了在畸變圖像上評估標準的預訓練的 DNN(結果見(jiàn)圖 3),我們還直接在畸變圖像上訓練了神經(jīng)網(wǎng)絡(luò )(圖 4)。這些網(wǎng)絡(luò )是在 16-class-ImageNet 上訓練的,這是標準 ImageNet 數據集的一個(gè)子集,詳見(jiàn) 2.1 節。這將未受擾動(dòng)的訓練集規模減小到了大約原來(lái)的五分之一。為了校正每個(gè)類(lèi)別的高度不平衡的樣本數量,我們使用了一個(gè)與對應類(lèi)別的樣本數量成正比的權重給損失函數中的每個(gè)樣本加權。這些實(shí)驗中訓練的所有網(wǎng)絡(luò )都使用了類(lèi)似 ResNet 的架構,與標準 ResNet-50 的不同之處僅有輸出神經(jīng)元的數量——從 1000 降至了 16,以對應數據集的 16 個(gè)大類(lèi)。權重使用了一個(gè)截斷的正態(tài)分布進(jìn)行初始化,均值為零,標準差為,其中 n 是一層中輸出神經(jīng)元的數量。
在從頭開(kāi)始訓練時(shí),我們使用圖像處理方法的不同組合在訓練過(guò)程中執行了數據增強。當在多種類(lèi)型的圖像處理上訓練網(wǎng)絡(luò )時(shí)(圖 4 中的 B1-B9 和 C1-C2 模型),圖像處理的類(lèi)型(包括未畸變圖像,即標準的彩色圖像)是均勻選取的,而且我們每次僅應用一種處理(即網(wǎng)絡(luò )永遠不會(huì )看到同時(shí)應用了多種圖像處理方法的單張圖像,但注意某些圖像處理方法本質(zhì)上已經(jīng)包含了其它處理方法:比如均勻噪聲,總是在進(jìn)行灰度轉換并將對比度降至 30% 后添加的)。對于一個(gè)給定的圖像處理方法,擾動(dòng)量是根據測試時(shí)間所用的等級均勻選取的(參見(jiàn)圖 3)。
訓練過(guò)程的其它方面都遵循在 ImageNet 上訓練 ResNet 的標準訓練流程:我們使用了動(dòng)量為 0.997 的 SGD,批大小為 64,初始學(xué)習率為 0.025。在 30、60、80 和 90 epoch 后(當訓練 100 epoch 時(shí))或 60、120、160、180 epoch 后(當訓練 200 epoch 時(shí)),學(xué)習率乘以 0.1。我們使用了 TensorFlow 1.6.0 [Abadi et al. (2016)] 進(jìn)行訓練。在訓練實(shí)驗中,除了 Eidolon 刺激(因為這些刺激的生成對 ImageNet 訓練而言的計算速度實(shí)在太慢)之外,所有的圖像處理方法都有超過(guò)兩個(gè)層級。為了進(jìn)行比較,我們額外添加了彩色與灰度和椒鹽噪聲的對比(因為椒鹽噪聲方面沒(méi)有人類(lèi)的數據,但均勻噪聲和椒鹽噪聲之間不正式的比較說(shuō)明人類(lèi)的表現是相近的,參見(jiàn)圖 1(c))。
3 人類(lèi)和預訓練后的 DNN 對圖像畸變的泛化能力
為了評估信號更弱時(shí)的泛化能力,我們測試了 12 種不同的圖像劣化方法。然后將這些不同信號強度的圖像呈現給實(shí)驗室環(huán)境中的人類(lèi)觀(guān)察者以及預訓練的 DNN(ResNet-152、GoogLeNet 和 VGG-19)進(jìn)行分類(lèi)。圖 3 給出了可視化的結果比較。
圖 3:GoogLeNet、VGG-19 和 ResNet-152 以及人類(lèi)觀(guān)察者的分類(lèi)準確度和響應分布熵?!胳亍故侵疙憫?決定分布(16 類(lèi))的香農熵。這里衡量了與特定類(lèi)別的偏差:使用一個(gè)在每個(gè)類(lèi)別的圖像數量方面平衡的測試數據集,對所有 16 個(gè)類(lèi)別進(jìn)行同等頻率的響應能得到 4 bit 的最大可能熵。如果網(wǎng)絡(luò )或觀(guān)察者更偏愛(ài)響應其中某些類(lèi)別,則熵會(huì )降低(如果是一直響應單個(gè)類(lèi)別的極端情況,則會(huì )降至 0 bit,不管基本真值的類(lèi)別如何)。人類(lèi)表現的「誤差線(xiàn)」表示了所有參與者的結果的整個(gè)區間。2.3 節將解釋圖像處理方法,可視化結果請參閱補充材料。
雖然在僅有相對較小的與顏色相關(guān)的畸變時(shí)(比如灰度轉換或反色)人類(lèi)和 DNN 的性能接近,但我們發(fā)現人類(lèi)觀(guān)察者對其它所有畸變都更穩?。涸诘蛯Ρ榷?、功率均衡和相位噪聲圖像上有少許優(yōu)勢,在均勻噪聲、低通、高通、旋轉和三種 Eidolon 實(shí)驗上優(yōu)勢更大。此外,由響應分布熵衡量的誤差模式存在很大的差異(這表明存在對特定類(lèi)別的偏差)。當信號越來(lái)越弱時(shí),人類(lèi)參與者的響應在 16 個(gè)類(lèi)別上或多或少是均等分布的,而三個(gè) DNN 都表現出了對特定類(lèi)別的偏差。這些偏差并不能完全通過(guò)先驗類(lèi)別概率解釋?zhuān)乙蚓唧w畸變而各不相同。比如,對于有很強均勻噪聲的圖像,ResNet-152 幾乎只能預測瓶子類(lèi)別(與基本真值類(lèi)別無(wú)關(guān)),而對于有嚴重相位噪聲的圖像則只能預測狗或鳥(niǎo)類(lèi)別。人們可能會(huì )想到一些降低 DNN 和人類(lèi)的響應分布熵之間的差異的簡(jiǎn)單技巧。一種可能的方法是增大 softmax 溫度參數并假設模型的決定是從這個(gè) softmax 分布采樣的,而不是取自 argmax。但是,以這種方式增大響應 DNN 分布熵會(huì )極大降低分類(lèi)準確度,因此需要一定的權衡(參見(jiàn)補充材料圖 8)。
這些結果與之前報告的 DNN 中對顏色信息的處理與人類(lèi)類(lèi)似的發(fā)現一致 [Flachot and Gegenfurtner (2018)],但 DNN 識別的準確度會(huì )因噪聲和模糊等圖像劣化而顯著(zhù)下降 [Vasiljevic et al. (2016); Dodge and Karam (2016, 2017a, 2017b); Zhou et al. (2017)]。整體而言,在各種圖像畸變情況下,DNN 在泛化到更弱信號上的表現比人類(lèi)更差。盡管人類(lèi)的視覺(jué)系統隨進(jìn)化過(guò)程和生命周期已經(jīng)遇到了大量畸變,但我們顯然沒(méi)遇到過(guò)我們的測試中很多確切的圖像處理方式。因此,我們的人類(lèi)數據表明原則上高水平的泛化能力是可能的。我們發(fā)現,人類(lèi)與 DNN 的泛化能力差異的可能原因有很多:在當前所使用的網(wǎng)絡(luò )架構方面是否存在局限性(正如 Dodge and Karam (2016) 假設的那樣),使得 DNN 無(wú)法匹敵人腦中錯綜復雜的計算?訓練數據是否存在問(wèn)題(Zhou et al. (2017) 就這樣認為)?還是說(shuō)當今的訓練方法/優(yōu)化方法不足以實(shí)現穩健和通用的目標識別?為了理解我們發(fā)現的差異之處,我們進(jìn)行了另一批實(shí)驗——直接在畸變圖像上訓練網(wǎng)絡(luò )。
4 直接在畸變圖像上訓練 DNN
圖 4:使用可能畸變的數據訓練的網(wǎng)絡(luò )的分類(lèi)準確度(百分數)。行表示中等難度的不同測試條件(括號中給出了具體條件,單位同圖 3)。列對應按不同方式訓練的網(wǎng)絡(luò )(最左列:用于比較的人類(lèi)觀(guān)察者;沒(méi)有人類(lèi)在椒鹽噪聲方面的數據)。所有的網(wǎng)絡(luò )都是在(可能處理過(guò)的)16-class-ImageNet 上從頭開(kāi)始訓練得到的。紅框標記了對應網(wǎng)絡(luò )的訓練數據中使用的處理方法;此外,加上了下劃線(xiàn)的結果表示「灰度」是訓練數據的一部分,因為某些畸變方法包含了完全對比度的灰度圖像。模型 A1-A9:在單一畸變上訓練的 ResNet-50(100 epoch)。模型 B1-B9:在均勻噪聲和另一種畸變上訓練的 ResNet-50(200 epoch)。模型 C1 和 C2:在除一種畸變外的所有畸變上訓練的 ResNet-50(200 epoch)。隨機選中的幾率是十六分之一,即 6.25%。
我們?yōu)槊糠N畸變直接在 16-class-ImageNet 圖像(有可能進(jìn)行了圖像處理)上從頭開(kāi)始訓練一個(gè)網(wǎng)絡(luò )。圖 4(A1-A9)展示了訓練的結果。我們發(fā)現,這些特定的網(wǎng)絡(luò )在其所訓練的圖像處理類(lèi)型上總是優(yōu)于人類(lèi)觀(guān)察者的表現(即圖中對角線(xiàn)上的優(yōu)良結果)。這表明,當前所用的架構(比如 ResNet-50)和訓練方法(標準的優(yōu)化器和訓練過(guò)程)足以「解決」獨立同分布的訓練/測試條件下的畸變。我們不僅能解決 Dodge and Karam (2017a) 觀(guān)察到的人類(lèi)與 DNN 表現的差異問(wèn)題(他們在畸變上對網(wǎng)絡(luò )進(jìn)行了精細調節,但得到的 DNN 未達到人類(lèi)水平),而且能在這方面超越人類(lèi)的水平。盡管人類(lèi)視覺(jué)系統的結構肯定更為復雜 [Kietzmann et al. (2017)],但看起來(lái)對處理這類(lèi)圖像處理問(wèn)題來(lái)說(shuō)似乎并不是必需的。
但是,正如之前指出的那樣,穩健的泛化能力的關(guān)鍵不是解決事先已知的特定問(wèn)題。因此,我們測試了在特定畸變類(lèi)型上訓練的網(wǎng)絡(luò )在另一些畸變上的表現。圖 4 A1-A9 中非對角線(xiàn)上的數據即為實(shí)驗結果。整體而言,我們發(fā)現,在一些案例中,在特定畸變上訓練能稍微提升在其它畸變上的表現,但也有一些案例給出了相反的結果(比較對象是在彩色圖像上訓練的純 ResNet-50,即圖中的 A1)。所有網(wǎng)絡(luò )在椒鹽噪聲以及均勻噪聲上的表現都接近隨機亂選,即使是在各自相應的其它噪聲模型上直接訓練的網(wǎng)絡(luò )也是如此。因為這兩種類(lèi)型的噪聲在人眼看來(lái)其實(shí)差別并不大(如圖 1(c) 所示),所以這一結果可能還是頗讓人驚訝。因此,在一種畸變類(lèi)型上訓練的網(wǎng)絡(luò )并不總是能實(shí)現在其它畸變上的表現提升。
因為只在單一一種畸變上訓練似乎不足以為 DNN 帶來(lái)強大的泛化能力,所以我們還在另外兩種設置上訓練了同樣的架構(ResNet-50)。圖 4 中 B1-B9 模型展示了在一種特定的畸變與均勻噪聲的組合上訓練后的結果(來(lái)自每種圖像處理方法的訓練數據各 50%)。選擇均勻噪聲的原因是這似乎是對所有網(wǎng)絡(luò )而言最困難的畸變,因此將這種特定畸變納入訓練數據可能是有益的。此外,我們還在除去了一種畸變(除去了均勻噪聲或椒鹽噪聲)之外的所有畸變上訓練了模型 C1 和 C2。
我們發(fā)現,相比于模型 A1-A9,模型 B1-B9 的目標識別表現有所提升——不管是它們實(shí)際訓練的畸變上(圖 4 中的對角線(xiàn)上的紅框),還是在其它未在訓練數據中出現的畸變上。但是,這一提升的原因很大程度上可能是模型 B1-B9 訓練了 200 epoch,而不是像 A1-A9 那樣訓練了 100 epoch,因為模型 B9(在均勻噪聲上訓練和測試,200 epoch)的表現也由于模型 A9(在均勻噪聲上訓練和測試,100 epoch)。因此,當存在嚴重畸變時(shí),訓練更長(cháng)時(shí)間可能更有用,但將其它畸變集成到訓練過(guò)程中卻似乎并不具有普適的益處。此外,我們還發(fā)現,即使對于單個(gè)模型來(lái)說(shuō),在其所訓練的所有 8 種畸變上都達到較高的準確度也是可能(模型 C1 和 C2),但是對于剩下的兩種畸變(均勻噪聲或椒鹽噪聲),目標識別準確度卻僅有 11%-14%;比起在同一畸變上訓練得到的專(zhuān)用網(wǎng)絡(luò )(準確度超過(guò) 70%),這一準確度離隨機亂選要近得多。
總的來(lái)說(shuō),這些發(fā)現表明僅使用畸變來(lái)進(jìn)行數據增強可能不足以克服我們發(fā)現的泛化問(wèn)題。問(wèn)題也許應該變一變了——不再是「為什么 DNN 的泛化能力這么好(在獨立同分布條件下)?」[Zhang et al. (2016)],而變成「為什么 DNN 的泛化能力這么糟(在非獨立同分布條件下)?」目前被視為人類(lèi)目標識別的計算模型的 DNN 將如何解決這一難題?還有待未來(lái)研究。這個(gè)激動(dòng)人心的領(lǐng)域處于認知科學(xué)/視覺(jué)感知和深度學(xué)習領(lǐng)域的交叉點(diǎn),會(huì )從這兩個(gè)領(lǐng)域同時(shí)汲取靈感和新思想:計算機視覺(jué)的域適應子領(lǐng)域(參閱 Patel et al. (2015) 的綜述)正在研究不受輸入分布變化所影響的穩健型機器推理方法,同時(shí)人類(lèi)視覺(jué)研究領(lǐng)域也正在積累證據證明局部增益控制機制的優(yōu)勢。這些標準化過(guò)程似乎對動(dòng)物和人類(lèi)的穩健視覺(jué)的很多方面而言都至關(guān)重要 [Carandini and Heeger (2012)],也能預測人類(lèi)視覺(jué)數據 [Berardino et al. (2017); Schütt and Wichmann (2017)],并以證明可用于計算機視覺(jué) [Jarrett et al. (2009); Ren et al. (2016)]。神經(jīng)標準化過(guò)程與 DNN 的泛化能力之間是否存在關(guān)聯(lián)?這將是值得未來(lái)研究一個(gè)有趣方向。
5 總結
我們基于 12 種不同的圖像畸變,對人類(lèi)和 DNN 的目標識別穩健性進(jìn)行了行為比較。我們發(fā)現,與人類(lèi)觀(guān)察者相比,在 ImageNet 上訓練的三種知名 DNN(ResNet-152、GoogLeNet 和 VGG-19)的表現會(huì )隨著(zhù)圖像畸變所造成的信噪比的減小而迅速降低。此外,我們還發(fā)現當信號越來(lái)越弱時(shí),人類(lèi)與 DNN 的分類(lèi)誤差模式的差別會(huì )逐漸增大。我們在良好控制的實(shí)驗室條件下進(jìn)行了 82880 次心理物理學(xué)試驗,結果表明人類(lèi)與當前 DNN 處理目標信息的方式仍存在顯著(zhù)區別。在我們的設置中,這些區別無(wú)法通過(guò)在畸變圖像上進(jìn)行訓練(即數據增強)而克服:盡管 DNN 能完美應對其所訓練過(guò)的特定畸變,但對于它們之前未曾見(jiàn)過(guò)的畸變類(lèi)型,它們仍然束手無(wú)策。因為潛在畸變的類(lèi)型基本上是無(wú)窮無(wú)盡的(不管是理論上還是實(shí)際應用中都是如此),所以不可能在所有畸變上都訓練一遍。當超出常規的獨立同分布假設時(shí)(通常是不現實(shí)的),DNN 就會(huì )遇到泛化問(wèn)題。我們相信,不管是為了創(chuàng )造穩健的機器推理,還是為了更好地理解人類(lèi)目標識別,解決這一泛化問(wèn)題都至關(guān)重要。我們希望我們的發(fā)現以及我們精心測量并免費公開(kāi)的行為數據能為 DNN 穩健性的提升提供一個(gè)有用的新基準,并能激勵神經(jīng)科學(xué)家找到大腦中負責這一出色的穩健性機制。
評論