兩個(gè)指標讓GAN訓練更有效
生成對抗網(wǎng)絡(luò )(GAN)是當今最流行的圖像生成方法之一,但評估和比較 GAN 產(chǎn)生的圖像卻極具挑戰性。之前許多針對 GAN 合成圖像的研究都只用了主觀(guān)視覺(jué)評估,一些定量標準直到最近才開(kāi)始出現。本文認為現有指標不足以評估 GAN 模型,因此引入了兩個(gè)基于圖像分類(lèi)的指標——GAN-train 和 GAN-test,分別對應 GAN 的召回率(多樣性)和精確率(圖像質(zhì)量)。研究者還基于這兩個(gè)指標評估了最近的 GAN 方法并證明了這些方法性能的顯著(zhù)差異。上述評估指標表明,數據集復雜程度(從 CIFAR10 到 CIFAR100 再到 ImageNet)與 GAN 質(zhì)量呈負相關(guān)關(guān)系。
本文引用地址:http://dyxdggzs.com/article/201808/391337.htm生成對抗網(wǎng)絡(luò )(GAN)[19] 是由一對存在競爭關(guān)系的神經(jīng)網(wǎng)絡(luò )——生成器和判別器——組成的深度神經(jīng)網(wǎng)絡(luò )架構。通過(guò)交替優(yōu)化兩個(gè)目標函數訓練該模型,這樣可以讓生成器 G 學(xué)會(huì )產(chǎn)生與真實(shí)圖像類(lèi)似的樣本,還能讓判別器 D 學(xué)會(huì )更好地甄別真假數據。這種范式潛力巨大,因為它可以學(xué)會(huì )生成任何數據分布。這種模型已經(jīng)在一些計算機視覺(jué)問(wèn)題上取得了一定成果,例如文本到圖像的轉換 [56] 和圖像到圖像的轉換 [24,59]、超分辨率 [31] 以及逼真的自然圖像生成 [25]。
自從提出了 GAN 模型后,近幾年間出現了許多變體,如以提升生成圖像質(zhì)量為目的的 GAN 模型 [12,15,25,36] 和以穩定訓練過(guò)程為目的的 GAN 模型 [7,9,20,34,36,40,57]。通過(guò)調整附加信息(如類(lèi)別標簽),GAN 還可以被修改為生成給定類(lèi)別圖像的網(wǎng)絡(luò ) [16,35,37,41]。實(shí)現這一想法有許多方法:連結標簽 y 和生成器的輸入 z 或中間特征映射 [16,35],使用條件批歸一化 [37] 以及用輔助分類(lèi)器增強鑒別器 [41]。隨著(zhù)這些方法的提出,有一個(gè)問(wèn)題就變得重要了起來(lái):該如何評價(jià)和比較這些模型呢?
評估和比較 GAN,或者說(shuō)評估和比較 GAN 產(chǎn)生的圖像,是一件極具挑戰性的事,部分原因是缺乏明確的、在可比較概率模型中常用的似然方法 [51]。因此,之前許多針對 GAN 合成的圖像的工作都只用了主觀(guān)視覺(jué)評估。如圖 1 所示,當前最佳 GAN 生成圖像的樣本 [36],用主觀(guān)評估方法無(wú)法精確評估圖像質(zhì)量。近兩年的研究已經(jīng)開(kāi)始嘗試通過(guò)定量方法評估 GAN[22,25,32,46]。

圖 1:當前最佳 GAN 模型(如 SNGAN)[36] 生成逼真圖像,這些圖像難以用主觀(guān)評估法與真實(shí)圖像進(jìn)行比較。我們的基于準確率的圖像分類(lèi)新方法解決了這個(gè)問(wèn)題,并展示了真實(shí)圖像和生成圖像間的顯著(zhù)差異。
將 Inception 分數(IS)[46] 和 Fr′echet Inception 距離(FID)[22] 作為與生成圖像視覺(jué)質(zhì)量相關(guān)的臨時(shí)指標。IS 通過(guò)計算圖像產(chǎn)生的 (logit) 響應和邊際分布(即在 ImageNet 上訓練出來(lái)的 Inception 網(wǎng)絡(luò )生成的全部圖像的平均響應)之間的 KL 散度衡量生成圖像的質(zhì)量。換句話(huà)說(shuō),IS 無(wú)法與目標分布的樣本進(jìn)行比較,僅可用于量化生成樣本的多樣性。FID 比較的是真實(shí)圖像和生成圖像間的 Inception 激活值(Inception 網(wǎng)絡(luò )中倒數第二層的響應)。但這樣的比較將真實(shí)圖像和生成圖像的激活值近似為高斯分布(參見(jiàn)等式(2)),計算其平均值和方差,但因為太過(guò)粗糙而無(wú)法捕捉其細節。這些評估方法都依賴(lài)于經(jīng)過(guò) ImageNet 預訓練的 Inception 網(wǎng)絡(luò ),這對其他數據集(如面部數據集和生物醫學(xué)成像數據集)來(lái)說(shuō)遠不夠理想??偠灾?,IS 和 FID 是評估訓練進(jìn)展的有用指標,但它們無(wú)法評估真實(shí)世界中的任務(wù)。正如我們在第 5 節中討論的那樣,與我們的指標(以表 2 中的 SNGAN 和 WPGAN-GP(10M)為例)不同,這些指標不足以精確地區別出當前最佳的 GAN 模型。
還有一種評估方法是根據精確率和召回率計算生成樣本到真實(shí)數據流形間的距離 [32]。高精確率意味著(zhù)生成樣本與數據流形很接近,而高召回率意味著(zhù)生成器的輸出樣本很好地覆蓋了流形。這些指標還是很理想主義的,因為無(wú)法在流形未知的自然圖像數據上進(jìn)行計算。實(shí)際上,[32] 中的評估方法也只能用在由灰度三角形組成的合成數據中。另一種用于比較 GAN 模型距離的是 SWD[25]。SWD 是真實(shí)圖像和生成圖像間的 Wasserstein-1 距離的估計值,它計算的是從圖像的 Laplacian 金字塔表征中提取的局部圖像之間的數據相似性。正如第 5 節所說(shuō),SWD 的信息量低于我們的評價(jià)指標。
我們在本文中提出了新的評價(jià)指標,是用 GAN-train 分數和 GAN-test 分數比較類(lèi)條件的 GAN 架構。對于這兩種指標,我們都依賴(lài)神經(jīng)網(wǎng)絡(luò )架構來(lái)進(jìn)行圖像分類(lèi)。為了計算 GAN-train,我們用 GAN 生成的圖像訓練了分類(lèi)網(wǎng)絡(luò ),然后在由真實(shí)圖像組成的測試集上評估了其表現。直接地說(shuō),這度量了學(xué)習到的(生成圖像)分布和目標(真實(shí)圖像)分布間的差異??梢缘贸鼋Y論:如果學(xué)習用于區分針對不同類(lèi)別的生成圖像特征的分類(lèi)網(wǎng)絡(luò )可以對真實(shí)圖像進(jìn)行正確分類(lèi),那么生成圖像與真實(shí)圖像相似。換句話(huà)說(shuō),GAN-train 類(lèi)似于召回率度量,因為 GAN-train 表現好意味著(zhù)生成的樣本足夠多樣化。但是,GAN-train 也需要足夠的精確率,否則分類(lèi)器會(huì )受到樣本質(zhì)量的影響。
我們的第二個(gè)指標,GAN-test,是在真實(shí)圖像上訓練并在生成圖像上評估得到的網(wǎng)絡(luò )的準確率。該指標與精確率類(lèi)似,值比較高意味著(zhù)生成的樣本與(未知)自然圖像分布近似。除了這兩個(gè)指標外,我們還研究了 GAN 生成圖像在強化訓練數據方面的作用??梢詫⑵湟暈楹饬可蓤D像多樣性的指標。我們在圖 1 中用 GAN-train 指標闡明了我們的評估方法的效果,尤其是在主觀(guān)評價(jià)不充分的情況下。我們將在第 3 節討論這些評估指標的細節。
正如第 5 節中廣泛的實(shí)驗結果以及補充材料和技術(shù)報告中的附錄 [5] 所示,與之前討論的所有評估指標相比(包括沒(méi)有得出結論的人類(lèi)研究),這些指標在評估 GAN 方面的信息要豐富得多。尤其是我們還對當前最佳的兩個(gè) GAN 模型(WGAN-GP[20] 和 SNGAN[36])以及其他一些生成模型 [45,47] 進(jìn)行了評估,以提供基線(xiàn)比較。用 MNIST[30]、CIFAR10、CIFAR100[28] 和 ImageNet[14] 數據集評估了圖像分類(lèi)表現。實(shí)驗結果表明,隨著(zhù)數據集復雜度的增加,GAN 圖像的質(zhì)量顯著(zhù)降低。
論文:How good is my GAN?

論文鏈接:https://arxiv.org/pdf/1807.09499.pdf
摘要:生成對抗網(wǎng)絡(luò )(GAN)是當今最流行的圖像生成方法之一。盡管已經(jīng)有了不少可以直觀(guān)感受到的令人印象深刻的成果,但一些定量標準直到最近才出現。我們認為現有指標不足以評估模型,因此在本文中引入了兩個(gè)基于圖像分類(lèi)的指標——GAN-train 和 GAN-test,這兩個(gè)指標分別對應的是 GAN 的召回率(多樣性)和精確率(圖像質(zhì)量)。我們基于這兩個(gè)指標評估了最近的 GAN 方法并證明了這些方法性能的顯著(zhù)差異。此外,我們的評估指標清楚地表明,數據集復雜程度(從 CIFAR10 到 CIFAR100 再到 ImageNet),與 GAN 質(zhì)量呈負相關(guān)關(guān)系。
3. GAN-train 和 GAN-test
條件 GAN 模型的一個(gè)重要特征是生成的圖像不僅要逼真,還要能辨識出屬于一個(gè)給定的類(lèi)別。一個(gè)可以完美捕獲目標分布的理想 GAN 可以生成一個(gè)新的圖像數據集 S_g,這個(gè)數據集與原始的訓練集 S_t 沒(méi)什么區別。假設這些數據集大小相同,根據這兩個(gè)數據集中的任意一個(gè)訓練出來(lái)的分類(lèi)器應該有同樣的驗證準確率。當數據集足夠簡(jiǎn)單(例如 MNIST[48])時(shí)確實(shí)是這樣(見(jiàn) 5.2 節)。在這種最佳 GAN 特性的推動(dòng)下,我們設計了兩個(gè)分數來(lái)評估 GAN,如圖 2 所示。

圖 2:GAN-train 和 GAN-test 圖示。GAN-train 根據 GAN 生成圖像訓練了一個(gè)分類(lèi)器,并在真實(shí)圖像上進(jìn)行測試。該指標評估了 GAN 生成圖像的多樣性和真實(shí)性。GAN-test 根據真實(shí)圖像訓練了分類(lèi)器,并在 GAN 生成圖像上進(jìn)行評估。該指標評估了 GAN 生成圖像的真實(shí)性。
GAN-train 是在 S_g 上訓練,在由真實(shí)圖像組成的驗證集 S_v 上測試的分類(lèi)器的準確率。當 GAN 不夠好的時(shí)候,GAN-train 會(huì )比在 S_t 上訓練出來(lái)的分類(lèi)器的驗證準確率低。造成這種情況的原因有很多,例如,(i)與 S_t 相比,模式下降導致 S_g 的多樣性降低;(ii)生成樣本不夠逼真,以至于分類(lèi)器無(wú)法學(xué)到相關(guān)特征;(iii)GAN 可以將類(lèi)別混在一起并混淆分類(lèi)器。不幸的是,我們無(wú)法確定 GAN 的問(wèn)題在哪。當 GAN-train 的準確率與驗證集的準確率相近時(shí),意味著(zhù) GAN 產(chǎn)生的圖像質(zhì)量很高且和訓練集一樣多樣化。正如我們在 5.3 節中所說(shuō)的那樣,多樣性會(huì )隨著(zhù)生成圖像數量的變化而變化。我們將在本節末尾的評價(jià)討論中對其進(jìn)行分析。
GAN-test 是在原始訓練集 S_t 上訓練,但在 S_g 上測試得到的分類(lèi)器的準確率。如果 GAN 能很好地進(jìn)行學(xué)習,這就會(huì )是一項簡(jiǎn)單的任務(wù),因為這兩個(gè)數據集的分布是一樣的。理想情況下,GAN-test 應該和驗證準確率相近。如果 GAN-test 明顯高了,那就意味著(zhù) GAN 過(guò)擬了,即它只是簡(jiǎn)單地記住了訓練集。相反,如果 GAN-test 明顯低了,則說(shuō)明 GAN 無(wú)法很好地捕獲目標分布且 GAN 生成的圖像質(zhì)量堪憂(yōu)。注意,該指標無(wú)法說(shuō)明樣本的多樣性,因為可以完美記憶每一個(gè)訓練圖像的模型可以得到很高的分數。GAN-test 與 [32] 中的精確度相關(guān),它量化了生成圖像與數據流形之間的接近程度。
為了深入了解 GAN 生成圖像的多樣性,我們通過(guò)大小不同的生成圖像數據集得到了 GAN-train 準確率,將其與根據相應大小的真實(shí)數據訓練得到的分類(lèi)器的驗證準確率相比較。如果所有的生成圖像都是完美的,GAN-train 的 S_g(其中 GAN-train 等于小尺寸訓練集的驗證精度)的大小將會(huì )是 S_g 中不同圖像數量的良好估計。我們在實(shí)踐中觀(guān)察到,在 GAN 生成樣本數量確定的情況下,GAN-train 準確率是飽和的(見(jiàn)第 5.3 節中的圖 4(a)和 4(b))。這是一種度量 GAN 多樣性的方法,與 [32] 中的召回率相似,都是度量 GAN 覆蓋的數據流形的分數的方法。
5. 實(shí)驗

表 1:CIFAR10 實(shí)驗。IS:越高越好。FID 和 SWD:越低越好。為了提高可讀性,此處的 SWD 值擴大了 1000 倍。GAN-train 和 GAN-test 是以百分比形式給出的準確率(越高越好)。

圖 3:第一列:SNGAN 生成的圖像。其他列:來(lái)自 CIFAR10「train」的 5 幅圖像,最接近基線(xiàn) CIFAR10 分類(lèi)器特征空間中第一列的 GAN 圖像。

表 2:CIFAR100 實(shí)驗。細節參考表 1 標題。

表 3:ImageNet 實(shí)驗。SNGAN* 指經(jīng)過(guò) 850k 次迭代訓練得到的模型。細節參考表 1 標題。

圖 4:改變生成圖像數據集大小對 GAN-train 準確率產(chǎn)生的影響。為了便于比較,我們還展示改變真實(shí)圖像訓練數據集大小對結果(藍色曲線(xiàn))產(chǎn)生的影響(最好以 pdf 格式查看)。

圖 5:用真實(shí)圖像和 SNGAN 生成的圖像結合的數據集訓練分類(lèi)器的結果。

表 4:用縮減的真實(shí)圖像數據集訓練的 SNGAN 的數據強化。在真實(shí)圖像數據集或真實(shí)圖像和 SNGAN 生成的圖像相結合的數據集(real+GAN)上訓練得到的分類(lèi)器。分類(lèi)器準確率以百分數形式表示。
評論