ICLR 2021 | 協(xié)同調制生成對抗網(wǎng)絡(luò ),輕松幫你實(shí)現任意大區域圖像填充
編者按:圖像填充是深度學(xué)習領(lǐng)域內的一個(gè)熱點(diǎn)任務(wù)。盡管現有方法對于小規模、稀疏區域的填充可以取得不錯的效果,但對于大規模的缺失區域始終無(wú)能為力。為解決這一問(wèn)題,微軟亞洲研究院提出了協(xié)同調制生成式對抗網(wǎng)絡(luò )——一種通用的方法,跨越了條件與無(wú)條件圖像生成領(lǐng)域之間的鴻溝。這一方法不但能夠高質(zhì)量、多樣地填充圖像任意規模的缺失區域,同時(shí)也能被應用于更廣泛的圖像轉換任務(wù)。此外,考慮到圖像填充領(lǐng)域內缺乏良好的指標,研究員們還提出了配對/無(wú)配對感知器辨別分數(P-IDS/U-IDS)以更加魯棒、直觀(guān)、合理地衡量模型性能。該相關(guān)工作已被 ICLR 2021 接受為 Spotlight Presentation。
如何對殘缺圖像進(jìn)行修復?傳統方法需要使用修圖軟件中的畫(huà)筆、圖章、加深減淡……等工具,如果有美觀(guān)/美顏的需求,還得請“專(zhuān)家”上手。近日,微軟亞洲研究院的研究員們在 ICLR 2021 大會(huì )上發(fā)表了一項工作:“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”(通過(guò)協(xié)同調制生成對抗網(wǎng)絡(luò )進(jìn)行大規模圖像填充),能夠實(shí)現一鍵修圖。
讓我們先來(lái)看看它的修復“手藝”吧!
下面這兩張圖片,左圖是原圖,右圖是修復過(guò)的圖像。與左圖相比,右圖中的裂縫是不是沒(méi)有了?
不僅如此,遮擋物也能修復!將左邊的原圖經(jīng)過(guò)處理后,右圖呈現出的景物更加完整。
殘缺的圖片也可以自動(dòng)補全啦!原來(lái)破敗的房子,處理之后,煥然一新。
現在這項研究成果已經(jīng)可以在線(xiàn)體驗啦!點(diǎn)擊閱讀原文,即可上手嘗試。
技術(shù)思想:圖像生成能力
事實(shí)上,圖像填充是深度學(xué)習領(lǐng)域內的一個(gè)熱點(diǎn)任務(wù)。盡管現有方法對于小規模、稀疏區域的填充可以取得不錯的效果,但對于大規模的缺失區域始終無(wú)能為力。為解決這一問(wèn)題,微軟亞洲研究院的研究員們提出了協(xié)同調制生成式對抗網(wǎng)絡(luò ),其研究主要思想是:解決大規模圖像填充的關(guān)鍵在于需要充分的圖像生成能力。
考慮一個(gè)極端情況——如果一張圖像絕大部分的面積被遮擋,那么這一情況下圖像填充的難度就幾乎等價(jià)于無(wú)條件的圖像生成。由此可以推斷,充足的圖像生成能力將能夠極大地助力大區域的圖像填充。
當前,越來(lái)越多基于條件生成對抗網(wǎng)絡(luò )(conditional GAN)的圖像填充方法被提出。因為這一任務(wù)極具挑戰性,大量研究者都在針對這一具體任務(wù)來(lái)優(yōu)化網(wǎng)絡(luò )結構,如利用中間表征信息(邊緣、結構等)來(lái)構建多階段的生成網(wǎng)絡(luò )。但即便如此,這些方法在面對大規模的缺失區域時(shí)仍然無(wú)法生成合理的、與已知部分協(xié)調的圖像內容。而利用圖像的生成能力則能夠在一定程度上解決這個(gè)挑戰。
技術(shù)核心:協(xié)同調制生成對抗網(wǎng)絡(luò )
目前,以 StyleGAN、BigGAN 為代表的無(wú)條件生成對抗網(wǎng)絡(luò )借助調制(modulation)的方法(如圖1 (a)),可以在無(wú)條件圖像生成任務(wù)(如隨機生成人臉)中取得非常好的結果。然而,在以圖像為條件的生成任務(wù)(如圖像填充)中,大多數工作仍然無(wú)法突破普通圖像條件生成器(圖1 (b))帶來(lái)的瓶頸。即便有些工作嘗試利用輸入圖片進(jìn)行條件調制(圖1 (c)),但這種完全依賴(lài)于條件輸入、缺乏隨機性的生成器結構導致其無(wú)法泛化到需要弱條件生成能力的任務(wù)上,尤其是大區域的圖像填充。
圖1:不同生成式網(wǎng)絡(luò )架構對比——(a) 無(wú)條件調制生成器,(b) 普通圖像條件生成器,(c) 有條件調制生成器,(d) 協(xié)同調制生成器。
因此,微軟亞洲研究院的研究員們提出了協(xié)同調制生成對抗網(wǎng)絡(luò )(如圖1 (d)),協(xié)同地將條件輸入與隨機潛矢量經(jīng)過(guò)映射網(wǎng)絡(luò )產(chǎn)生的風(fēng)格表征對每個(gè)卷積層進(jìn)行調制,從而跨越了條件與無(wú)條件圖像生成領(lǐng)域之間的鴻溝,輕松實(shí)現任意大區域的圖像填充(見(jiàn)圖2、圖3),并能夠應用于更一般的圖像轉換(image-to-image translation)任務(wù)中(圖4)。
圖2:從小規模(左)到大規模(右)的缺失區域,協(xié)同調制生成對抗網(wǎng)絡(luò )始終可以創(chuàng )作出高質(zhì)量、多樣的填充內容。
圖3:不同圖像填充方法之間的比較。協(xié)同調制生成對抗網(wǎng)絡(luò )的填充結果(右一)顯著(zhù)優(yōu)于其它經(jīng)典方法,即使面對大面積且不規則的缺失區域,它的效果依舊出色。
圖4:協(xié)同調制生成對抗網(wǎng)絡(luò )應用于圖像轉換任務(wù)。在 Edges2Handbags 數據集上,協(xié)同調制生成對抗網(wǎng)絡(luò )表現出嚴格優(yōu)于其它經(jīng)典方法的圖像質(zhì)量(FID)與圖像多樣性(LPIPS)之間的權衡曲線(xiàn)。
技術(shù)評價(jià):配對/無(wú)配對感知器辨別分數
研究員們還注意到圖像填充領(lǐng)域內缺乏良好的評價(jià)指標。此前的研究多采用像素級相似度指標(如 l_1、l_2、SSIM、PSNR 等)或直接采用圖像生成領(lǐng)域內如 FID、KID 等的指標。前者更加青睞模糊的生成圖像,而后者則完全忽略了圖像的配對關(guān)系(原圖像—填充后圖像)。
因此,研究員們提出了新的配對/無(wú)配對感知器辨別分數(P-IDS/U-IDS),通過(guò)計算生成圖像與真實(shí)圖像在感知器特征空間中的線(xiàn)性可分程度,反映了生成圖像的保真度。實(shí)驗驗證了該指標的魯棒性、直觀(guān)性、與合理性:
1)P-IDS/U-IDS 在少量數據的情況下能夠快速收斂(如圖5);
2)P-IDS 能夠敏銳地捕捉圖像的微小差距(如圖6);
3)P-IDS 與人類(lèi)偏好有著(zhù)高相關(guān)度——FID 與人類(lèi)偏好的負相關(guān)度為0.765,而 P-IDS 的正相關(guān)度高達0.870。
圖5:相較于 FID,P-IDS/U-IDS 在數據量少的情況下收斂迅速。
圖6:P-IDS 能夠捕捉圖像的細微差距。在 512×512 大小的圖像中,一定數量(橫軸)的像素被刪除并進(jìn)行了最近鄰插值。
協(xié)同調制填補了條件與無(wú)條件圖像生成之間的空缺,可輕松實(shí)現任意大區域的圖像補全,還可以被拓展至更廣泛的圖像轉換任務(wù)。同時(shí),配對/無(wú)配對感知器辨別分數(P-IDS/U-IDS)評價(jià)指標的諸多良好性能也使其在領(lǐng)域內有著(zhù)極高的潛力。研究員們希望協(xié)同調制生成對抗網(wǎng)絡(luò )架構能夠成為領(lǐng)域內的基準方法,繼續推動(dòng)這一領(lǐng)域的前進(jìn)。
論文:Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
論文鏈接:https://arxiv.org/pdf/2103.10428
GitHub:https://github.com/zsyzzsoft/co-mod-gan
Demo:http://comodgan.ml/
本文作者:趙晟宇、崔仁、盛翊倫、董玥、梁霄、張益肇、許燕
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。