馬賽克變高清,谷歌將SR3、CDM相結合,推出超分辨率新方法
谷歌的研究者用兩種有關(guān)聯(lián)的方法提升了擴散模型的圖像合成質(zhì)量。
自然圖像合成作為一類(lèi)機器學(xué)習 (ML) 任務(wù),具有廣泛的應用,也帶來(lái)了許多設計挑戰。例如圖像超分辨率,需要訓練模型將低分辨率圖像轉換為高分辨率圖像。從修復老照片到改進(jìn)醫學(xué)成像系統,超分辨率有著(zhù)非常重要的作用。
另一個(gè)圖像合成任務(wù)是類(lèi)條件圖像生成,該任務(wù)訓練模型以從輸入類(lèi)標簽生成樣本圖像。生成的樣本圖像可用于提高下游模型的圖像分類(lèi)、分割等性能。
通常,這些圖像合成任務(wù)由深度生成模型執行,例如 GAN、VAE 和自回歸模型。然而,當經(jīng)過(guò)訓練以在高分辨率數據集上合成高質(zhì)量樣本時(shí),這些生成模型都有其缺點(diǎn)。例如,GAN 經(jīng)常遭受不穩定的訓練和模式崩潰,而自回歸模型通常會(huì )遭受合成速度緩慢的問(wèn)題。
最初于 2015 年提出的擴散模型由于其訓練穩定性和對圖像的有希望的樣本質(zhì)量結果,最近重新引起了人們的興趣 。因此,與其他類(lèi)型的深度生成模型相比,它們提供了潛在的有利權衡。擴散模型通過(guò)逐漸添加高斯噪聲來(lái)破壞訓練數據,慢慢消除數據中的細節直到它變成純噪聲,然后訓練神經(jīng)網(wǎng)絡(luò )來(lái)逆轉這種破壞過(guò)程。運行這個(gè)反向損壞過(guò)程通過(guò)逐漸去噪直到產(chǎn)生干凈的樣本來(lái)合成來(lái)自純噪聲的數據。該合成過(guò)程可以解釋為作為一種優(yōu)化算法,它遵循數據密度的梯度以生成可能的樣本。
近日,來(lái)自谷歌的研究者提出了兩種有關(guān)聯(lián)的方法,它們推動(dòng)了擴散模型的圖像合成質(zhì)量的界限——通過(guò)重復細化的超分辨率(SR3,Super-Resolution via Repeated Refinements)和一個(gè)類(lèi)條件合成模型,稱(chēng)為級聯(lián)擴散模型(CDM)。研究者表明,通過(guò)擴大擴散模型和精心挑選的數據增強技術(shù),新方法可以勝過(guò)現有的方法。具體來(lái)說(shuō),SR3 在人類(lèi)評估中獲得了超過(guò) GAN 的強大圖像超分辨率結果。CDM 生成的高保真 ImageNet 樣本在兩個(gè) FID 得分上均超過(guò) BigGAN-deep 和 VQ-VAE2。分類(lèi)準確率得分大幅提升。
SR3:圖像超分辨率
SR3 是一種超分辨率擴散模型,它以低分辨率圖像作為輸入,并從純噪聲中構建相應的高分辨率圖像。該模型在圖像損壞過(guò)程中進(jìn)行訓練,其中噪聲逐漸添加到高分辨率圖像中,直到只剩下純噪聲為止。然后它學(xué)習逆轉這個(gè)過(guò)程,從純噪聲開(kāi)始,并通過(guò)輸入低分辨率圖像的引導逐步去除噪聲以達到目標分布。
通過(guò)大規模訓練,當擴展到輸入低分辨率圖像的 4 倍到 8 倍的分辨率時(shí),SR3 在人臉和自然圖像的超分辨率任務(wù)上取得了強大的基準測試結果。這些超分辨率模型可以進(jìn)一步級聯(lián)在一起以增加有效的超分辨率比例因子,例如,將 64x64 → 256x256 和 256x256 → 1024x1024 人臉超分辨率模型堆疊在一起,以執行 64x64 → 1024x1024 的超分辨率任務(wù)。
研究者將 SR3 與現有方法進(jìn)行比較,并進(jìn)行了一項雙重強制選擇實(shí)驗,要求受試者在參考高分辨率圖像和被問(wèn)及以下問(wèn)題時(shí)的模型輸出之間進(jìn)行選擇:「你猜是相機拍的嗎?」該研究通過(guò)混淆率(confusion rate)來(lái)衡量模型的性能(評估者選擇模型輸出而不是參考圖像的時(shí)間百分比,其中完美的算法將實(shí)現 50% 的混淆率)。這項研究的結果如下圖所示。
上圖:該研究在 16x16 → 128x128 人臉的任務(wù)上實(shí)現了接近 50% 的混淆率,優(yōu)于 SOTA 人臉超分辨率方法 PULSE 和 FSRGAN。下圖:該方法還在 64x64 → 256x256 自然圖像這一更困難的任務(wù)上實(shí)現了 40% 的混淆率,大大優(yōu)于回歸基線(xiàn)。
實(shí)驗結果
自然圖像:圖 3 給出了 ImageNet 開(kāi)發(fā)集上 64×64 → 256×256 的超分辨率自然圖像示例,以及用于更精細檢查的放大 patch?;€(xiàn)回歸模型生成的圖像忠實(shí)于輸入,但模糊且缺乏細節。相比之下,SR3 產(chǎn)生的圖像清晰,細節更豐富。
圖 3:SR3 模型(64×64 → 256×256)的結果,模型在 ImageNet 上訓練并在兩個(gè) ImageNet 測試圖像上進(jìn)行評估。
人臉圖像:圖 4 顯示了兩個(gè)測試圖像上的人臉超分辨率模型(64×64 → 512×512)的輸出,并放大了選定 patch。使用 8 倍的放大因子可以清楚地看到推斷的詳細結構。注意由于放大因子很大,因此有很多似是而非的輸出,因此我們不期望輸出與參考圖像完全匹配。
圖 4:SR3 模型(64×64 → 512×512)的結果,在 FFHQ 上訓練并應用于訓練集之外的圖像,以及放大的 patch 以顯示更精細的細節。
表 1 顯示了 16×16 → 128×128 人臉超分辨率的 PSNR、SSIM [59] 和 Consistency 分數。SR3 在 PSNR 和 SSIM 上的表現優(yōu)于 PULSE 和 FSRGAN,而在回歸基準上的表現則遜色。先前的工作 [7, 8, 28] 觀(guān)察到,當輸入分辨率低且放大因子大時(shí),這些傳統的自動(dòng)評估措施與人類(lèi)感知的相關(guān)性不佳。這并不奇怪,因為這些指標往往會(huì )懲罰與目標圖像不完全對齊的任何合成高頻細節。
表 1:16×16 → 128×128 人臉超分辨率下的 PSNR 和 SSIM。
由于生成完美對齊的高頻細節,例如,圖 4 中完全相同的發(fā)束和圖 3 中相同的豹斑,幾乎是不可能的,因此 PSNR 和 SSIM 往往基于 MSE 回歸的技術(shù),這些技術(shù)對高頻保守細節。對于 ImageNet 超分辨率 (64×64 → 256×256),表 2 進(jìn)一步證實(shí)了這一點(diǎn),其中 SR3 的輸出實(shí)現了更高的樣本質(zhì)量分數(FID 和 IS),但 PSNR 和 SSIM 比回歸差。
表 2:使用在 ImageNet 驗證集上計算的標準指標,SR3 和回歸基線(xiàn)在自然圖像超分辨率上的性能比較。
受試者(subject) fool rate 是受試者選擇模型輸出而不是真實(shí)情況的試驗比例。每個(gè)模型的 fool rate 有 50 名受試者,每個(gè)人都看到了測試集中 100 張圖像中的 50 張。圖 6 顯示了 Task-1(頂部)和 Task-2(底部)的 fool rate。在這兩個(gè)實(shí)驗中,SR3 的 fool rate 接近 50%,表明 SR3 生成的圖像既逼真又忠實(shí)于低分辨率輸入。
圖 6:人臉超分辨率人類(lèi) fool rates(越高越好,照片逼真的樣本產(chǎn)生 50% 的 fool rate)。將 4 個(gè)模型的輸出與真實(shí)情況進(jìn)行比較。(頂部)對象顯示為低分辨率輸入, (底部)未顯示輸入。
CDM:類(lèi)條件 ImageNet 生成
上面展示了 SR3 在生成超分辨率自然圖像的有效性,更近一步的,研究者使用 SR3 模型來(lái)生成類(lèi)條件圖像。CDM 是在 ImageNet 數據集上訓練的類(lèi)條件擴散模型,用于生成高分辨率的自然圖像。由于 ImageNet 是一個(gè)難度較高、熵較高的數據集,因此研究者將 CDM 構建為多個(gè)擴散模型的級聯(lián)。
這種級聯(lián)方法涉及在多個(gè)空間分辨率上級聯(lián)多個(gè)生成模型:一個(gè)擴散模型以低分辨率生成數據,然后是一系列 SR3 超分辨率擴散模型,這種級聯(lián)模型將生成圖像的分辨率提高到最高分辨率。眾所周知,級聯(lián)可以提高高分辨率數據的質(zhì)量和訓練速度。正如定量評估結果所證明的那樣,CDM 進(jìn)一步突出了擴散模型中級聯(lián)對樣本質(zhì)量和下游任務(wù)(例如圖像分類(lèi))有效性。
一系列擴散模型的級聯(lián) pipeline 示例:第一個(gè)是生成低分辨率圖像,其余圖片是執行上采樣到最終高分辨率圖像。這里 pipeline 用于類(lèi)條件 ImageNet 生成,它從 32x32 分辨率的類(lèi)條件擴散模型開(kāi)始,然后是使用 SR3 生成分辨率是原始分辨率 2 倍和 4 倍的類(lèi)條件超分辨率圖像。
上圖為 256x256 級聯(lián)類(lèi)條件 ImageNet 模型中選擇生成的圖像。
除了在級聯(lián) pipeline 中包含 SR3 模型外,該研究還引入了一種新的數據增強技術(shù):條件增強,它進(jìn)一步提高了 CDM 生成的樣本質(zhì)量。雖然 CDM 中的超分辨率模型是在原始圖像上訓練的,但在生成階段,需要對低分辨率基礎模型生成的圖像進(jìn)行超分辨率處理。這導致超分辨率模型「訓練 - 測試」不匹配。
條件增強是指對級聯(lián) pipeline 中每個(gè)超分辨率模型的低分辨率輸入圖像進(jìn)行數據增強。這些數據增強包括高斯噪聲和高斯模糊,以防止每個(gè)超分辨率模型對其低分辨率條件輸入過(guò)擬合,最終得到更好的高分辨率 CDM 樣本質(zhì)量。
實(shí)驗結果
下表為級聯(lián)擴散模型 (CDM) 的主要結果,主要針對 64×64、 128×128、256×256 ImageNet 數據集分辨率以及基線(xiàn)的結果。
下表為在 128×128 、256×256 分辨率下,模型分類(lèi)準確率得分(Classification Accuracy Score,CAS)結果:
表 2b 和圖 7 為 16×16→64×64 級聯(lián) pipeline 結果。結果發(fā)現如果沒(méi)有條件增強,級聯(lián) pipeline 獲得的樣本質(zhì)量低于非級聯(lián)基線(xiàn) 64×64 模型,以 FID 得分為例,得分從 2.35 增加到 6.02。
圖 7:消融實(shí)驗,小規模 16×16→64×64pipeline 在不同數量的條件增強下生成的圖形。如表 2b 所示。
表 4a 為 64×64→256×256 超分辨率模型應用高斯模糊增強的結果。表 4b 顯示了超分辨率模型在類(lèi)條件、大批量訓練和隨機翻轉增強方面的進(jìn)一步改進(jìn)。
總之,CDM 生成的高保真樣本在類(lèi)條件 ImageNet 生成的 FID 得分和分類(lèi)準確率得分方面均優(yōu)于 BigGAN-deep 和 VQ-VAE-2。CDM 是一種純生成模型,與 ADM 和 VQ-VAE-2 等其他模型不同,它不使用分類(lèi)器來(lái)提高樣本質(zhì)量。
對于不使用額外分類(lèi)器來(lái)提高樣本質(zhì)量的方法,類(lèi)條件 ImageNet 在 256x256 分辨率下的 FID 得分結果(值越低越好)。
ImageNet 在 256x256 分辨率下的分類(lèi)準確率得分,與現有方法相比,CDM 生成的數據獲得了顯著(zhù)的增益,縮小了真實(shí)數據和生成數據之間的分類(lèi)準確率差距(值越高越好)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。