<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 馬賽克變高清，谷歌將SR3、CDM相結合，推出超分辨率新方法

馬賽克變高清，谷歌將SR3、CDM相結合，推出超分辨率新方法

發(fā)布人：機器之心時(shí)間：2021-10-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

谷歌的研究者用兩種有關(guān)聯(lián)的方法提升了擴散模型的圖像合成質(zhì)量。

自然圖像合成作為一類(lèi)機器學(xué)習 (ML) 任務(wù)，具有廣泛的應用，也帶來(lái)了許多設計挑戰。例如圖像超分辨率，需要訓練模型將低分辨率圖像轉換為高分辨率圖像。從修復老照片到改進(jìn)醫學(xué)成像系統，超分辨率有著(zhù)非常重要的作用。

另一個(gè)圖像合成任務(wù)是類(lèi)條件圖像生成，該任務(wù)訓練模型以從輸入類(lèi)標簽生成樣本圖像。生成的樣本圖像可用于提高下游模型的圖像分類(lèi)、分割等性能。

通常，這些圖像合成任務(wù)由深度生成模型執行，例如 GAN、VAE 和自回歸模型。然而，當經(jīng)過(guò)訓練以在高分辨率數據集上合成高質(zhì)量樣本時(shí)，這些生成模型都有其缺點(diǎn)。例如，GAN 經(jīng)常遭受不穩定的訓練和模式崩潰，而自回歸模型通常會(huì )遭受合成速度緩慢的問(wèn)題。

最初于 2015 年提出的擴散模型由于其訓練穩定性和對圖像的有希望的樣本質(zhì)量結果，最近重新引起了人們的興趣。因此，與其他類(lèi)型的深度生成模型相比，它們提供了潛在的有利權衡。擴散模型通過(guò)逐漸添加高斯噪聲來(lái)破壞訓練數據，慢慢消除數據中的細節直到它變成純噪聲，然后訓練神經(jīng)網(wǎng)絡(luò )來(lái)逆轉這種破壞過(guò)程。運行這個(gè)反向損壞過(guò)程通過(guò)逐漸去噪直到產(chǎn)生干凈的樣本來(lái)合成來(lái)自純噪聲的數據。該合成過(guò)程可以解釋為作為一種優(yōu)化算法，它遵循數據密度的梯度以生成可能的樣本。

近日，來(lái)自谷歌的研究者提出了兩種有關(guān)聯(lián)的方法，它們推動(dòng)了擴散模型的圖像合成質(zhì)量的界限——通過(guò)重復細化的超分辨率（SR3，Super-Resolution via Repeated Refinements）和一個(gè)類(lèi)條件合成模型，稱(chēng)為級聯(lián)擴散模型（CDM）。研究者表明，通過(guò)擴大擴散模型和精心挑選的數據增強技術(shù)，新方法可以勝過(guò)現有的方法。具體來(lái)說(shuō)，SR3 在人類(lèi)評估中獲得了超過(guò) GAN 的強大圖像超分辨率結果。CDM 生成的高保真 ImageNet 樣本在兩個(gè) FID 得分上均超過(guò) BigGAN-deep 和 VQ-VAE2。分類(lèi)準確率得分大幅提升。

SR3：圖像超分辨率

SR3 是一種超分辨率擴散模型，它以低分辨率圖像作為輸入，并從純噪聲中構建相應的高分辨率圖像。該模型在圖像損壞過(guò)程中進(jìn)行訓練，其中噪聲逐漸添加到高分辨率圖像中，直到只剩下純噪聲為止。然后它學(xué)習逆轉這個(gè)過(guò)程，從純噪聲開(kāi)始，并通過(guò)輸入低分辨率圖像的引導逐步去除噪聲以達到目標分布。

通過(guò)大規模訓練，當擴展到輸入低分辨率圖像的 4 倍到 8 倍的分辨率時(shí)，SR3 在人臉和自然圖像的超分辨率任務(wù)上取得了強大的基準測試結果。這些超分辨率模型可以進(jìn)一步級聯(lián)在一起以增加有效的超分辨率比例因子，例如，將 64x64 → 256x256 和 256x256 → 1024x1024 人臉超分辨率模型堆疊在一起，以執行 64x64 → 1024x1024 的超分辨率任務(wù)。

研究者將 SR3 與現有方法進(jìn)行比較，并進(jìn)行了一項雙重強制選擇實(shí)驗，要求受試者在參考高分辨率圖像和被問(wèn)及以下問(wèn)題時(shí)的模型輸出之間進(jìn)行選擇：「你猜是相機拍的嗎？」該研究通過(guò)混淆率（confusion rate）來(lái)衡量模型的性能（評估者選擇模型輸出而不是參考圖像的時(shí)間百分比，其中完美的算法將實(shí)現 50% 的混淆率）。這項研究的結果如下圖所示。

上圖：該研究在 16x16 → 128x128 人臉的任務(wù)上實(shí)現了接近 50% 的混淆率，優(yōu)于 SOTA 人臉超分辨率方法 PULSE 和 FSRGAN。下圖：該方法還在 64x64 → 256x256 自然圖像這一更困難的任務(wù)上實(shí)現了 40% 的混淆率，大大優(yōu)于回歸基線(xiàn)。

實(shí)驗結果

自然圖像：圖 3 給出了 ImageNet 開(kāi)發(fā)集上 64×64 → 256×256 的超分辨率自然圖像示例，以及用于更精細檢查的放大 patch?；€(xiàn)回歸模型生成的圖像忠實(shí)于輸入，但模糊且缺乏細節。相比之下，SR3 產(chǎn)生的圖像清晰，細節更豐富。

圖 3：SR3 模型（64×64 → 256×256）的結果，模型在 ImageNet 上訓練并在兩個(gè) ImageNet 測試圖像上進(jìn)行評估。

人臉圖像：圖 4 顯示了兩個(gè)測試圖像上的人臉超分辨率模型（64×64 → 512×512）的輸出，并放大了選定 patch。使用 8 倍的放大因子可以清楚地看到推斷的詳細結構。注意由于放大因子很大，因此有很多似是而非的輸出，因此我們不期望輸出與參考圖像完全匹配。

圖 4：SR3 模型（64×64 → 512×512）的結果，在 FFHQ 上訓練并應用于訓練集之外的圖像，以及放大的 patch 以顯示更精細的細節。

表 1 顯示了 16×16 → 128×128 人臉超分辨率的 PSNR、SSIM [59] 和 Consistency 分數。SR3 在 PSNR 和 SSIM 上的表現優(yōu)于 PULSE 和 FSRGAN，而在回歸基準上的表現則遜色。先前的工作 [7, 8, 28] 觀(guān)察到，當輸入分辨率低且放大因子大時(shí)，這些傳統的自動(dòng)評估措施與人類(lèi)感知的相關(guān)性不佳。這并不奇怪，因為這些指標往往會(huì )懲罰與目標圖像不完全對齊的任何合成高頻細節。

表 1：16×16 → 128×128 人臉超分辨率下的 PSNR 和 SSIM。

由于生成完美對齊的高頻細節，例如，圖 4 中完全相同的發(fā)束和圖 3 中相同的豹斑，幾乎是不可能的，因此 PSNR 和 SSIM 往往基于 MSE 回歸的技術(shù)，這些技術(shù)對高頻保守細節。對于 ImageNet 超分辨率 (64×64 → 256×256)，表 2 進(jìn)一步證實(shí)了這一點(diǎn)，其中 SR3 的輸出實(shí)現了更高的樣本質(zhì)量分數（FID 和 IS），但 PSNR 和 SSIM 比回歸差。

表 2：使用在 ImageNet 驗證集上計算的標準指標，SR3 和回歸基線(xiàn)在自然圖像超分辨率上的性能比較。

受試者（subject） fool rate 是受試者選擇模型輸出而不是真實(shí)情況的試驗比例。每個(gè)模型的 fool rate 有 50 名受試者，每個(gè)人都看到了測試集中 100 張圖像中的 50 張。圖 6 顯示了 Task-1（頂部）和 Task-2（底部）的 fool rate。在這兩個(gè)實(shí)驗中，SR3 的 fool rate 接近 50%，表明 SR3 生成的圖像既逼真又忠實(shí)于低分辨率輸入。

圖 6：人臉超分辨率人類(lèi) fool rates（越高越好，照片逼真的樣本產(chǎn)生 50% 的 fool rate）。將 4 個(gè)模型的輸出與真實(shí)情況進(jìn)行比較。（頂部）對象顯示為低分辨率輸入，（底部）未顯示輸入。

CDM：類(lèi)條件 ImageNet 生成

上面展示了 SR3 在生成超分辨率自然圖像的有效性，更近一步的，研究者使用 SR3 模型來(lái)生成類(lèi)條件圖像。CDM 是在 ImageNet 數據集上訓練的類(lèi)條件擴散模型，用于生成高分辨率的自然圖像。由于 ImageNet 是一個(gè)難度較高、熵較高的數據集，因此研究者將 CDM 構建為多個(gè)擴散模型的級聯(lián)。

這種級聯(lián)方法涉及在多個(gè)空間分辨率上級聯(lián)多個(gè)生成模型：一個(gè)擴散模型以低分辨率生成數據，然后是一系列 SR3 超分辨率擴散模型，這種級聯(lián)模型將生成圖像的分辨率提高到最高分辨率。眾所周知，級聯(lián)可以提高高分辨率數據的質(zhì)量和訓練速度。正如定量評估結果所證明的那樣，CDM 進(jìn)一步突出了擴散模型中級聯(lián)對樣本質(zhì)量和下游任務(wù)（例如圖像分類(lèi)）有效性。

一系列擴散模型的級聯(lián) pipeline 示例：第一個(gè)是生成低分辨率圖像，其余圖片是執行上采樣到最終高分辨率圖像。這里 pipeline 用于類(lèi)條件 ImageNet 生成，它從 32x32 分辨率的類(lèi)條件擴散模型開(kāi)始，然后是使用 SR3 生成分辨率是原始分辨率 2 倍和 4 倍的類(lèi)條件超分辨率圖像。

上圖為 256x256 級聯(lián)類(lèi)條件 ImageNet 模型中選擇生成的圖像。

除了在級聯(lián) pipeline 中包含 SR3 模型外，該研究還引入了一種新的數據增強技術(shù)：條件增強，它進(jìn)一步提高了 CDM 生成的樣本質(zhì)量。雖然 CDM 中的超分辨率模型是在原始圖像上訓練的，但在生成階段，需要對低分辨率基礎模型生成的圖像進(jìn)行超分辨率處理。這導致超分辨率模型「訓練 - 測試」不匹配。

條件增強是指對級聯(lián) pipeline 中每個(gè)超分辨率模型的低分辨率輸入圖像進(jìn)行數據增強。這些數據增強包括高斯噪聲和高斯模糊，以防止每個(gè)超分辨率模型對其低分辨率條件輸入過(guò)擬合，最終得到更好的高分辨率 CDM 樣本質(zhì)量。

實(shí)驗結果

下表為級聯(lián)擴散模型 (CDM) 的主要結果，主要針對 64×64、 128×128、256×256 ImageNet 數據集分辨率以及基線(xiàn)的結果。

下表為在 128×128 、256×256 分辨率下，模型分類(lèi)準確率得分（Classification Accuracy Score，CAS）結果：

表 2b 和圖 7 為 16×16→64×64 級聯(lián) pipeline 結果。結果發(fā)現如果沒(méi)有條件增強，級聯(lián) pipeline 獲得的樣本質(zhì)量低于非級聯(lián)基線(xiàn) 64×64 模型，以 FID 得分為例，得分從 2.35 增加到 6.02。

圖 7：消融實(shí)驗，小規模 16×16→64×64pipeline 在不同數量的條件增強下生成的圖形。如表 2b 所示。

表 4a 為 64×64→256×256 超分辨率模型應用高斯模糊增強的結果。表 4b 顯示了超分辨率模型在類(lèi)條件、大批量訓練和隨機翻轉增強方面的進(jìn)一步改進(jìn)。

總之，CDM 生成的高保真樣本在類(lèi)條件 ImageNet 生成的 FID 得分和分類(lèi)準確率得分方面均優(yōu)于 BigGAN-deep 和 VQ-VAE-2。CDM 是一種純生成模型，與 ADM 和 VQ-VAE-2 等其他模型不同，它不使用分類(lèi)器來(lái)提高樣本質(zhì)量。

對于不使用額外分類(lèi)器來(lái)提高樣本質(zhì)量的方法，類(lèi)條件 ImageNet 在 256x256 分辨率下的 FID 得分結果（值越低越好）。

ImageNet 在 256x256 分辨率下的分類(lèi)準確率得分，與現有方法相比，CDM 生成的數據獲得了顯著(zhù)的增益，縮小了真實(shí)數據和生成數據之間的分類(lèi)準確率差距（值越高越好）。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 深度學(xué)習

相關(guān)推薦

深度學(xué)習（DeepLearning）

szhlss123 | 2022-08-17

Deep Learning中文版

資源下載深度學(xué)習中文 | 2019-06-11

一種改進(jìn)的可遷移深度學(xué)習模型*

智能計算 202210 可遷移深度學(xué)習無(wú)標簽 | 2022-10-25

為什么深度學(xué)習如此容易被愚弄？AI研究員正努力修復神經(jīng)網(wǎng)絡(luò )缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

深度學(xué)習（人工神經(jīng)網(wǎng)絡(luò )的研究的概念）

大綠葉 | 2020-07-28

TFLite模型的開(kāi)盲盒體驗

嵌入式系統 TFLite 模型推理庫深度學(xué)習 | 2024-05-10

AI深度學(xué)習

loof_lripa | 2024-04-20

深度學(xué)習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學(xué)習服務(wù)器部署 202212 | 2022-12-22

基于深度學(xué)習的跌倒檢測技術(shù)對比與分析*

智能計算深度學(xué)習跌倒檢測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)絡(luò ) 202212 | 2022-12-22

射頻系統的深度學(xué)習

資源下載 ADI RF DSP 深度學(xué)習 | 2020-04-20

基于圖結構的圖像注意力網(wǎng)絡(luò )

智能計算 202207 深度學(xué)習注意力機制圖像分類(lèi) 人臉識別 | 2022-07-26

深度強化學(xué)習核心技術(shù)開(kāi)發(fā)與應用

szhlss123 | 2022-08-10

基于深度學(xué)習的智能電網(wǎng)短期日負荷曲線(xiàn)預測系統設計與實(shí)現

智能計算 202302 深度學(xué)習短期負荷預測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)格 Flask | 2023-02-27

什么是人機交互技術(shù)？

龍騰AI技術(shù) | 2022-11-02

Firefly DL小巧輕便，嵌入式深度學(xué)習加速部署

智能計算 Firefly DL 深度學(xué)習人工智能 | 2023-12-22

直覺(jué)有害！Facbook最新研究：易于解釋的神經(jīng)元會(huì )誤導DNN的學(xué)習

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

視覺(jué)慣性導航融合算法研究進(jìn)展

物聯(lián)網(wǎng)與傳感器 202302 視覺(jué)慣性導航優(yōu)化耦合算法深度學(xué)習 | 2023-02-21

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>