<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 特拉維夫大學(xué)把StyleGAN進(jìn)行了大匯總,全面了解SOTA方法、架構新進(jìn)展

特拉維夫大學(xué)把StyleGAN進(jìn)行了大匯總,全面了解SOTA方法、架構新進(jìn)展

發(fā)布人:機器之心 時(shí)間:2022-04-09 來(lái)源:工程師 發(fā)布文章
一文了解 StyleGAN 架構、方法和應用的最新進(jìn)展。


GAN 生成高分辨率圖像的能力正在徹底改變圖像合成和處理領(lǐng)域。2019 年 Karras 等人提出 StyleGAN ,該技術(shù)走到了圖像合成的最前沿,被公認為是最先進(jìn)的高質(zhì)量圖像生成器。我們先來(lái)看下 StyleGAN 的合成效果:
圖片
StyleGAN 不受監督,但它的潛在空間卻表現的令人驚訝。事實(shí)證明,StyleGAN 性能非常好,甚至支持線(xiàn)性潛在算法。例如,它支持在一組潛在代碼中添加一個(gè)表示年齡的向量,使圖像中人物年齡看起來(lái)更年長(cháng)。研究證明,StyleGAN 不但可以線(xiàn)性的排列潛在空間,也可以以一種解耦(disentangled)的方式,其遍歷方向僅改變特定的圖像屬性,而不影響其他屬性。這些屬性包括全局、與領(lǐng)域無(wú)關(guān)的方面(例如視角),但也包括特定領(lǐng)域的屬性,例如人臉的表情或性別、汽車(chē)顏色、狗品種等(參見(jiàn)圖 1 和圖 2)。
圖片
在本文中,來(lái)自特拉維夫大學(xué)的多位研究者撰文描述了 StyleGAN 目前取得的成功,并分析了其存在的嚴重缺陷。該研究首先討論網(wǎng)絡(luò )架構本身,并分析了 StyleGAN 自出現以來(lái)在先進(jìn)生成模型中所起的作用。之后,該研究討論了訓練 StyleGAN 所需的資源,并列出減少、復用和回收這些資源的一些研究。
圖片
論文地址:https://arxiv.org/pdf/2202.14020.pdf
StyleGAN 架構、方法和應用中的最新技術(shù)
本文共分為 8 個(gè)小節:在 2 節中,該研究將描述了 StyleGAN 的架構是如何構建的,并試圖理解為什么這種架構會(huì )引發(fā)如此尖端的新興技術(shù),以及如何改進(jìn)架構以滿(mǎn)足特定需求。
第 3 節討論了 StyleGAN 的潛在空間,展示了研究者如何找到線(xiàn)性編輯方向并將其用于強大的語(yǔ)義編輯。傳統上一般的 GAN,特別是 StyleGAN,可用于簡(jiǎn)單地生成不同風(fēng)格的圖像。這些可以作為下游訓練的一種數據增強形式(參見(jiàn)第 6 節)。然而,研究已經(jīng)表明 GAN 傾向于平滑地排列其潛在空間,即潛在空間中的接近區域描繪出相似的圖像。
第 4 節主要討論了 StyleGAN 逆映射(inversion)。為了在 StyleGAN 域中表達給定的真實(shí)圖像,研究者提出了許多不同的方法,所有這些方法都深入分析和利用了生成器架構。一些研究者提出了潛在代碼優(yōu)化,應用數據驅動(dòng)推理等不同方法,或者尋求適當的輸入種子向量,還有一些研究在推理路徑的其他點(diǎn)與 StyleGAN 交互,從而大大提高了網(wǎng)絡(luò )表達能力。StyleGAN 潛在空間的良好行為性質(zhì)在遠離其良好采樣分布的區域中會(huì )減少。這在實(shí)踐中意味著(zhù)給定真實(shí)圖像,其重建質(zhì)量(或失真)是以可編輯性為代價(jià)的。在這種重建 - 可編輯性權衡中找到不同的期望點(diǎn)是本節主要討論點(diǎn)。
將圖像編碼到 StyleGAN 潛在空間比圖像逆映射本身具有更多優(yōu)點(diǎn)。在許多應用程序中,被編碼的圖像不是所需的潛在代碼應該表示的圖像。這種編碼允許各種圖像到圖像的轉換方法。在第 4 節中,該研究介紹并討論了這種有監督和無(wú)監督的方法。
在第 6 節中,該研究展示了 StyleGAN 生成能力,并討論了 StyleGAN 可以利用的判別能力,這包括可解釋性、回歸、分割等方面的應用。
在大多數工作和應用中,預訓練 StyleGAN 生成器保持固定。然而,在第 7 節中,該研究展示了微調 StyleGAN 生成器并修改其權重以彌合訓練域(域內)或目標域之間的差距的最新工作。每個(gè)部分都針對新手以及經(jīng)驗豐富的研究者,并總結了最成熟和最有前途的方法,以及如何使用它們。
下面我們將介紹論文中部分章節內容。
StyleGAN 架構的發(fā)展
StyleGAN1?;陲L(fēng)格的生成器架構,或簡(jiǎn)稱(chēng) StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架構的核心是風(fēng)格調制層(style modulation layers),StyleGAN 的名字就是從這里得來(lái)的, 其能夠生成高質(zhì)量的圖像數據并且做到了高層特征可控。
圖片
StyleGAN2。隨著(zhù) StyleGAN 廣泛使用,模型固有的缺點(diǎn)暴露出來(lái),例如偽影問(wèn)題。此外,研究者還觀(guān)察到一種紋理粘附效應,即生成圖像的某些屬性,如牙齒或眼睛,會(huì )顯示出強烈的空間偏差,即使通過(guò)潛在空間插值也難以解決。在后續工作中,Karras 等人的研究可以識別偽影來(lái)源,并重新設計算法以改進(jìn)網(wǎng)絡(luò ),StyleGAN2 著(zhù)重處理 StyleGAN 偽影問(wèn)題,能夠生成質(zhì)量更好的圖像數據。
StyleGAN3。起初,StyleGAN2 似乎解決了紋理粘連問(wèn)題。然而,研究者通過(guò)細致的分析發(fā)現,StyleGAN2 雖然已經(jīng)解決了嘴巴或眼睛等大尺寸物體,但在檢查頭發(fā)或胡須等更精細的細節時(shí)仍然存在問(wèn)題。為了解決這個(gè)問(wèn)題,Karras 等人尋找空間信息可能泄漏到卷積操作中的各種來(lái)源,目的是完全恢復網(wǎng)絡(luò )的平移不變性。StyleGAN3 的新穎架構 [Karras et al. 2021] 帶來(lái)了顯著(zhù)的改進(jìn),使得插值更加平滑。
StyleGAN3 對生成細節的把控令人驚嘆,它從根本上解決了 StyleGAN2 圖像坐標與特征粘連的問(wèn)題,實(shí)現了真正的圖像平移、旋轉等不變性,大幅提高了圖像合成質(zhì)量。
圖片
當然,訓練模型離不開(kāi)數據,當代機器學(xué)習一個(gè)公開(kāi)秘密是,許多模型在標準基準上表現出色,但無(wú)法推廣到實(shí)驗室外,StyleGAN 也不例外。在 StyleGAN 中,學(xué)習域似乎需要嚴格的結構,而數據域應該是凸的,即在每?jì)蓚€(gè)點(diǎn)之間應該有有效的樣本進(jìn)行插值 。在最近的研究中,Sauer 等人證明,通過(guò)擴展模型可以克服數據面臨的挑戰,但 StyleGAN 獨特的潛在空間屬性是否能通過(guò)這種修改持續存在仍是一個(gè)懸而未決的問(wèn)題。將來(lái),我們可能會(huì )看到更多解決顯式數據問(wèn)題的工作,即嘗試將 StyleGAN 應用于其他類(lèi)型數據的工作,或者通過(guò)在訓練期間刪除或添加示例以使數據的 landscape 更加平滑,或者用更直接地方式處理數據中的多模態(tài),或者通過(guò)將更精細的注意力機制整合到架構中。
與普通的 GAN 不同,StyleGAN 有不止一個(gè)固有的潛在空間。此外,為了增加 StyleGAN 的表現力,通常會(huì )使用這些空間的擴展,如圖 6。
圖片
潛在空間編輯
也許 GAN 學(xué)習最令人興奮的方面是潛在空間排列方式。傳統上,一般的 GAN,特別是 StyleGAN,可以用來(lái)簡(jiǎn)單地生成各種各樣的同類(lèi)圖像。這些可以作為下游訓練數據增強的一種形式 (見(jiàn)第 6 節)。然而,已有研究表明,GAN 傾向于平滑地排列其潛在空間,即潛在空間中的封閉區域描繪相似的圖像。
事實(shí)證明,在潛在空間中遍歷也可以得到所需的語(yǔ)義變化。這些變化包括視點(diǎn)、照明條件和特定于領(lǐng)域的屬性(如人臉的表情、汽車(chē)的顏色或建筑物的寬度)的變化。當然,最理想的編輯是解耦編輯,即那些改變一個(gè)屬性而不影響其他屬性的編輯。這樣強大的編輯工具的應用是無(wú)止境的,從自動(dòng)添加微笑到面部圖像,通過(guò)室內設計探索,快速的汽車(chē)設計。
StyleGAN 在結構良好的數據上運行得最好,當對這些數據進(jìn)行訓練時(shí),StyleGAN 以一種無(wú)監督的方式構建了一個(gè)高度解耦的潛在空間,僅僅憑借歸納偏差。在本研究中,編輯藝術(shù)是多樣化的,呈現出從不同領(lǐng)域借來(lái)的創(chuàng )造性方法。
應用程序
雖然 GAN 具有很強的生成能力,尤其是 StyleGAN,但人們可能會(huì )問(wèn),使用 GAN 可以解決哪些非生成任務(wù)。在其最基本的形式中,GAN 生成大量圖像的能力,基本上都是從相同的目標分布重新采樣的,可用于下游訓練任務(wù)的數據豐富和增強。事實(shí)上,早期研究提出使用 GAN 作為增強工具來(lái)生成更多的訓練數。
利用 GAN 的編輯能力,Chai 等人通過(guò)在測試時(shí)增強輸入圖像,提出了一種用于圖像分類(lèi)的集成方法。輸入被投影到預訓練生成器的潛在空間中,并對其應用風(fēng)格混合等編輯操作,生成不同的視圖。之后生成的圖像輸入分類(lèi)網(wǎng)絡(luò ),模型的最終預測基于對所有圖像的網(wǎng)絡(luò )預測的集合。與深度學(xué)習中的傳統集成不同,其中多個(gè)模型的預測被組合以產(chǎn)生最終結果,該方法建議使用同一圖像的不同視圖(同時(shí)保留其身份)并在測試時(shí)集成分類(lèi)器對圖像的預測。
為了以新的方式利用 StyleGAN 的語(yǔ)義理解,Peebles 等人提出了一種新的框架來(lái)處理密集視覺(jué)對齊的任務(wù)。如圖 11c 所示。一旦兩種操作收斂到一個(gè)視點(diǎn),就可以使用 STN 來(lái)對齊真實(shí)圖像。
圖片
另一個(gè)關(guān)鍵方面是避免扭曲圖像的未編輯部分,通常稱(chēng)為保留原始身份。例如,對人臉微笑的編輯不應改變發(fā)型等屬性。一些研究專(zhuān)注于面部圖像,其中可以使用面部識別網(wǎng)絡(luò )評估身份。
另一個(gè)問(wèn)題是圖像質(zhì)量。StyleGAN 的主要優(yōu)勢之一是高質(zhì)量的視覺(jué)效果,編輯方法應該致力于保持這種效果。然而,編輯可能會(huì )導致編輯后的數據與真實(shí)數據之間存在較大的偏差,從而導致評估不準確。如果可能,可以使用分類(lèi)器或回歸模型來(lái)平衡圖像集合與某些屬性之間的關(guān)系。Zhu 等人提出了評估插值質(zhì)量方法,他們建議,即使對于插值圖像,良好的可編輯性也應該保留 StyleGAN 的高質(zhì)量,他們使用 FID 度量。最后,一些研究利用用戶(hù)研究來(lái)評估編輯質(zhì)量,盡管這種方法對編輯過(guò)程有深刻的理解,但它會(huì )消耗大量資源并且容易受到不必要的操作。直到今天,對于潛在的操作質(zhì)量,還沒(méi)有被廣泛接受的評估指標。
 更多細節,請查看原論文。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>