有手就行?把大象P轉身只需拖動(dòng)鼠標,華人一作DragGAN爆火(1)
如果甲方想把大象 P 轉身,你只需要拖動(dòng) GAN 就好了。
在圖像生成領(lǐng)域,以 Stable Diffusion 為代表的擴散模型已然成為當前占據主導地位的范式。但擴散模型依賴(lài)于迭代推理,這是一把雙刃劍,因為迭代方法可以實(shí)現具有簡(jiǎn)單目標的穩定訓練,但推理過(guò)程需要高昂的計算成本。
在 Stable Diffusion 之前,生成對抗網(wǎng)絡(luò )(GAN)是圖像生成模型中常用的基礎架構。相比于擴散模型,GAN 通過(guò)單個(gè)前向傳遞生成圖像,因此本質(zhì)上是更高效的。但由于訓練過(guò)程的不穩定性,擴展 GAN 需要仔細調整網(wǎng)絡(luò )架構和訓練因素。因此,GAN 方法很難擴展到非常復雜的數據集上,在實(shí)際應用方面,擴散模型比 GAN 方法更易于控制,這是 GAN 式微的原因之一。
當前,GAN 主要是通過(guò)手動(dòng)注釋訓練數據或先驗 3D 模型來(lái)保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進(jìn) GAN 的嘗試。
最近,來(lái)自馬克斯?普朗克計算機科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶(hù)以交互的方式「拖動(dòng)」圖像的任何點(diǎn)精確到達目標點(diǎn)。
論文鏈接:https://arxiv.org/abs/2305.10973
項目主頁(yè):https://vcai.mpi-inf.mpg.de/projects/DragGAN/
這種全新的控制方法非常靈活、強大且簡(jiǎn)單,有手就行,只需在圖像上「拖動(dòng)」想改變的位置點(diǎn)(操縱點(diǎn)),就能合成你想要的圖像。
例如,讓獅子「轉頭」并「開(kāi)口」:
還能輕松讓小貓 wink:
再比如,你可以通過(guò)拖動(dòng)操縱點(diǎn),讓單手插兜的模特把手拿出來(lái)、改變站立姿勢、短袖改長(cháng)袖??瓷先ゾ拖袷峭粋€(gè)模特重新拍攝了新照片:
如果你也接到了「把大象轉個(gè)身」的 P 圖需求,不妨試試:
整個(gè)圖像變換的過(guò)程就主打一個(gè)「簡(jiǎn)單靈活」,圖像想怎么變就怎么變,因此有網(wǎng)友預言:「PS 似乎要過(guò)時(shí)了」。
也有人覺(jué)得,這個(gè)方法也可能會(huì )成為未來(lái) PS 的一部分。
總之,觀(guān)感就是一句話(huà):「看到這個(gè),我腦袋都炸了?!?/span>
當大家都以為 GAN 這個(gè)方向從此消沉的時(shí)候,總會(huì )出現讓我們眼前一亮的作品:
這篇神奇的論文,已經(jīng)入選了 SIGGRAPH 2023。研究者表示,代碼將于六月開(kāi)源。
那么,DragGAN 是如何做到強大又靈活的?我們來(lái)看一下該研究的技術(shù)方法。
方法概述
該研究提出的 DragGAN 主要由兩個(gè)部分組成,包括:
基于特征的運動(dòng)監督,驅動(dòng)圖像中的操縱點(diǎn)向目標位置移動(dòng);
一種借助判別型 GAN 特征的操縱點(diǎn)跟蹤方法,以控制點(diǎn)的位置。
DragGAN 能夠通過(guò)精確控制像素的位置對圖像進(jìn)行改變,可處理的圖像類(lèi)型包括動(dòng)物、汽車(chē)、人類(lèi)、風(fēng)景等,涵蓋大量物體姿態(tài)、形狀、表情和布局,并且用戶(hù)的操作方法簡(jiǎn)單通用。
GAN 有一個(gè)很大的優(yōu)勢是特征空間具有足夠的判別力,可以實(shí)現運動(dòng)監督(motion supervision)和精確的點(diǎn)跟蹤。具體來(lái)說(shuō),運動(dòng)監督是通過(guò)優(yōu)化潛在代碼的移位特征 patch 損失來(lái)實(shí)現的。每個(gè)優(yōu)化步驟都會(huì )導致操縱點(diǎn)更接近目標,然后通過(guò)特征空間中的最近鄰搜索來(lái)執行點(diǎn)跟蹤。重復此優(yōu)化過(guò)程,直到操縱點(diǎn)達到目標。
DragGAN 還允許用戶(hù)有選擇地繪制感興趣的區域以執行特定于區域的編輯。由于 DragGAN 不依賴(lài)任何額外的網(wǎng)絡(luò ),因此它實(shí)現了高效的操作,大多數情況下在單個(gè) RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進(jìn)行實(shí)時(shí)的交互式編輯,用戶(hù)可以對圖像進(jìn)行多次變換更改,直到獲得所需輸出。
如下圖所示,DragGAN 可以有效地將用戶(hù)定義的操縱點(diǎn)移動(dòng)到目標點(diǎn),在許多目標類(lèi)別中實(shí)現不同的操縱效果。與傳統的形變方法不同的是,本文的變形是在 GAN 學(xué)習的圖像流形上進(jìn)行的,它傾向于遵從底層的目標結構,而不是簡(jiǎn)單地應用扭曲。例如,該方法可以生成原本看不見(jiàn)的內容,如獅子嘴里的牙齒,并且可以按照物體的剛性進(jìn)行變形,如馬腿的彎曲。
研究者還開(kāi)發(fā)了一個(gè) GUI,供用戶(hù)通過(guò)簡(jiǎn)單地點(diǎn)擊圖像來(lái)交互地進(jìn)行操作。
此外,通過(guò)與 GAN 反轉技術(shù)相結合,本文方法還可以作為一個(gè)用于真實(shí)圖像編輯的工具。
一個(gè)非常實(shí)用的用途是,即使合影中某些同學(xué)的表情管理不過(guò)關(guān),你也可以為 Ta 換上自信的笑容:
順便提一句,這張照片正是本篇論文的一作潘新鋼,2021 年在香港中文大學(xué)多媒體實(shí)驗室獲得博士學(xué)位,師從湯曉鷗教授。目前是馬克斯普朗克信息學(xué)研究所博士后,并將從 2023 年 6 月開(kāi)始擔任南洋理工大學(xué)計算機科學(xué)與工程學(xué)院 MMLab 的任助理教授。
這項工作旨在為 GAN 開(kāi)發(fā)一種交互式的圖像操作方法,用戶(hù)只需要點(diǎn)擊圖像來(lái)定義一些對(操縱點(diǎn),目標點(diǎn)),并驅動(dòng)操縱點(diǎn)到達其對應的目標點(diǎn)。
這項研究基于 StyleGAN2,基本架構如下:
在 StyleGAN2 架構中,一個(gè) 512 維的潛在代碼
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。