<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > NüWA:女?huà)z算法,多模態(tài)預訓練模型,大殺四方!

NüWA:女?huà)z算法,多模態(tài)預訓練模型,大殺四方!

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2021-12-15 來(lái)源:工程師 發(fā)布文章

1.png

論文地址:https://arxiv.org/abs/2111.12417

源代碼:https:// github.com/microsoft/NUWA

一、前言

今天分享的論文,主要提出了一個(gè)統一的多模態(tài)預訓練模型,稱(chēng)為NüWA,可以為各種視覺(jué)合成任務(wù)生成新的或操縱現有的視覺(jué)數據(即圖像和視頻)。針對不同場(chǎng)景同時(shí)覆蓋語(yǔ)言、圖像和視頻,設計了3D Transformer編碼器-****框架,不僅可以將視頻作為3D數據處理,還可以分別將文本和圖像作為1D和2D數據進(jìn)行適配。還提出了3D Nearby Attention(3DNA)機制來(lái)考慮視覺(jué)數據的性質(zhì)并降低計算復雜度。在8個(gè)下游任務(wù)上評估NüWA。與幾個(gè)強大的基線(xiàn)相比,NüWA在文本到圖像生成、文本到視頻生成、視頻預測等方面取得了最先進(jìn)的結果。此外,它還顯示了令人驚訝的良好的文本零樣本能力——引導圖像和視頻處理任務(wù)。

2.png

8個(gè)任務(wù)的案例

二、背景

如今,網(wǎng)絡(luò )變得比以往任何時(shí)候都更加視覺(jué)化,圖像和視頻已成為新的信息載體,并已被用于許多實(shí)際應用中。在此背景下,視覺(jué)合成正成為越來(lái)越受歡迎的研究課題,其目的是構建可以為各種視覺(jué)場(chǎng)景生成新的或操縱現有視覺(jué)數據(即圖像和視頻)的模型。

自回歸模型【Auto-regressive models】在視覺(jué)合成任務(wù)中發(fā)揮著(zhù)重要作用,因為與GAN相比,它們具有顯式的密度建模和穩定的訓練優(yōu)勢。早期的視覺(jué)自回歸模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式進(jìn)行視覺(jué)合成的。然而,由于它們在高維視覺(jué)數據上的高計算成本,這些方法只能應用于低分辨率的圖像或視頻,并且難以擴展。

最近,隨著(zhù)VQ-VAE作為離散視覺(jué)標記化方法的出現,高效和大規模的預訓練可以應用于圖像的視覺(jué)合成任務(wù)(例如DALL-E和CogView) 和視頻(例如GODIVA)。盡管取得了巨大的成功,但此類(lèi)解決方案仍然存在局限性——它們分別處理圖像和視頻,并專(zhuān)注于生成它們中的任何一個(gè)。這限制了模型從圖像和視頻數據中受益。

三、NüWA的表現

Text-To-Image(T2I)

3.png

一只戴著(zhù)護目鏡,盯著(zhù)攝像機的狗

4.png

Sketch-To-Image (S2I)

5.png

草圖轉圖片任務(wù),就是根據草圖的布局,生成對應的圖片

Image Completion (I2I)

6.png

圖像補全,如果一副圖片殘缺了,算法可以自動(dòng)“腦補”出殘缺的部分

7.jpg

Image Manipulation (TI2I)

8.png

圖片處理,根據文字描述,處理圖片

例如:有一副草原的圖片,然后增加一段描述:一匹馬奔跑在草原上,然后就可以生成對應的圖片。

9.png

Video

10.png

四、新框架

11.png

NüWA模型的整體架構包含一個(gè)支持多種條件的 adaptive 編碼器和一個(gè)預訓練的****,能夠同時(shí)使圖像和視頻的信息。對于圖像補全、視頻預測、圖像處理和視頻處理任務(wù),將輸入的部分圖像或視頻直接送入****即可。

12.png

而編碼****都是基于一個(gè)3D NEARBY SELF-ATTENTION(3DNA)建立的,該機制可以同時(shí)考慮空間和時(shí)間軸的上局部特性,定義如下:

13.png

W 表示可學(xué)習的權重,X 和 C 分別代表文本、圖像、視頻數據的 3D 表示。

3DNA考慮了完整的鄰近信息,并為每個(gè)token動(dòng)態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關(guān)注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

3D DATA REPRESENTATION

為了涵蓋所有文本、圖像和視頻或其草圖,研究者將它們全部視為標記并定義統一的 3D符號X∈Rh×w×s×d,其中h和w表示空間軸(分別為高度和寬度)中的標記數量,s表示時(shí)間軸上的標記數量,d是每個(gè)標記的維度。

3D NEARBY SELF-ATTENTION

基于之前的3D數據表示定義了一個(gè)統一的3D Nearby Self-Attention (3DNA) 模塊,支持自注意力和交叉注意力。首先給出方程中3DNA的定義:

14.png

并在如下等式中介紹詳細的實(shí)現。

15.png16.png17.png

3D ENCODER-DECODER

開(kāi)始介紹基于3DNA構建的3D編碼-****。為了在C∈Rh′×w′×s′×din的條件下生成目標Y∈Rh×w×s×dout,Y和C的位置編碼通過(guò)考慮高度、寬度和時(shí)間軸的三個(gè)不同的可學(xué)習詞匯更新。

18.png

然后,條件C被輸入到具有L 3DNA層堆棧的編碼器中,以對自注意力交互進(jìn)行建模,第l層在等式中表示:

19.png

同樣,****也是一堆L 3DNA層。****計算生成結果的自注意力以及生成結果和條件之間的交叉注意力。第l層表示如下等式。

20.png

五、實(shí)驗簡(jiǎn)單分析

21.png22.png

其他實(shí)驗可在論文中獲??!

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>