<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > AIGC大一統模型來(lái)了!CV界泰斗黃煦濤創(chuàng )立團隊提出「全能Diffusion」

AIGC大一統模型來(lái)了!CV界泰斗黃煦濤創(chuàng )立團隊提出「全能Diffusion」

發(fā)布人:傳感器技術(shù) 時(shí)間:2022-12-01 來(lái)源:工程師 發(fā)布文章
【新智元導讀】在各種Diffusion「AI大畫(huà)家」中學(xué)習一番之后,這款全能型Diffusion要完成AIGC界的「大一統」!


Diffusion模型的最新進(jìn)展在許多生成任務(wù)中樹(shù)立了一個(gè)令人印象深刻的里程碑。諸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人矚目的工作,引起了學(xué)術(shù)界和工業(yè)界的極大興趣。不過(guò),雖然這些模型表現驚艷,但基本都是專(zhuān)一于某一類(lèi)任務(wù),比如由給定文本生成圖像,而對于不同類(lèi)型的任務(wù),則往往需要專(zhuān)門(mén)單獨訓練,或重新構建新模型。那么能不能在前人基礎上搞一個(gè)「全能型」的Diffusion,實(shí)現AIGC模型的大一統呢?有人就在努力沿著(zhù)這個(gè)方向進(jìn)行探索,并已經(jīng)取得了進(jìn)展。這個(gè)來(lái)自伊利諾伊大學(xué)厄巴納-香檳分校、得克薩斯大學(xué)奧斯汀分校的聯(lián)合團隊,試圖將現有的單流Diffusion擴展為多流網(wǎng)絡(luò ),稱(chēng)為Versatile Diffusion(VD),這是第一個(gè)統一的多流多模態(tài)Diffusion框架,是邁向通用生成性人工智能的一步。

圖片

論文地址:https://arxiv.org/abs/2211.08332Versatile Diffusion除了普通的文字生成圖像功能之外,還可以輸入圖像生成類(lèi)似圖像,輸入圖像生成文字,輸入文字生成相似文字,圖片語(yǔ)義解耦編輯,輸入圖像及文字生成視頻,根據隱空間編輯圖像內容等等。未來(lái)的版本還將支持更多的模式,如語(yǔ)音、音樂(lè )、視頻和3D。據論文介紹,現已證明VD及其基礎框架具有以下優(yōu)勢:a) 可以以具有競爭力的高質(zhì)量處理所有子任務(wù)。b) 支持新的擴展和應用,如圖形風(fēng)格和語(yǔ)義的分離、圖像-文本雙引導生成等。c) 通過(guò)這些實(shí)驗和應用,為生成的輸出提供了更豐富的語(yǔ)義洞察力。圖片在訓練數據集方面,VD使用帶有自定義數據過(guò)濾器的Laion2B-en作為主要數據集。

首次探索

VD的一個(gè)令人興奮的發(fā)現是,它可以從語(yǔ)義中增強或減少圖像風(fēng)格,而無(wú)需進(jìn)一步監督。這樣的現象激發(fā)作者去探索一個(gè)全新的領(lǐng)域,其中,風(fēng)格和語(yǔ)義之間的分離可以發(fā)生在具有任意風(fēng)格和任意內容的圖像上。作者表示,他們是第一個(gè)探索:a)在沒(méi)有領(lǐng)域規范的情況下,對自然圖像的語(yǔ)義和風(fēng)格進(jìn)行解讀;b)擴散模型潛在空間上的語(yǔ)義和風(fēng)格分解的團隊。在下圖中,作者首先生成輸入圖像的變體,然后以語(yǔ)義(左邊)或風(fēng)格(右邊)為重點(diǎn)對其進(jìn)行操作。圖片由于VD同時(shí)支持圖像到文本和文本到圖像,因此作者團隊第一次嘗試了通過(guò)以下步驟從文本提示的角度編輯圖像:a)將圖像轉換成文本,b)編輯文本,c)將文本轉換回圖像。在實(shí)驗中作者從圖像中刪除了描述的內容,然后用這種圖像-文本-圖像(I2T2I)范式添加新的內容。與繪畫(huà)或其他需要物體位置作為輸入的圖像編輯方法不同,VD的I2T2I不需要掩碼,因為它可以按照指令自動(dòng)定位和替換物體。不過(guò),I2T2I的輸出圖像與輸入圖像的像素不一致,這是由于圖像到文本的語(yǔ)義提煉和文本到圖像的內容創(chuàng )建造成的。在下圖的展示中,輸入的圖像首先被翻譯成prompt,然后用減法(紅框)和加法(綠框)對prompt進(jìn)行編輯。最后,編輯后的prompt被翻譯成圖像。圖片此外,他們也是第一個(gè)探索基于給定的文字去生成相似文字的團隊。圖片

網(wǎng)絡(luò )框架

具體來(lái)說(shuō),文中提出的VD框架是一個(gè)多流網(wǎng)絡(luò ),有各種類(lèi)型的數據作為輸入和背景。

VD多流多模態(tài)diffusion框架繼承了LDM/SD的優(yōu)點(diǎn),具有可解釋的潛在空間、模態(tài)化結構和較低的計算成本。VD可以聯(lián)合訓練多個(gè)流,每個(gè)流代表一個(gè)跨模式的任務(wù)。其核心設計是diffuser網(wǎng)絡(luò )內的分組、共享和交換協(xié)議,使框架適應所有支持的任務(wù)和其他任務(wù)。圖片diffuser分為三組:全局層、數據層和語(yǔ)境層。全局層是時(shí)間嵌入層,數據層是剩余塊,而語(yǔ)境層是交叉關(guān)注。這種分組與層的功能相對應。當處理多個(gè)任務(wù)時(shí),全局層在所有任務(wù)中共享。數據層和語(yǔ)境層包含多個(gè)數據流。每個(gè)數據流都可以根據當前的數據和上下文類(lèi)型進(jìn)行共享或交換。比如,當處理文本-圖像請求時(shí),diffuser使用圖像數據層與文本語(yǔ)境層。當處理圖像變異任務(wù)時(shí),則使用圖像數據層與圖像語(yǔ)境層。單個(gè)VD流程包含一個(gè)VAE、一個(gè)diffuser和一個(gè)語(yǔ)境編碼器,在一個(gè)數據類(lèi)型(如圖像)和一個(gè)語(yǔ)境類(lèi)型(如文本)下處理一個(gè)任務(wù)(如文本轉圖像)。Versatile Diffusion的多流結構如下圖所示:圖片研究人員基于Versatile Diffusion,進(jìn)一步提出了一個(gè)通用的多流多模態(tài)框架,其中包括VAE、上下文編碼器和包含三層(即全局、數據和語(yǔ)境層)的diffuser。Diffuser:VD使用已被廣泛采用的交叉關(guān)注的UNet作為diffuser網(wǎng)絡(luò )的主要架構,將層分為全局層、數據層和語(yǔ)境層。其中數據層和語(yǔ)境層有兩個(gè)數據流來(lái)支持圖像和文本。對于圖像數據流,遵循LDM并使用殘差塊(ResBlock),其空間維度逐漸減少,通道數逐漸增加。對于文本數據流,利用新的全連接殘差塊(FCResBlock),將768維的文本潛伏向量擴展為320*4的隱藏特征,并遵循類(lèi)似的通道增加范式,再利用GroupNorms、SiLU和跳過(guò)連接,就像普通的ResBlock一樣。圖片如上圖所示,FCResBlock包含兩組全連接層(FC)、分組歸一化(GN)和sigmoid線(xiàn)性單元(SiLU)。x是輸入文本潛伏代碼,t是輸入時(shí)間嵌入,hi是中間特征。對于語(yǔ)境組,圖像和語(yǔ)境流都采用交叉注意力層,其中內容嵌入通過(guò)投影層、點(diǎn)積和sigmoids來(lái)操作數據特征。變分自編碼器(VAE):VD采用此前的潛在擴散模型(Latent Diffusion Model,LDM)的自編碼器-KL作為圖像數據VAE,采用Optimus作為文本數據VAE。Optimus由BERT文本編碼器和GPT2文本****組成,可以將句子雙向轉化為768維正態(tài)分布的潛在向量。同時(shí),Optimus還以其可重構和可解釋的文本潛空間顯示出令人滿(mǎn)意的VAE特性。因此選擇Optimus作為文本VAE,因為它非常符合多流多模態(tài)框架的前提條件。語(yǔ)境編碼器(Context Encoder):VD使用CLIP文本和圖像編碼器作為上下文編碼器。與只使用原始文本嵌入作為語(yǔ)境輸入的LDM和SD不同,VD使用歸一化和投影嵌入,使文本和圖像的CLIP對比損失最小化。實(shí)驗表明,上下文類(lèi)型之間更接近的嵌入空間有助于模型快速收斂,表現更好。類(lèi)似的結論也可以在DALL·E 2中實(shí)現,DALL·E 2用額外的投影層來(lái)微調文本到圖像的模型,以最小化文本和圖像嵌入之間的差異,用于圖像變化。

性能表現

作者將早期的單任務(wù)模型作為基線(xiàn)模型,并將VD的結果與這些基線(xiàn)進(jìn)行比較。其中,SDv1.4作為文本到圖像的基線(xiàn)模型,SD-variation用于圖像-變體,而B(niǎo)LIP用于圖像-文本。同時(shí),作者還對不同的VD模型進(jìn)行了定性比較,其中VDDC和VD-of?cial用于文本到圖像,所有三個(gè)模型用于圖像變體。其中SD和VD的圖像樣本是用受控的隨機種子生成的,以便更好地檢查質(zhì)量。

圖片

文本到圖像的性能雖然DALLE 2和Imagen在這些任務(wù)上也取得了SOTA,但由于沒(méi)有公開(kāi)的代碼或訓練細節,因此作者跳過(guò)了對它們的比較。結果顯示,多流程結構和多任務(wù)訓練可以幫助VD捕獲上下文語(yǔ)義并更精確地生成輸出,并出色地完成了所有的子任務(wù)。

圖片

圖像-變體的性能此外,由VD生成的圖像標注還包含了一些創(chuàng )造性的詞語(yǔ)。相比起來(lái),BLIP的生成就很短,缺乏對細節的描述。

圖片

圖像到文本的性能

效果展示

圖片

文生圖

圖片

圖像變體

圖片

以語(yǔ)義為重點(diǎn)的圖像變體

圖片

雙引導

總結


  • 作者介紹了Versatile Diffusion(VD),一個(gè)多流的多模態(tài)diffusion網(wǎng)絡(luò ),在一個(gè)統一的模型中解決了文本、圖像和變化。在VD的基礎上,作者進(jìn)一步介紹了一個(gè)通用的多流多模態(tài)框架,其中可以涉及新的任務(wù)和領(lǐng)域。
  • 通過(guò)實(shí)驗,作者發(fā)現VD在所有支持的任務(wù)上都能產(chǎn)生高質(zhì)量的輸出,其中VD的文本到圖像和圖像到變體的結果能更好地捕捉上下文中的語(yǔ)義,VD的圖像到文本的結果具有創(chuàng )造性和說(shuō)明性。
  • 鑒于VD的多流多模態(tài)屬性,作者引入了新穎的擴展和應用,可能會(huì )使從事這項技術(shù)的下游用戶(hù)進(jìn)一步受益。

團隊介紹

伊利諾伊大學(xué)厄巴納-香檳分校的IFP團隊是由黃煦濤教授在80年代創(chuàng )立的,起初是貝克曼高級科學(xué)和技術(shù)研究所的圖像形成和處理小組。圖片多年來(lái),IFP一直致力于圖像以外的研究和創(chuàng )新,包括圖像和視頻編碼、多模態(tài)人機交互、多媒體注釋和搜索、計算機視覺(jué)和模式識別、機器學(xué)習、大數據、深度學(xué)習和高性能計算。目前IFP的研究方向是通過(guò)協(xié)同結合大數據、深度學(xué)習和高性能計算來(lái)解決多模態(tài)信息處理的問(wèn)題。此外,IFP在人工智能領(lǐng)域的頂級會(huì )議上獲得了多篇最佳論文,并在許多國際競賽中獲勝,包括首屆NIST TrecVID、首屆ImageNet挑戰賽和首屆人工智能城市挑戰賽。有趣的是,自黃教授1960年代開(kāi)始在麻省理工學(xué)院任教以來(lái),IFP小組的「成員」甚至包括朋友、學(xué)生、學(xué)生的學(xué)生、學(xué)生的學(xué)生,甚至是學(xué)生的學(xué)生的學(xué)生。

來(lái)源:新智元


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

EMC相關(guān)文章:EMC是什么意思


濾波器相關(guān)文章:濾波器原理


濾波器相關(guān)文章:濾波器原理


低通濾波器相關(guān)文章:低通濾波器原理


電源濾波器相關(guān)文章:電源濾波器原理


數字濾波器相關(guān)文章:數字濾波器原理
雙絞線(xiàn)傳輸器相關(guān)文章:雙絞線(xiàn)傳輸器原理


關(guān)鍵詞: CV

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>