奧斯卡大贏(yíng)家影片:《瞬息全宇宙》背后的AI技術(shù)揭秘
關(guān)鍵詞:瞬息全宇宙 Runway Gen-1
北京時(shí)間 3 月 13 日上午,2023 年奧斯卡頒獎禮在洛杉磯舉行,影片《瞬息全宇宙》一舉斬獲七項大獎,成為最大贏(yíng)家。主演楊紫瓊也憑借該片將奧斯卡最佳女主角獎收入囊中,成為奧斯卡歷史上首位華裔影后。楊紫瓊奧斯卡封后,圖源網(wǎng)絡(luò )
據了解,這部正在被熱議的科幻電影背后的視覺(jué)效果團隊僅有 5 人,為了盡快完成這些特效鏡頭,他們選擇了 Runway 公司的技術(shù)來(lái)幫助創(chuàng )建某些場(chǎng)景,比如為圖像去除背景的綠幕工具 (The Green Screen)。
「僅僅幾次點(diǎn)擊就讓我節省幾個(gè)小時(shí),我可以用這些時(shí)間嘗試三四種不同的效果,讓影片效果更好?!箤а菁婢巹?Evan Halleck 受訪(fǎng)時(shí)談道。手指進(jìn)化成熱狗宇宙,圖源網(wǎng)絡(luò )
Runway:參與初代Stable Diffusion開(kāi)發(fā)
2018 年底,Cristóbal Valenzuela 聯(lián)合其他成員創(chuàng )立 Runway。它是一家人工智能視頻編輯軟件提供商,致力于利用計算機圖形學(xué)及機器學(xué)習的最新進(jìn)展,為設計師、藝術(shù)家和開(kāi)發(fā)人員降低內容創(chuàng )作的門(mén)檻、推動(dòng)創(chuàng )意內容的發(fā)展。據 Forbes 報道,該公司年收入將近 500 萬(wàn)美元,員工僅 40 人左右
2023 年 2 月 6 日,Runway 官方推特發(fā)布 Gen-1 模型,可以通過(guò)應用文本提示或者參考圖像所指定的任意風(fēng)格,將現有視頻轉換為新視頻。Runway Twitter 官宣 Gen-1
Gen-1:structure + content 雙管齊下
科研人員提出了一個(gè)結構 (structure) 和內容 (content) 引導的 video diffusion model--Gen-1,可以依據預期輸出的視覺(jué)或文本描述,對視頻進(jìn)行編輯。Gen-1 模型原理展示
所謂 content,是指描述視頻的外表 (appearance) 和語(yǔ)義的特征,如目標物體的顏色、風(fēng)格以及場(chǎng)景的燈光。
而 structure 則是指描述其幾何和動(dòng)態(tài)的特征,如目標物體的形狀、位置以及時(shí)間變化。
Gen-1 模型的目標是在保留視頻 structure 的同時(shí),編輯視頻 content。
在模型訓練過(guò)程中,科研人員用到了一個(gè)由未加字幕的視頻及 text-image pair 構成的大規模數據集,同時(shí),用單目場(chǎng)景深度預測 (monocular depth estimates) 來(lái)表示 structure,用預訓練神經(jīng)網(wǎng)絡(luò )預測的 embedding 來(lái)表示 content。
該方法在生成過(guò)程中提供了幾種強大的控制模式:
1. 參考圖像合成模型,訓練模型使得推理的視頻 content(如呈現或風(fēng)格)與用戶(hù)提供的 image 或 prompt 相匹配。
Guided Video Synthesis 示例
在保留輸入視頻(中間)structure 的同時(shí)
基于文本提示或圖像合成的視頻(上及下)
2. 參考 diffusion 過(guò)程,對結構表征 (structure representation) 進(jìn)行 information obscuring,這使得開(kāi)發(fā)者可以自行設定 model adhere 對于給定 structure 的相似程度。
3. 參考 classifier-free guidance,借助自定義 guidance 方法,調整推理過(guò)程,從而控制生成 clip 的時(shí)間一致性。
在該實(shí)驗中,科研人員:
- 通過(guò)在預訓練的圖像模型中引入 temporal layer,并對圖像和視頻進(jìn)行聯(lián)合訓練,將 latent diffusion model 擴展到視頻生成中。
- 提出了一個(gè) structure 和 content-aware 模型,可以在示例圖像或文本的指導下修改視頻。視頻編輯完全是在推理階段進(jìn)行的,無(wú)需逐個(gè)視頻進(jìn)行訓練或預處理。
- 對 temporal、content 和 structure 一致性的完全控制。實(shí)驗表明,在圖像和視頻數據上的聯(lián)合訓練,能夠在推理期間上控制一致性 (temporal consistency)。對于結構一致性 (structure consistency),在表征的不同細節水平上訓練,使用戶(hù)得以在推理過(guò)程中選擇所需的設置。
- 一項用戶(hù)調研表明,該方法比其他幾種方法更受歡迎。
- 通過(guò)對一小部分圖像進(jìn)行微調,可以進(jìn)一步定制訓練過(guò)的模型,以生成更準確的特定 subject 的視頻。
為了評估 Gen-1 的性能,科研人員用 DAVIS 數據集中的視頻以及其他各種素材進(jìn)行了評估。為了自動(dòng)創(chuàng )建編輯 prompt,研究人員首先運行了一個(gè) captioning 模型來(lái)獲得原始視頻內容的描述,然后使用 GPT3 生成編輯 prompt。
實(shí)驗結果表明,在對所有方法生成效果的滿(mǎn)意度調研中,75% 的用戶(hù)更傾向 Gen-1 的生成效果。
AIGC:爭議中前行
2022 年,生成式人工智能成為自十多年前移動(dòng)和云計算興起以來(lái)最引人注目的技術(shù),我們正有幸見(jiàn)證其應用層的萌芽,許多大模型正迅速從實(shí)驗室中走出來(lái),撲向真實(shí)世界的各個(gè)場(chǎng)景。
然而,盡管有提高效率、節省成本等諸多好處,我們也需要看到,生成式人工智能依然面臨多種挑戰,包括如何提高模型的輸出質(zhì)量和多樣性、如何提高其生成速度,以及應用過(guò)程中的安全、隱私和倫理宗教等問(wèn)題。
有些人對 AI 藝術(shù)創(chuàng )作提出質(zhì)疑,更有甚者認為這是一種 AI 對藝術(shù)的「入侵」,面對這種聲音,Runway 聯(lián)合創(chuàng )始人兼 CEO Cristóbal Valenzuela 認為,AI 只是工具箱中一個(gè)用來(lái)給圖像等內容上色或修改的工具,與 Photoshop、LightRoom 并無(wú)二致。雖然生成式人工智能還存在一些爭議,但它為非技術(shù)人員和創(chuàng )意人員打開(kāi)了創(chuàng )作的大門(mén),并將帶領(lǐng)內容創(chuàng )作領(lǐng)域走向新的可能。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。