爆火Sora參數規模僅30億?謝賽寧等大佬技術(shù)分析來(lái)了
就說(shuō)Sora有多火吧。
生成的視頻上線(xiàn)一個(gè)、瘋傳一個(gè)。
作者小哥新上傳的效果,很快引來(lái)圍觀(guān)。
失敗案例都讓人看得上癮。
將近1萬(wàn)人點(diǎn)贊。
學(xué)術(shù)圈更炸開(kāi)鍋了,各路大佬紛紛開(kāi)麥。
紐約大學(xué)助理教授謝賽寧(ResNeXt的一作)直言,Sora將改寫(xiě)整個(gè)視頻生成領(lǐng)域。
英偉達高級研究科學(xué)家Jim Fan高呼,這就是視頻生成的GPT-3時(shí)刻??!
尤其在技術(shù)報告發(fā)布后,討論變得更加有趣。因為其中諸多細節不是十分明確,所以大佬們也只能猜測。
包括“Sora是一個(gè)數據驅動(dòng)的物理引擎”、“Sora建立在DiT模型之上、參數可能僅30億”等等。
所以,Sora為啥能如此驚艷?它對視頻生成領(lǐng)域的意義是?這不,很快就有了一些可能的答案。
視頻生成的GPT-3時(shí)刻總的來(lái)說(shuō),Sora是一個(gè)在不同時(shí)長(cháng)、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時(shí)采用了Transformer架構,也就是一種“擴散型Transformer”。
關(guān)于技術(shù)細節,官方報告簡(jiǎn)單提了以下6點(diǎn):
一是視覺(jué)數據的“創(chuàng )新轉化”。
與大語(yǔ)言模型中的token不同,Sora采用的是“Patches(補片)”來(lái)統一不同的視覺(jué)數據表現形式。
如下圖所示,在具體操作中,模型先將視頻壓縮到低維潛空間中,然后將它們表示分解為時(shí)空補片,從而將視頻轉換為補片。(啊這,說(shuō)了又仿佛什么都沒(méi)說(shuō))
二是訓練了一個(gè)視頻壓縮網(wǎng)絡(luò )。
它可以降低視覺(jué)數據維度,輸入視頻,輸出時(shí)空上壓縮的潛表示。
Sora就在這上面完成訓練。相應地,OpenAI也訓練了一個(gè)專(zhuān)門(mén)的****。
三是時(shí)空補片技術(shù)(Spacetime latent patches)。
給定一個(gè)壓縮的輸入視頻,模型提取一系列時(shí)空補片,充當Transformer的token。正是這個(gè)基于補片的表示讓Sora能夠對不同分辨率、持續時(shí)間和長(cháng)寬比的視頻和圖像進(jìn)行訓練。
在推理時(shí),模型則通過(guò)在適當大小的網(wǎng)格中排列隨機初始化的補片來(lái)控制生成視頻的大小。
四是擴展Transformer也適用于視頻生成的發(fā)現。
OpenAI在這項研究中發(fā)現,擴散型Transformer同樣能在視頻模型領(lǐng)域中完成高效擴展。
下圖展示出隨著(zhù)訓練資源的增加,樣本質(zhì)量明顯提升(固定種子和輸入條件)。
五是視頻多樣化上的一些揭秘。
和其他模型相比,Sora能夠hold住各種尺寸的視頻,包括不同分辨率、時(shí)長(cháng)、寬高比等等。
也在構圖和布局上優(yōu)化了更多,如下圖所示,很多業(yè)內同類(lèi)型模型都會(huì )盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但Sora可以捕捉完整的場(chǎng)景:
報告指出,這都要歸功于OpenAI直接在視頻數據的原始尺寸上進(jìn)行了訓練。
最后,是語(yǔ)言理解方面上的功夫。
在此,OpenAI采用了DALL·E 3中引入的一種重新標注技術(shù),將其應用于視頻。
除了使用描述性強的視頻說(shuō)明進(jìn)行訓練,OpenAI也用GPT來(lái)將用戶(hù)簡(jiǎn)短的提示轉換為更長(cháng)的詳細說(shuō)明,然后發(fā)送給Sora。
這一系列使得Sora的文字理解能力也相當給力。
關(guān)于技術(shù)的介紹報告只提了這么多,剩下的大篇幅都是圍繞Sora的一系列效果展示,包括文轉視頻、視頻轉視頻,以及圖片生成。
可以看到,諸如其中的“patch”到底是怎么設計的等核心問(wèn)題,文中并沒(méi)有詳細講解。
有網(wǎng)友吐槽,OpenAI果然還是這么地“Close”(狗頭)。
正是如此,各路大佬和網(wǎng)友們的猜測也是五花八門(mén)。
謝賽寧分析:
1、Sora應該是建立在DiT這個(gè)擴散Transformer之上的。
簡(jiǎn)而言之,DiT是一個(gè)帶有Transformer主干的擴散模型,它= [VAE 編碼器 + ViT + DDPM + VAE ****]。
謝賽寧猜測,在這上面,Sora應該沒(méi)有整太多花哨的額外東西。
2、關(guān)于視頻壓縮網(wǎng)絡(luò ),Sora可能采用的就是VAE架構,區別就是經(jīng)過(guò)原始視頻數據訓練。
而由于VAE是一個(gè)ConvNet,所以DiT從技術(shù)上來(lái)說(shuō)是一個(gè)混合模型。
3、Sora可能有大約30億個(gè)參數。
謝賽寧認為這個(gè)推測不算不合理,因Sora可能還真并不需要人們想象中的那么多GPU來(lái)訓練,如果真是如此,Sora的后期迭代也將會(huì )非???。
英偉達AI科學(xué)家Jim Fan則認為:
Sora應該是一個(gè)數據驅動(dòng)的物理引擎。
Sora是對現實(shí)或幻想世界的模擬,它通過(guò)一些去噪、梯度下降去學(xué)習復雜渲染、“直覺(jué)”物理、長(cháng)鏡頭推理和語(yǔ)義基礎等。
比如這個(gè)效果中,提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫(xiě)視頻。
Jim Fan分析,Sora首先要提供兩個(gè)3D資產(chǎn):不同裝飾的海盜船;必須在潛在空間中解決text-to-3D的隱式問(wèn)題;并且要兩艘船避開(kāi)彼此的路線(xiàn),兼顧咖啡液體的流體力學(xué)、保持真實(shí)感、帶來(lái)仿佛光追般的效果。
有一些觀(guān)點(diǎn)認為,Sora只是在2D層面上控制像素。Jim Fan明確反對這種說(shuō)法。他覺(jué)得這就像說(shuō)GPT-4不懂編碼,只是對字符串進(jìn)行采樣。
不過(guò)他也表示,Sora還無(wú)法取代游戲引擎開(kāi)發(fā)者,因為它對于物理的理解還遠遠不夠,仍然存在非常嚴重的“幻覺(jué)”。
所以他提出Sora是視頻生成的GPT-3時(shí)刻。
回到2020年,GPT-3不是一個(gè)很完美的模型,但是它有力證明了上下文學(xué)習的重要性。所以不要糾結于GPT-3的缺陷,多想想后面的GPT-4。
除此之外,還有膽大的網(wǎng)友甚至懷疑Sora用上了虛幻引擎5來(lái)創(chuàng )建部分訓練數據。
他甚至挨個(gè)舉例分析了好幾個(gè)視頻中的效果以此佐證猜想:
不過(guò)反駁他的人也不少,理由包括“人走路的鏡頭明顯還是奇怪,不可能是引擎的效果”、“YouTube上有數十億小時(shí)的各種視頻,ue5的用處不大吧”……
如此種種,暫且不論。
最后,有網(wǎng)友表示,盡管不對OpenAI放出更多細節抱有期待,但還是很想知道Sora在視頻編碼、解碼,時(shí)間插值的額外模塊等方面是不是有創(chuàng )新。
在Sora引發(fā)全球關(guān)注的同時(shí),OpenAI的估值也再次拉高,成為全球第三高估值的科技初創(chuàng )公司。
隨著(zhù)最新一要約收購完成,OpenAI的估值正式達到800億美元,僅次于字節跳動(dòng)和SpaceX。
這筆交易由風(fēng)投公司Thrive Capital牽頭,外部投資者可以從一些員工手中購買(mǎi)股份,去年年初時(shí)OpenAI就完成過(guò)類(lèi)似交易,使其當時(shí)的估值達到290億美元。
而在Sora發(fā)布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分鐘最大token數量),較上一次實(shí)現2倍提升。
總裁Brockman還親自帶貨宣傳。
但與此同時(shí),OpenAI申請注冊“GPT”商標失敗了。
理由是“GPT”太通用。
One More Thing值得一提的是,有眼尖的網(wǎng)友發(fā)現,昨天Stability AI也發(fā)布了SVD 1.1。
但似乎在Sora發(fā)布不久后火速刪博。
有人銳評,這不是翻版汪峰么?不應該刪,應該返蹭個(gè)熱度。
這還玩個(gè)p啊。
還有人感慨,Sora一來(lái),立馬就明白張楠為啥要聚焦剪映了。
以及賣(mài)課大軍也聞風(fēng)而動(dòng),把商機拿捏死死的。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。