<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > OpenAI首個(gè)AI視頻模型炸裂登場(chǎng),徹底端掉行業(yè)飯碗!60秒一鏡到底驚人,世界模型真來(lái)了?

OpenAI首個(gè)AI視頻模型炸裂登場(chǎng),徹底端掉行業(yè)飯碗!60秒一鏡到底驚人,世界模型真來(lái)了?

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-02-17 來(lái)源:工程師 發(fā)布文章

【導讀】剛剛,OpenAI發(fā)布首個(gè)AI視頻模型Sora,60秒的一鏡到底,神級效果生成。網(wǎng)友紛紛驚呼AI視頻要變天。

卷瘋了卷瘋了,短短十幾小時(shí)內,OpenAI和谷歌接連發(fā)布核彈級成果。

國內還沒(méi)睡的人們,經(jīng)歷了過(guò)山車(chē)般的瘋狂一晚。

就在剛剛,OpenAI突然發(fā)布首款文生視頻模型——Sora。簡(jiǎn)單來(lái)說(shuō)就是,AI視頻要變天了!

它不僅能夠根據文字指令創(chuàng )造出既逼真又充滿(mǎn)想象力的場(chǎng)景,而且生成長(cháng)達1分鐘的超長(cháng)視頻,還是一鏡到底那種。

Runway Gen 2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經(jīng)達到了史詩(shī)級的紀錄。

60秒的一鏡到底,視頻中的女主角、背景人物,都達到了驚人的一致性,各種鏡頭隨意切換,人物都是保持了神一般的穩定性。 

,時(shí)長(cháng)00:59

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI究竟是怎么做到的?根據官網(wǎng)介紹,「通過(guò)一次性為模型提供多幀的預測,我們解決了一個(gè)具有挑戰性的問(wèn)題?!?/span>

顯然,這個(gè)王炸級技術(shù)有著(zhù)革命般的意義,連Sam Altman都沉迷到不能自拔!

他不僅瘋狂發(fā)推安利,而且還親自下場(chǎng)為網(wǎng)友生成視頻:你們隨意來(lái)prompt,我一一輸出。


一位戴著(zhù)尖頂帽,身披繡有白色星星的藍色長(cháng)袍的巫師正在施法,他的一只手射出閃電,另一只手中拿著(zhù)一本舊書(shū)。



在一間擁有電影級燈光設置的充滿(mǎn)托斯卡納鄉村風(fēng)情的廚房里,一位擅長(cháng)利用社交媒體的奶奶,正在教你制作美味的自制諾奇面。



我們將帶你進(jìn)行一次未來(lái)城市的街頭巡覽,在這里,高科技與自然和諧共處,展現出一種獨特的賽博朋克風(fēng)格。

這座城市潔凈無(wú)瑕,到處可見(jiàn)的是先進(jìn)的未來(lái)式有軌電車(chē)、絢麗的噴泉、巨型的全息投影以及四處巡邏的機器人。

想象一下,一個(gè)來(lái)自未來(lái)的人類(lèi)導游正帶領(lǐng)一群好奇的外星訪(fǎng)客,向他們展示人類(lèi)極致創(chuàng )造力的結晶——這座無(wú)與倫比、充滿(mǎn)魅力的未來(lái)城市。

多項技術(shù)破紀錄


借助于對語(yǔ)言的深刻理解,Sora能夠準確地理解用戶(hù)指令中所表達的需求,把握這些元素在現實(shí)世界中的表現形式。

也因此,Sora創(chuàng )造出的角色,能夠表達豐富的情感!

它所制作出的復雜場(chǎng)景,不僅可以包括多個(gè)角色,還有特定的動(dòng)作類(lèi)型,以及對對象和背景的精確細節描繪。

看,下圖中人物的瞳孔、睫毛、皮膚紋理,都逼真到看不出一絲破綻,完全沒(méi)有AI味兒。

從此,視頻和現實(shí)究竟還有什么差別?!


Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外,Sora還能在同一視頻中設計出多個(gè)鏡頭,同時(shí)保持角色和視覺(jué)風(fēng)格的一致性。

要知道,以前的AI視頻,都單鏡頭生成的。

而這次OpenAI能在多角度的鏡頭切換中,就能實(shí)現對象的一致性,這不得不說(shuō)是個(gè)奇跡!

這種級別的多鏡頭一致性,是Gen 2和Pika都完全無(wú)法企及的……


Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

舉個(gè)例子:「雪后的東京熙熙攘攘。鏡頭穿過(guò)繁忙的街道,跟隨著(zhù)幾位享受著(zhù)美麗雪景和在附近攤位購物的人們。美麗的櫻花瓣伴隨著(zhù)雪花在風(fēng)中飄舞?!?/span>

Sora根據這個(gè)提示所呈現的,便是東京在冬日里夢(mèng)幻的一幕。

無(wú)人機的鏡頭跟隨一對悠閑散步的情侶穿梭在街道上,左側是車(chē)輛在河岸路上行駛的聲音,右側是顧客在一排小店之間穿梭的景象。


Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以說(shuō),Sora的效果已經(jīng)領(lǐng)先到了恐怖的級別,完全跳出了用冷兵器短兵相接的時(shí)代,其他AI視頻被徹底干趴。

世界模型成真了??


最最最可怕的一點(diǎn)來(lái)了,Sora身上,竟已經(jīng)有了世界模型的雛形?

通過(guò)觀(guān)察大量數據,它竟然學(xué)會(huì )了許多關(guān)于世界的物理規律。

下面這個(gè)片段太令人印象深刻了:prompt中描繪了「一個(gè)短毛絨怪物跪在一支紅蠟燭旁的動(dòng)畫(huà)場(chǎng)景」,同時(shí)描述了怪物的動(dòng)作和視頻的氛圍。

隨后,Sora就創(chuàng )造了一個(gè)類(lèi)似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪獸公司》中Sully的DNA。

讓人震驚的是,Sora對于毛發(fā)紋理物理特性的理解,準確得令人驚掉下巴!

想當初,在《怪獸公司》上映時(shí),皮克斯為了創(chuàng )造出怪物在移動(dòng)時(shí)超級復雜的毛發(fā)紋理,可是費了好大一番功夫,技術(shù)團隊直接連肝幾個(gè)月。

而這一點(diǎn),Sora輕而易舉地就實(shí)現了,而且從沒(méi)有人教過(guò)它!

「它學(xué)會(huì )了關(guān)于 3D 幾何形狀和一致性的知識,」項目的研究科學(xué)家Tim Brooks表示。

「這并非我們預先設定的——它完全是通過(guò)觀(guān)察大量數據自然而然地學(xué)會(huì )的?!?/span>


Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

得益于DALL·E 3所使用的擴散模型,以及GPT-4的Transformer引擎,Sora不僅能夠生成滿(mǎn)足特定要求的視頻,而且能夠展示出對電影拍攝語(yǔ)法的自發(fā)理解。

這種能力體現在它對講故事的獨特才能上。

例如,在一個(gè)以「色彩繽紛的魚(yú)類(lèi)和海洋生物充斥的,由紙藝精心構建的珊瑚礁世界」為主題的視頻中,項目研究員Bill Peebles指出,Sora通過(guò)其攝影角度和拍攝時(shí)機,成功地推進(jìn)了故事的發(fā)展。

「視頻中實(shí)際上發(fā)生了多次鏡頭轉換——這些鏡頭并非后期拼接而成,而是模型一氣呵成地生成的,」他解釋道?!肝覀儾](méi)有特別指令它這么做,它卻能自動(dòng)完成?!?/span>


Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

不過(guò),當前的模型并不完美。它在模擬復雜場(chǎng)景的物理效果上可能會(huì )遇到難題,有時(shí)也難以準確理解特定情境下的因果關(guān)系。比如,某人吃掉餅干的一部分后,餅干可能看起來(lái)仍然完整無(wú)損。

此外,模型在處理空間細節,如區分左右時(shí)可能會(huì )出錯,也可能在描述隨時(shí)間變化的事件,如特定的攝影機動(dòng)作軌跡時(shí),表現不夠精確。好在,它還并不完美。否則,虛擬和現實(shí)的界限,還能區分得清嗎?這不是現實(shí)?但是無(wú)可否認的是,可怕的事實(shí)已經(jīng)就在面前:一個(gè)已經(jīng)能夠理解和模擬現實(shí)世界的模型,也就意味著(zhù)AGI已經(jīng)不遠了。

「唯一真正的視頻生成工作」


業(yè)內大佬張啟煊評價(jià)道,「Sora是我目前看到唯一跳脫出空鏡頭生成、真正的視頻生成工作?!?/span>在他看來(lái),目前看來(lái)Sora跟Pika、Runway是有代差的,視頻生成領(lǐng)域終于被OpenAI支配?;蛟S某天3D視頻領(lǐng)域,有朝一日也能體會(huì )到這種恐懼。

網(wǎng)友們都被震驚到失語(yǔ):「下一個(gè)十年會(huì )是瘋狂的十年?!?/span>

圖片

「都結束了,我的飯碗要丟了?!?/span>

圖片

「整個(gè)素材行業(yè)都會(huì )隨著(zhù)這篇成果的發(fā)布而消亡……」

圖片

OpenAI就是沒(méi)法停下干死初創(chuàng )公司的腳步,是嗎?

圖片

「好萊塢即將發(fā)生核爆」。

圖片

AI電影制作人和他們目前的項目。


技術(shù)介紹


Sora是一種擴散模型,它能夠通過(guò)從一開(kāi)始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過(guò)多步驟的噪聲去除過(guò)程,逐漸生成視頻。

Sora不僅能夠一次性生成完整的視頻,還能延長(cháng)已生成的視頻。

通過(guò)讓模型能夠預見(jiàn)多幀內容,團隊成功克服了確保視頻中的主體即便暫時(shí)消失也能保持一致性的難題。

與GPT模型類(lèi)似,Sora采用了Transformer架構,從而實(shí)現了卓越的性能擴展。

OpenAI把視頻和圖像分解為較小的數據單元——「patches」,每個(gè)「patches」相當于GPT中的一個(gè)「token」。

這種統一的數據表示方法能夠在更廣泛的視覺(jué)數據上訓練擴散Transformer,覆蓋了不同的持續時(shí)間、分辨率和縱橫比。

Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重標注技術(shù),通過(guò)為視覺(jué)訓練數據生成詳細描述的標題,使模型更加準確地遵循用戶(hù)的文本指令生成視頻。

除了能根據文本指令生成視頻外,這款模型還能將現有的靜態(tài)圖像轉化成視頻,精確細致地賦予圖像中內容以生動(dòng)的動(dòng)畫(huà)。模型還能擴展現有視頻或補全缺失的幀。

Sora為理解和模擬現實(shí)世界的模型奠定了基礎,對此OpenAI認為這是實(shí)現通用人工智能(AGI)的重要步驟。

作品欣賞


一列火車(chē)穿越東京郊區時(shí),窗戶(hù)上反射出的迷人景象。


Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

在雪地草原上,幾只巨大的羊毛猛犸象緩緩前行,它們長(cháng)長(cháng)的毛皮在微風(fēng)中輕輕飄揚。遠處是雪覆蓋的樹(shù)木和雄偉的雪山,午后的陽(yáng)光穿透薄云,給這個(gè)場(chǎng)景增添了一抹溫暖的光彩。低角度的拍攝令這些龐大的毛茸茸動(dòng)物顯得尤為壯觀(guān),景深效果引人入勝。


Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

無(wú)人機從空中俯瞰大蘇爾加雷角海灘附近的崎嶇懸崖,海浪沖擊著(zhù)巖石,形成白色的浪尖,落日的金色光輝照亮了巖石海岸。遠處有一個(gè)小島上立著(zhù)燈塔,懸崖邊緣覆蓋著(zhù)綠色植被。從道路到海灘的陡峭下降和懸崖邊緣凸出的景象,展現了海岸的原始美麗和太平洋海岸公路的崎嶇風(fēng)景。


Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

藍色時(shí)刻下的圣托里尼島航拍視圖,展現了白色基克拉迪建筑和藍色圓頂的絕美建筑?;鹕娇诘木吧钊藝@為觀(guān)止,燈光營(yíng)造出一種美麗而寧靜的氛圍。


Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

一位20多歲的年輕人坐在天空中的一朵云上,沉浸在書(shū)本中。


Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

一群活潑的金毛尋回犬小狗在銀白色的雪地上嬉戲,它們好奇的小腦袋時(shí)而從雪地中探出,被雪花點(diǎn)綴,萌態(tài)十足。


Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

在意大利布拉諾一排排鮮艷的彩色建筑中,一只可愛(ài)的斑點(diǎn)狗正通過(guò)窗戶(hù)好奇地望向外面。與此同時(shí),街道上人來(lái)人往,有的步行,有的騎行。


Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

一幅充滿(mǎn)工人、設備和重型機械的建筑工地的移軸攝影。


Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.

在一個(gè)培養皿中,生長(cháng)著(zhù)一片竹林,其中小熊貓們在歡快地奔跑。


Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.

一只卡通袋鼠正在迪斯科舞池中跳舞。


Prompt: A cartoon kangaroo disco dances.

在一杯咖啡中,兩艘海盜船展開(kāi)了激烈的戰斗,超寫(xiě)實(shí)的近景視頻。


Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

大佬猜測:游戲引擎加持?


Pytorch聯(lián)合創(chuàng )始人Soumith Chintala猜測道,「根據Sam Altman發(fā)布的所有用戶(hù)請求視頻,Sora似乎是由游戲引擎提供支持,并為游戲引擎生成作品和參數」。

圖片

英偉達高級科學(xué)家Jim Fan對全新Sora模型,發(fā)表了一些自己的觀(guān)點(diǎn):

Sora是一個(gè)數據驅動(dòng)的物理引擎。它是對許多世界的模擬,無(wú)論是真實(shí)的,還是虛構的。該模擬器通過(guò)去噪和梯度學(xué)習方式,學(xué)習了復雜的渲染、「直觀(guān)的」物理、長(cháng)期推理和語(yǔ)義理解。

如果Sora使用虛幻引擎5接受過(guò)大量合成數據的訓練,我不會(huì )感到驚訝的。必須如此!


同樣,愛(ài)丁堡大學(xué)的博士生Yao Fu表示,「生成式模型學(xué)習生成數據的算法,而不是記住數據本身。就像語(yǔ)言模型編碼生成語(yǔ)言的算法(在你的大腦中)一樣,視頻模型編碼生成視頻流的物理引擎。語(yǔ)言模型可以視為近似人腦,而視頻模型近似物理世界」。


重塑視頻行業(yè)


雖然,文本轉視頻技術(shù)要威脅到傳統電影制作,可能還需要很長(cháng)時(shí)間——

你無(wú)法通過(guò)簡(jiǎn)單地將120個(gè)Sora生成的一分鐘視頻拼接起來(lái)制作出連貫的電影,因為這些模型無(wú)法確保內容的連續性。


但是,這并不妨礙Sora和類(lèi)似的程序徹底改變TikTok等社交平臺。

「制作一部專(zhuān)業(yè)電影需要大量的昂貴設備?!筆eebles 說(shuō),「這個(gè)模型將讓普通人在社交媒體上制作出高質(zhì)量的視頻內容成為可能?!?/span>

 


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: OpenAI

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>