Pika 1.0首測秒殺Gen-2!網(wǎng)友搶先體驗電影級炸裂效果,背后技術(shù)細節首公開(kāi)
編輯:桃子
【導讀】Pika 1.0首測開(kāi)啟了!網(wǎng)友搶先體驗,每個(gè)視頻都是經(jīng)典。
Pika 1.0正式上線(xiàn)后,拿到內測資格的網(wǎng)友們已經(jīng)玩瘋了!
有人用它生成了一個(gè)姜黃色頭發(fā)女孩和她的姜黃色貓的短片。以往,因為一致性的難題,用AI視頻很難做出優(yōu)秀的動(dòng)漫作品。但是Pika 1.0,實(shí)在是太給人驚喜了!更令人震驚的是,作者表示,這是100%用文本到視頻生成的。
還記得半個(gè)月前,這家有斯坦福AI Lab博士創(chuàng )辦的初創(chuàng )公司Pika,發(fā)布的第一個(gè)產(chǎn)品瞬間成為頂流。不僅能夠生成3D動(dòng)畫(huà)、動(dòng)漫、卡通和電影,甚至可以實(shí)現風(fēng)格轉換、幕布擴展等重磅能力。
如今,許多網(wǎng)友到手體驗后,紛紛覺(jué)得太哇塞了。與此同時(shí),Pika官方賬號公布了自家的最新研究。這是Pika 1.0發(fā)布產(chǎn)品以來(lái),這家公司首次對外披露技術(shù)細節。
最新研究中,提出了一種DreamPropeller方法,能夠將文本到3D的生成速度提升4.7倍。
網(wǎng)友實(shí)測,皆為經(jīng)典
接下來(lái),先來(lái)一起看看,廣大網(wǎng)友們的創(chuàng )意。比起Runway的Gen-2,Pika 1.0在讓人物動(dòng)起來(lái)時(shí)的一致性非常穩定。
Pika 1.0非常擅長(cháng)動(dòng)漫風(fēng)格的動(dòng)物,看看這些不同場(chǎng)景中的老鷹就知道了。看得出,宮崎駿畫(huà)風(fēng)非常濃郁。
還有這種漫威風(fēng)格的小人模型,讓他們動(dòng)起來(lái)真的像是「復仇者聯(lián)盟」。?
還有形單影只的白天鵝,在波光粼粼的湖中嬉戲,再游到岸邊,好像在找回家的路。
就連美版「機器人總動(dòng)員」動(dòng)畫(huà)的科幻風(fēng),呈現的也是淋漓盡致。
一朵含苞待放的花朵。?
如下這個(gè)例子是Pika自己做的叢林中兔子士兵的電影級效果,并給出了提示(拿到內測資格的網(wǎng)友可試)1. Cinematic, extreme close-up of a bunny soldier in a jungle, 3D rendering2. Cinematic, back-view long shot of a bunny soldier exploring a giant carrot in the jungle, 3D rendering?
瘋狂動(dòng)物城、獅子王、熊大熊二混版動(dòng)畫(huà)。
網(wǎng)友做了一個(gè)電影預告片,就連名字都想好了「金剛哥斯拉:新帝國」。
愛(ài)因斯坦和他的實(shí)驗。
還有一位自稱(chēng)「AI級導演」做出的真人演示效果,簡(jiǎn)直絕絕子。戴上帽子,穿上羽絨服,服飾的搭配與人的身體契合度,毫無(wú)違和感。
還可以把周邊的物體變成松柏,還能把自己變成北極熊,簡(jiǎn)直可愛(ài)到爆。
還有「泰坦尼克號」重制版,女主Rose直接變成熊貓,和男主Jack在一起牽手的畫(huà)風(fēng),你細品...
用AI「修改區域」,能夠把所有背景,甚至包括主體的衣服能夠換成一致的圣誕的風(fēng)格。還有網(wǎng)友嘗試了這一替換功能,把海邊的啤酒,瞬間變成了可樂(lè )。具體實(shí)現效果,Chase Lean給出了一個(gè)教程,只需要3步過(guò)程。首先需要生成一個(gè)視頻,先讓Midjourney生成一張海邊Corona啤酒的圖片,然后將其做成視頻。
第二步:?jiǎn)螕簟妇庉嫛?,然后單擊「修改區域」。
第三步,告訴Pika你想用什么來(lái)代替它,比如可口可樂(lè )。
圖像畫(huà)布擴展能力,其實(shí)我們也見(jiàn)到了許多像MidjourneyAI圖像生成工具已經(jīng)實(shí)現了。而Pika 1.0不僅能開(kāi)出腦洞,還能讓畫(huà)面動(dòng)起來(lái)。就看這雅典帕特農神廟,外畫(huà)出的景色更加凸顯這座建筑的壯觀(guān)。還有橄欖樹(shù)、游覽古建筑都能暗藏各種驚喜。
你可以錄一段視頻,Pika能夠直接想象出背景。
下面這個(gè)網(wǎng)友使用文本提示創(chuàng )建了第一個(gè)視頻,然后擴展畫(huà)布幾次,獲得了第二個(gè)視頻。
初始提示是:A beautiful princess, standing on the castle wall, 3d animation
還有網(wǎng)友做出了,演唱會(huì )級的音樂(lè )視頻,不過(guò)不得不承認,還有些不足的地方。
Pika 1.0背后技術(shù)
看到這么多驚艷的效果,或許許多人更想了解一些關(guān)于Pika 1.0生成的技術(shù)細節。
這不,官方剛剛公布了一篇論文,是由斯坦福大學(xué)和Pika Labs聯(lián)手共創(chuàng )。以往,通過(guò)分數蒸餾,比如DreamFusion、ProlificDreamer等模型,進(jìn)行文本到3D的生成質(zhì)量雖高,但運行時(shí)間可能長(cháng)達10個(gè)小時(shí)。最新論文中,研究人員提出了一種基于分數蒸餾的加速方法——DreamPropeller,能夠將現有方法的速度提高4.7倍。
論文地址:https://arxiv.org/pdf/2311.17082.pdfDreamPropeller整體架構如下圖所示。在每次迭代(k次)的開(kāi)始,初始化一個(gè)由3D形狀(用綠色表示)組成的窗口,然后,這些形狀被分發(fā)到p個(gè)GPU上進(jìn)行并行計算,在GPU上并行計算形狀的SDS/VSD梯度。然后根據公式 (9) 中的規則收集這些梯度,并使用這些梯度對形狀進(jìn)行更新。窗口向前滑動(dòng),直到該時(shí)間步的誤差不小于閾值e,閾值e根據窗口的平均/中值誤差進(jìn)行自適應更新。另外,在VSD的情況下,研究人員會(huì )在所有GPU上保留LoRA擴散的獨立副本,這些副本會(huì )獨立更新,無(wú)需額外通信。
如下是應用DreamPropeller的代表性示例。最新框架以并行計算換取速度,在保持生成質(zhì)量的前提下,應用于DreamGaussian和ProlificDreamer時(shí),速度提高了 4 倍以上。在DreamPropeller完成時(shí),基線(xiàn)版本的外觀(guān)和幾何效果明顯較差。
如下是與其他模型的可視化比較。使用DreamPropeller的方法能以更短的運行時(shí)間實(shí)現同樣高質(zhì)量的生成。
對DreamFusion圖庫中的30個(gè)提示進(jìn)行量化評估。運行時(shí)間以秒為單位。最新研究的方法達到了具有競爭力的質(zhì)量,同時(shí)速度提高了4倍以上。
下一個(gè)視頻生成頂流
對于Pika 1.0的誕生,讓全網(wǎng)熱血沸騰,而它或許成為下一個(gè)視頻生成的頂流。有人統計了Discord上最大的人工智能產(chǎn)品,以及它們在平臺范圍內的規模。如下是按邀請頁(yè)面流量排序的十大人工智能應用程序,Midjourney位列第一,Pika排在第二。
在排名前十的應用程序中,有4個(gè)是圖片生成應用程序,3個(gè)是語(yǔ)音/歌曲生成應用程序,2個(gè)是視頻生成應用程序。按流量計算,圖片占了前10名流量的74%,其次是視頻8%,語(yǔ)音/音樂(lè )6%。
來(lái)源:新智元
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。