<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > “賣(mài)鏟人”也坐不住了!英偉達視頻AI大模型出爐

“賣(mài)鏟人”也坐不住了!英偉達視頻AI大模型出爐

發(fā)布人:科創(chuàng )板日報 時(shí)間:2023-04-24 來(lái)源:工程師 發(fā)布文章

近日,英偉達與慕尼黑大學(xué)等院校的研究人員聯(lián)合發(fā)布了一篇有關(guān)視頻潛在擴散模型(VideoLDM,Latent Diffusion Model)的論文,該模型能夠將文本轉換成視頻,實(shí)現高分辨率的長(cháng)視頻合成。相關(guān)論文已經(jīng)發(fā)表在預印本網(wǎng)站arXiv上。

圖片

研究人員給出“一個(gè)泰迪熊正在彈電吉他、高清、4K”等文本提示詞后,運用VideoLDM,成功生成了相關(guān)視頻(已轉為GIF格式):

圖片

目前,VideoLDM生成視頻的最高分辨率可達2048×1280、24幀。研究團隊僅公布了論文和一些成品視頻案例,暫未開(kāi)放試用。

據介紹,相對來(lái)說(shuō),該模型對于訓練和計算的要求較低。在文字大模型、文生圖大模型發(fā)展迅速的當下,受限于視頻訓練數據的計算成本高昂以及缺乏大規模公開(kāi)可用的數據集等原因,視頻大模型的發(fā)展相對較慢。VideoLDM則成功解決了這個(gè)關(guān)鍵問(wèn)題。

從原理上來(lái)分析,VideoLDM基于圖像數據集預訓練,并在此基礎上加入時(shí)間維度以形成視頻框架,最后在編碼的視頻序列上進(jìn)行微調,得到視頻生成器。

為進(jìn)一步提高分辨率,研究人員從時(shí)間維度將其與擴散模型upsamplers對齊,并與真實(shí)視頻對比驗證,從而將其轉換為時(shí)間一致的視頻超分辨率模型。圖片

此外,研究人員還微調了Stable Diffusion,將其轉換為視頻生成器。他們通過(guò)對Stable Diffusion的空間層進(jìn)行簡(jiǎn)單微調,然后插入時(shí)間對齊層,從

而實(shí)現了視頻的生成。

落實(shí)到應用層面,研究人員給出了兩大具有潛力的應用領(lǐng)域:一是駕駛數據的高分辨率視頻合成,能夠模擬特定駕駛場(chǎng)景,在自動(dòng)駕駛領(lǐng)域中具有巨大的應用潛力;二是創(chuàng )意內容的生成。

在論文中,團隊給出了幾個(gè)駕駛場(chǎng)景視頻的生成案例:圖片

目前,在自動(dòng)駕駛領(lǐng)域,AI大模型被認為能夠賦能感知標注、決策推理等環(huán)節。

華泰證券分析師黃樂(lè )平、陳旭東等于4月13日發(fā)布研報指出,AI大模型有望解決行業(yè)數據標注準確率及成本困境。該機構以DriveGPT為例進(jìn)行分析,大模型能夠將交通場(chǎng)景圖像的標注費用從行業(yè)平均約5元/張降至約0.5元/張。

與此同時(shí),機構還認為大模型將賦能場(chǎng)景生成、軌跡預測、推理決策等環(huán)節,能夠根據駕駛場(chǎng)景序列數據,生成未來(lái)可能發(fā)生的多種駕駛環(huán)境并預測每種情況下車(chē)輛行駛軌跡。國泰君安亦指出AIGC將有助于自動(dòng)駕駛的推進(jìn)落地。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>