谷歌DeepMind發(fā)布Genie 2模型 可一鍵生成超逼真3D互動(dòng)世界
12月5日消息,美國當地時(shí)間周三,谷歌旗下人工智能研究機構DeepMind推出了一款新模型,能夠創(chuàng )造出“無(wú)窮無(wú)盡”且各具特色的3D世界。
本文引用地址:http://dyxdggzs.com/article/202412/465202.htm這款模型名為Genie 2,是DeepMind在今年早些時(shí)候推出的Genie模型的升級版。僅憑一張圖片和一段文字描述,例如“一個(gè)可愛(ài)的機器人置身于茂密的森林中”,Genie 2就能構建出一個(gè)交互式的實(shí)時(shí)場(chǎng)景。在這方面,它與李飛飛創(chuàng )立的World Labs以及以色列新興企業(yè)Decart所開(kāi)發(fā)的模型有著(zhù)異曲同工之妙。
DeepMind宣稱(chēng),Genie 2能夠生成“豐富多樣的3D世界”,用戶(hù)可通過(guò)鼠標或鍵盤(pán)在這些世界中自由跳躍、游泳等。經(jīng)過(guò)視頻訓練,該模型能夠精準模擬物體的交互、動(dòng)畫(huà)效果、照明、物理現象、反射效果以及“NPC”(非玩家角色)的行為。
Genie 2所創(chuàng )造的許多模擬場(chǎng)景,其視覺(jué)效果堪比AAA級視頻游戲,這很可能是因為該模型的訓練數據中融入了眾多熱門(mén)游戲的體驗。然而,與眾多人工智能實(shí)驗室一樣,DeepMind出于競爭壓力或其他考量,并未過(guò)多透露其數據來(lái)源及訓練方法的細節。
這項技術(shù)對知識產(chǎn)權的影響引發(fā)關(guān)注。作為谷歌的子公司,DeepMind無(wú)疑能不受限制地訪(fǎng)問(wèn)YouTube。而谷歌此前曾暗示,其協(xié)議允許使用YouTube視頻進(jìn)行模型訓練。但問(wèn)題是,Genie 2在制作過(guò)程中,是否無(wú)意間制作了它所“觀(guān)看”的視頻游戲未經(jīng)授權的復制品,恐怕只有法院才能給出最終裁決。
DeepMind透露,Genie 2具備從不同視角(如第一人稱(chēng)視角與等距視角)生成連貫世界的能力,這些生成的世界可持續時(shí)間長(cháng)達一分鐘,盡管多數情況下維持在10到20秒之間。
DeepMind團隊在博客文章中表示:“Genie 2能夠智能地根據鍵盤(pán)操作作出反應,準確識別角色并相應移動(dòng)它。舉例來(lái)說(shuō),我們的模型能夠判斷方向鍵應控制機器人的移動(dòng),而非樹(shù)木或云朵?!?/p>
眾多類(lèi)似Genie 2的模型雖能模擬游戲及3D環(huán)境,卻常面臨人造感、連貫性缺失及幻覺(jué)相關(guān)的挑戰。例如,Decart的《我的世界》模擬器Oasis便存在分辨率低、迅速“遺忘”關(guān)卡布局的問(wèn)題。
相比之下,Genie 2能夠記憶模擬場(chǎng)景中未直接呈現的部分,并在它們重現時(shí)精準渲染,這一能力同樣體現在李飛飛World Labs的模型中。
然而,目前利用Genie 2制作的游戲尚缺乏足夠的趣味性,因為它們每分鐘都會(huì )清除玩家的進(jìn)度。因此,DeepMind將Genie 2定位為一種研究與創(chuàng )新工具,專(zhuān)門(mén)用于“互動(dòng)體驗”的原型制作及AI智能體的評估。
DeepMind在博客中寫(xiě)道:“得益于Genie 2卓越的泛化能力,概念藝術(shù)和圖紙得以輕松轉化為完全互動(dòng)的環(huán)境。借助Genie 2,我們的研究人員能夠快速構建出豐富多樣的環(huán)境供AI智能體使用,進(jìn)而生成訓練期間未遭遇過(guò)的評估任務(wù),以檢驗智能體的應對能力?!?/p>
對于創(chuàng )意工作者,尤其是電子游戲行業(yè)的從業(yè)者而言,這種技術(shù)可能讓他們喜憂(yōu)參半。近期,《連線(xiàn)》雜志的一項調查顯示,諸如動(dòng)視暴雪等大公司正借助人工智能技術(shù)來(lái)縮減成本、提升效率,并應對員工流失的問(wèn)題。事實(shí)上,動(dòng)視暴雪已裁汰了數十名員工。
盡管如此,谷歌在世界模型研究領(lǐng)域的投入正持續加大,這一領(lǐng)域有望成為人工智能領(lǐng)域的下一個(gè)重大突破。去年10月,DeepMind成功招募了蒂姆·布魯克斯(Tim Brooks),他此前負責OpenAI視頻生成器Sora的開(kāi)發(fā)工作,現負責視頻生成技術(shù)和世界模擬器的研發(fā)。
兩年前,DeepMind還從Meta挖來(lái)了蒂姆·羅克塔謝爾(Tim Rockt?schel),他因對《NetHack》等電子游戲的“開(kāi)放性”實(shí)驗而聞名。
評論