英特爾居然也來(lái)搞GTA5美化MOD了……?
——
文|杜晨 編輯|Vicky Xiao 圖片來(lái)源 | Intel Labs 論文、視頻截圖
最近有玩家做了這么一張梗圖:PS2平臺有三款《俠盜獵車(chē)手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平臺……惡搞沒(méi)惡意,搞搞別生氣。這張梗圖能夠傳播,也是因為 GTA5 實(shí)在是電子游戲領(lǐng)域的常青樹(shù):自從2013年在 PS3/Xbox360 平臺發(fā)布,包括單機和在線(xiàn)模式 DLC 的總銷(xiāo)量已經(jīng)突破1.4億份……
這邊開(kāi)發(fā)公司R星遲遲不發(fā)新作,那邊電腦游戲平臺的CPU/顯卡硬件和顯示技術(shù)已經(jīng)更新了好幾代。因此,GTA5 美化 MOD 也成為了玩家熱衷的修改方向。從真實(shí)汽車(chē)模型,到更大范圍的地圖和視覺(jué)效果修改,多種多樣的 MOD 顯著(zhù)增強了 GTA5 的生命力,讓這款已經(jīng)快要10歲的游戲仍能令玩家感到新意。開(kāi)發(fā) MOD 的大多是國外大神,因為涉及到違反用戶(hù)協(xié)議的灰色地帶,MOD 開(kāi)發(fā)工作通常是個(gè)人非營(yíng)利性質(zhì)的。不過(guò)最近,我們非常詫異地發(fā)現:竟然英特爾也在“官方”開(kāi)發(fā) GTA5 美化 MOD!
↑ 可能略微有點(diǎn)標題黨……實(shí)際情況是:英特爾實(shí)驗室耗時(shí)多年研發(fā)了 EPE (Enhancing Photorealisim Enhancement),一項基于深度學(xué)習卷積神經(jīng)網(wǎng)絡(luò )的合成圖像逼真性算法。它能夠逐幀優(yōu)化 GTA5 輸出的原始畫(huà)面,配合多種第三方街景數據庫,生成不同風(fēng)格的擬真游戲畫(huà)面。最近英特爾實(shí)驗室 (Intel Labs) 發(fā)布了一篇論文,介紹了他們在深度學(xué)習圖像逼真度提升方面的最新進(jìn)展。而他們的實(shí)驗過(guò)程,采用的就是 GTA5 的圖像。英特爾的研究員設計了一套多模塊的卷積神經(jīng)網(wǎng)絡(luò )架構,對 GTA5 和第三方城市街景圖像庫的數據進(jìn)行學(xué)習。玩家大神制作的 MOD,主要依靠事先調換圖形素材、更新渲染引擎、增加光追支持等;而英特爾的思路是:直接用未修改的游戲的原始視頻和數據輸出,輸入到深度學(xué)習系統里,實(shí)時(shí)演算出優(yōu)化后的圖像。論文作者 Vladlen Koltun 介紹這套系統的工作方式:它可以接入到游戲上,你可以把它理解為 GTA5 的圖像后處理系統。論文作者之一的 Koltun,是英特爾智慧系統部門(mén)的首席科學(xué)家。他在歐洲圖形學(xué)大會(huì ) Eurographics 2021 上透露,EPE 算法在英特爾實(shí)驗室費時(shí)兩年時(shí)間研發(fā),效果此前從未在外部公開(kāi)過(guò)?!埃‥PE)屬于那種需要長(cháng)時(shí)間投入,幾個(gè)月內都不會(huì )產(chǎn)出結果,研究時(shí)長(cháng)以年為單位的那種研究,”Koltun 表示,“在(圖像合成逼真性)的問(wèn)題上,想要做出一點(diǎn)能拿得出手的結果并不難,找幾張效果好的照片,放到論文里就完了;但要發(fā)明一種真的能用的方案 (something that really, really works),是非常艱難的?!?br />接下來(lái)讓我們深入了解一下,英特爾實(shí)驗室的這套 “GTA5 美化 MOD”的具體工作方式。
老“游戲”,新“玩法”
GTA5 已經(jīng)是一款快10年的老游戲了,但無(wú)論是在單機還是在線(xiàn)模式中,玩家總能發(fā)明出各種有趣或稀奇古怪的新玩法……同樣,畫(huà)面美化 MOD 也是一個(gè)伴隨 GTA5 存在了很多年的領(lǐng)域了,“民間”的技術(shù)方向也就那么幾種。而這次,英特爾實(shí)驗室用了新“玩法”,在畫(huà)面逼真性上實(shí)現了前所未有的突破。EPE 算法的訓練原理如下圖:簡(jiǎn)單來(lái)說(shuō),EPE 整合了三個(gè)獨立的神經(jīng)網(wǎng)絡(luò ),處理三種不同的數據源:GTA5 自帶渲染引擎輸出的 buffer 緩沖數據,游戲直出畫(huà)面,以及第三方街景數據庫的圖像。1)GTA5 游戲自帶的渲染引擎,能夠輸出一組名為 G-buffer 的數據,其中包括畫(huà)面中物體的種類(lèi)、和玩家視角攝像頭之間的距離、表面材質(zhì)、光滑程度、反照率、光照數據等等。這些數據,輸入到一套卷積神經(jīng)網(wǎng)絡(luò )數據流當中,提取出各類(lèi)數據的遮罩圖,用于訓練神經(jīng)網(wǎng)絡(luò );然后經(jīng)過(guò)一系列專(zhuān)門(mén)設計的殘差模塊,輸出不同規模的張量特征數據。2)借助前一步的訓練結果,訓練一個(gè)圖像增強神經(jīng)網(wǎng)絡(luò ),然后把游戲直出畫(huà)面,輸入這個(gè)神經(jīng)網(wǎng)絡(luò )里,得到增強后的圖像:3)真正的圖像翻譯工作發(fā)生在這一步:游戲直出畫(huà)面、增強圖像,和第三方街景數據庫的相似圖像,一起輸入到一個(gè)感知辨別器(神經(jīng)網(wǎng)絡(luò )),經(jīng)過(guò)一系列計算,生成感知特征圖、標簽圖,以及相關(guān)的插值等數據,最終“翻譯”合成為一張圖。這一部分也采用了對抗模型的設計,經(jīng)過(guò)持續的訓練,最終輸出的圖片能夠準確還原游戲直出畫(huà)面當中的物體構成,并且完美轉移外部數據庫圖像的風(fēng)格。比如,下圖為英特爾實(shí)驗室用 GTA5 和 Cityscapes 數據庫結合生成的畫(huà)面風(fēng)格。由于 Cityscapes 的圖像數據大多來(lái)自于德國,具有獨特的畫(huà)面風(fēng)格,所以你可以看出來(lái),“美化”出來(lái)的結果似乎偏綠,有些陰冷;并且,由于德國植被更加茂盛,你可以看到 GTA5 里圣安地列斯(原型為洛杉磯)光禿、干燥、偏黃的山丘,渲染出了濃密的綠色植被。如果你對 EPE 的工作原理感興趣,可以看這個(gè)解說(shuō)視頻:技術(shù)創(chuàng )新
根據硅星人的理解,這篇論文提出的圖像翻譯方法有幾個(gè)創(chuàng )新之處。正如前述,傳統的 GTA5 美化 MOD 的實(shí)現思路,都需要對游戲文件進(jìn)行重度修改,有可能造成文件損壞,而且很難在多人在線(xiàn)模式下使用,以及也涉及違反游戲使用協(xié)議的灰色地帶。
而 EPE 的思路不同之處,在于它直接在游戲輸出畫(huà)面的基礎上進(jìn)行美化,不涉及游戲文件修改,也就不違反使用協(xié)議。(當然前面也提到,在訓練過(guò)程中它確實(shí)也需要”監聽(tīng)“游戲系統運行時(shí)渲染引擎輸出的數據。
當然,EPE 也不是第一個(gè)采用深度學(xué)習思路進(jìn)行 GTA5 畫(huà)面優(yōu)化的技術(shù)。在此之前,UC Berkeley 和 Adobe 研究院共同開(kāi)發(fā)的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大學(xué)、UCB、商湯共同開(kāi)發(fā)的 TSIT (Two-Stream Image-to-image Translation) ——這兩個(gè)算法都是此前世界領(lǐng)先的圖像翻譯算法。但至少在 GTA5 上,這兩個(gè)算法都存在嚴重的圖像失真情況。比如,CUT 在渲染尺寸較小、和周遭環(huán)境相對獨立的物體(比如樹(shù)木、告示牌、行人等)時(shí)會(huì )出現重影,而且時(shí)序穩定性不佳;而 TSIT 算法渲染的結果,會(huì )在畫(huà)面上部的天空區域中出現嚴重失真,增加一些不存在的植被,英特爾實(shí)驗室的科學(xué)家認為,這些算法失真的情況,可能是由訓練時(shí)采用的第三方數據庫所導致的。比如攝像頭的角度太低導致遠景中的樹(shù)木占滿(mǎn)屏幕上部。如下圖所示,在 Cityscapes 數據庫的很多照片里,植被的區域很大,而通常 GTA5 畫(huà)面中的植被很小。 甚至在 Cityscapes 數據庫中,由于數據采集車(chē)上有一個(gè)奔馳車(chē)標,其它算法在渲染的時(shí)候也會(huì )誤以為這個(gè)車(chē)標也是道路特征的一部分:在訓練 EPE 的時(shí)候,英特爾的團隊故意縮小了神經(jīng)網(wǎng)絡(luò )的視野范圍,讓它可以聚焦于畫(huà)面中特定的物體。EPE 在 GTA5 圖像逐幀美化的真實(shí)度、時(shí)序穩定性等方面達到了目前最先進(jìn)的水平,顯著(zhù)優(yōu)于 CUT、TSIT 等基于深度學(xué)習的圖像到圖像翻譯算法:因為算法的設計,它還有一點(diǎn)“即插即用”的感覺(jué),可以接入各種各樣的外部數據庫,實(shí)現不同風(fēng)格的美化結果。比如 Mapillary Vistas,是一個(gè)來(lái)自全世界各地的街景圖像數據庫,風(fēng)格更加多樣,色彩更鮮明。這種風(fēng)格也可以通過(guò) EPE 算法翻譯到 GTA5 的畫(huà)面里,效果更加接印象中圣安地列斯的樣子:下圖左邊為游戲直出畫(huà)面,右邊為采用 Mapillary Vistas 作為目標風(fēng)格的美化結果,可以看出畫(huà)面色彩飽和度有很大提升;為了降低游戲渲染壓力而在遠景加入的迷霧,也得到了優(yōu)化。
網(wǎng)友評價(jià):什么?這居然不是真的?
5月11日,英特爾實(shí)驗室把 EPE 的介紹視頻發(fā)到了 YouTube上。只用了半個(gè)月,這個(gè)視頻的觀(guān)看量已經(jīng)超過(guò)了270萬(wàn)……大部分網(wǎng)友評價(jià)都是從非專(zhuān)業(yè)角度出發(fā)的,但都對團隊演示的渲染結果表示震驚……網(wǎng)友 Fat Tabby 留言:如果你給我看這個(gè)視頻并且跟我說(shuō)是行車(chē)記錄儀拍出來(lái)的,我應該會(huì )相信你。網(wǎng)友 G Luong 表示:這才是真正的圖像擬真。其它所有的畫(huà)面美化 MOD 其實(shí)只是增加反射,并且讓每一條路都變得很潮濕而已。
也有好幾位眼尖的玩家發(fā)現,如果按照 Cityscapes 的風(fēng)格進(jìn)行美化,出來(lái)的畫(huà)面風(fēng)格其實(shí)倒是跟 GTA4(設定在 Liberty City,以紐約為原型,風(fēng)格較為陰暗)。網(wǎng)友 OK DOK 表示,怪不得當初 GTA4 出來(lái)的時(shí)候,人們都驚訝于一款游戲居然能如此”真實(shí)“。網(wǎng)友 Cosine 說(shuō)的很對:沒(méi)有那么炫酷的反射,沒(méi)有過(guò)飽和的顏色和超高的亮度,才是最”真實(shí)“的游戲。說(shuō)來(lái)有趣,英特爾跟 GTA5 已經(jīng)是老朋友了——當然,指的不是游戲,而是研究層面。早在2016年,英特爾實(shí)驗室和德國達姆施塔特工業(yè)大學(xué)就在嘗試用 GTA5 做自動(dòng)駕駛方面的研究。當時(shí)自動(dòng)駕駛已經(jīng)成為新的技術(shù)趨勢,但出于現實(shí)成本等因素,不是所有人都能獲得大量真實(shí)道路的視覺(jué)數據用于研究。所以英特爾和該大學(xué)組建了團隊,試圖從 GTA5 等游戲中提取接近于真實(shí)道路情況的數據,幫助自動(dòng)駕駛技術(shù)訓練。他們當時(shí)還發(fā)布了一篇論文 Playing for Data: Ground Truth from Computer Games——當年的那個(gè)團隊里,就有今天這篇 EPE 論文里的 Vladlen Koltun。所以今天我們可以說(shuō),這位英特爾智能系統部門(mén)的首席科學(xué)家,也是 GTA5 美化 MOD 領(lǐng)域的大神了!
你們說(shuō),Koltun 會(huì )不會(huì )也跟大家一樣,焦急等待著(zhù)R星發(fā)布 GTA6 呢?當然,如果 GTA6 也能用上類(lèi)似的深度學(xué)習圖像擬真技術(shù)的話(huà),硅星人還是愿意再等一等的……——轉念一想,你們覺(jué)得 GTA6 還不發(fā)布,會(huì )不會(huì )真的是因為R星用了某種超級前沿的技術(shù),目前的主機性能——即使是 PS5——都還無(wú)法實(shí)現?
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。