<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 谷歌又炫技:派個(gè)AI,幫科幻大師劉宇昆把小說(shuō)寫(xiě)了

谷歌又炫技:派個(gè)AI,幫科幻大師劉宇昆把小說(shuō)寫(xiě)了

發(fā)布人:硅星人 時(shí)間:2022-11-09 來(lái)源:工程師 發(fā)布文章
Jeff Dean 表示:“更多的進(jìn)展即將到來(lái)?!?/span>

——文|杜晨  編輯|VickyXiao

近幾年科技行業(yè)瘋狂加注超大規模語(yǔ)言模型,一個(gè)最主要的成果就是“人工智能創(chuàng )造內容”(AIGC) 技術(shù)突飛猛進(jìn)。兩年前 OpenAI 通過(guò) GPT-3 模型展示了大語(yǔ)言模型的多樣化實(shí)力。而最近各種 AI 基于文字提示生成圖片的產(chǎn)品,更是數不勝數。
有趣的是,今年以來(lái) AIGC 的風(fēng)頭基本都被 Stable Diffusion、Craiyon、Midjourney 等“小玩家”給搶了——像谷歌這樣的 AI 巨頭,反而沒(méi)怎么見(jiàn)動(dòng)靜。
但其實(shí)谷歌并沒(méi)有“躺平”。
臨近年底,在11月2日早上,谷歌終于放出了大招。這家在 AI 研究上最久負盛名的硅谷巨頭,居然一鼓作氣發(fā)布了四項最新的 AIGC 技術(shù)成果,能夠根據文本提示生成
高分辨率長(cháng)視頻3D模型音樂(lè )代碼以及可控文本生成技術(shù)。
圖片
圖片來(lái)源:Google Research
“用 AI 賦能的生成式模型,具有釋放創(chuàng )造力的潛能。通過(guò)這些技術(shù),來(lái)自不同文化背景的人們都可以更方便地使用圖像、視頻和設計來(lái)表達自己,這在以前是無(wú)法做到的,”谷歌 AI 負責人 Jeff Dean 說(shuō)道。
他表示,經(jīng)過(guò)谷歌研究人員的不懈努力,現在公司不僅擁有在生成質(zhì)量方面在行業(yè)領(lǐng)先的模型,還在這些模型基礎上取得了進(jìn)一步創(chuàng )新。
圖片
Jeff Dean   圖片來(lái)源:谷歌
這些創(chuàng )新,包括“超分辨率的視頻序列擴散模型”——也即將AI“文生圖”擴展到“文生視頻”,并且仍然確保超高清晰度。
以及 AudioLM,一個(gè)無(wú)需文字和音樂(lè )符號訓練,僅通過(guò)聆聽(tīng)音頻樣本,就可以繼續生成填補樂(lè )曲的音頻模型。

從生成文字,到生成代碼、音頻、圖片、視頻和3D模型,谷歌似乎正在證明 AIGC 技術(shù)的能力還遠未達到邊界,并且大有用武之地。
接下來(lái),一起好好看看谷歌這次都放了哪些大招。
| AI 寫(xiě)作助手,深受劉宇昆喜愛(ài)?
說(shuō)實(shí)話(huà),看到谷歌做了一款 AI 寫(xiě)作工具的時(shí)候,硅星人是略微有點(diǎn)擔心失業(yè)的……但是了解了關(guān)于這款工具更多的情況之后,這種心情更多地轉化成了欣慰。我們一直在強調AI背后的“大語(yǔ)言模型”技術(shù)背景。而谷歌推出的 LaMDA Wordcraft,就是這樣一款將語(yǔ)言模型核心功能發(fā)揮到極致的技術(shù)LaMDA Wordcraft 在 LaMDA 大語(yǔ)言模型的基礎上開(kāi)發(fā)了一個(gè)寫(xiě)作協(xié)助工具,是谷歌大腦團隊、PAIR(People + AI Research)團隊,以及 Magenta 音頻生成項目組的合作結晶。它的作用,是在創(chuàng )作者寫(xiě)作的過(guò)程當中,根據現有的文本產(chǎn)生新的想法,或者幫助重寫(xiě)已有文句,從而幫助創(chuàng )作者突破“創(chuàng )作瓶頸” (writer's block)。Wordcraft 用戶(hù)界面    圖片來(lái)源:Google Research
LaMDA 本身的設計功能很簡(jiǎn)單:給定一個(gè)單詞,預測下一個(gè)最有可能的單詞是什么,也可以理解成完形填空或者句子補完。
但是有趣的是,因為 LaMDA 的模型規模和訓練數據量實(shí)在是太大了(來(lái)自于整個(gè)互聯(lián)網(wǎng)的文本),以至于它獲得了一種“潛意識”的能力,可以從語(yǔ)言中學(xué)習很多更高層次的概念——而正是這些高層次概念,對于創(chuàng )作者的工作流程能夠帶來(lái)非常大的幫助。谷歌在 Wordcraft 用戶(hù)界面中設計了多種不同的功能,能夠讓創(chuàng )作者自己調整生成文本的風(fēng)格。“我們喜歡把 Wordcraft 比喻成‘魔法文字編輯器’,它有著(zhù)熟悉的網(wǎng)頁(yè)編輯器的樣子,背后卻集成了一系列 LaMDA 驅動(dòng)的強大功能,”谷歌網(wǎng)頁(yè)如是寫(xiě)道。你可以用 Wordcraft 重寫(xiě)語(yǔ)句,也可以讓他把調節你的原始文本從而“更有趣”(to be funnier) 或者“更憂(yōu)郁” (to be more melancholy) 一點(diǎn)。在過(guò)去一年時(shí)間里,谷歌舉行了一個(gè)“Wordcraft 作家研討會(huì )”的合作項目,找來(lái)了13位專(zhuān)業(yè)作家和文字創(chuàng )作者進(jìn)行了長(cháng)期深入的合作,讓他們在自己的創(chuàng )作過(guò)程中借助 Wordcraft 編輯器來(lái)創(chuàng )作短篇小說(shuō)。
圖片值得注意的是,知名科幻作家劉宇昆(熱劇《萬(wàn)神殿》背后的小說(shuō)作者、《三體》英文版譯者)也參與了這一項目。
他在寫(xiě)作過(guò)程中遇到了一個(gè)場(chǎng)景,需要描述在商店里擺放的各種商品——過(guò)去此類(lèi)寫(xiě)作細節比較容易打亂寫(xiě)作思路,但劉宇昆通過(guò) Wordcraft 的幫助可以直接生成一個(gè)列表,節約了自己的腦容量,可以專(zhuān)心去寫(xiě)對故事更重要的東西。
圖片圖片來(lái)源:新浪微博
而在另一個(gè)場(chǎng)景中,他發(fā)現自己的想象力被限制了,一直在重復熟悉的概念。于是他將“主動(dòng)權”交給了 LaMDA,讓它來(lái)開(kāi)頭,“這樣就能夠逼迫我探索一些從未想到過(guò)的可能性,發(fā)現新的寫(xiě)作靈感?!?/span>你可以在 Wordcraft Writers Workshop 的官方頁(yè)面(閱讀原文按鈕)中找到劉宇昆在 Wordcraft 幫助下撰寫(xiě)的短篇小說(shuō) Evaluative Soliloquies。順便,他還借用 Imagen 為小說(shuō)生成了幾張插圖:
圖片圖片來(lái)源:Emily Reif via Imagen

| 超長(cháng)、連貫性視頻的生成,終于被攻破了?
大家對于 AI 文字生成圖片應該都不算陌生了。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名產(chǎn)品問(wèn)世;而谷歌也有自己的AI 文字轉圖片模型,并且一做就是兩個(gè):Imagen(基于大預言模型和行業(yè)流行的擴散模型),和 Parti(基于谷歌自家的 Pathways 框架)。
圖片
圖片來(lái)源:Google Research
盡管今年 AIGC 的熱鬧都被 Stable Diffusion 這些炸子雞給搶光了,低調沉穩的谷歌并沒(méi)有躺平。
當其他人都似乎“階段性”滿(mǎn)足于用文字提示做小圖片時(shí),谷歌其實(shí)已經(jīng)在加速往前沖了:它比任何人都更早進(jìn)入了“文字生成高分辨率視頻”,這一從未被探索過(guò)的復雜技術(shù)領(lǐng)域。
“生成高分辨率,且在時(shí)間上連貫的視頻,是非常困難的工作,” Google Research 高級研究總監 Douglas Eck 表示。
“不過(guò)好在,我們最近有兩項研究,Imagen Video 和 Phenaki,可以解決視頻生成的問(wèn)題?!?/span>

圖片來(lái)源:Google Research
你可以這樣理解:文字轉圖片就是根據一段文字提示來(lái)生成一張(或者多張平行的圖片),而 Imagen Video 和 Phenaki 是可以根據多條文字提示,來(lái)生成在時(shí)序上連貫的多張照片——也就是視頻。
具體來(lái)說(shuō),Imagen Video 是通過(guò)文本生成圖像的擴散模型,能夠生成具有前所未有真實(shí)度的高清畫(huà)面;同時(shí)由于建立在基于 Transformer 技術(shù)的大規模語(yǔ)言模型上,它也具備極強的語(yǔ)言理解能力。
而 Phenaki 則是完全通過(guò)大語(yǔ)言模型,在時(shí)序上不斷生成 token 的方式來(lái)生成視頻。它的優(yōu)勢在于能夠生成極長(cháng)(數分鐘)的視頻,且畫(huà)面的邏輯和視覺(jué)連貫性更強。
兩者結合,強強聯(lián)手,就得到了這樣一條清晰度高,視覺(jué)和邏輯上也更加連貫的視頻:
,時(shí)長(cháng)00:16
原視頻總長(cháng)1分鐘左右,此版本有所加快   視頻來(lái)源:Google Research
附:采用的文字提示

一個(gè)藍色的氣球插在紅杉樹(shù)的樹(shù)枝上鏡頭從掛著(zhù)藍色氣球的樹(shù)上移到動(dòng)物園門(mén)口鏡頭快速移動(dòng)到動(dòng)物園內第一人稱(chēng)視角:在一個(gè)美麗的花園內飛行長(cháng)頸鹿的頭從旁邊冒出來(lái)長(cháng)頸鹿走向一棵樹(shù)放大長(cháng)頸鹿的嘴長(cháng)頸鹿靠近樹(shù)枝,拿起一個(gè)藍色的氣球一個(gè)帶白線(xiàn)的藍色氣球向長(cháng)頸鹿的頭部飛去長(cháng)頸鹿在附近咀嚼藍氣球鏡頭隨著(zhù)單個(gè)藍氣球的飛走而向上傾斜

“說(shuō)句實(shí)在話(huà),這個(gè)項目不是我做的,但我覺(jué)得它真的非常令人驚訝?!盓ck 表示,這項技術(shù)最強大之處,就在于可以使用多條文字提示組成的序列,來(lái)生成超高清晰度的視頻,帶來(lái)一種全新的故事講述的能力。
“當然,AI 視頻生成技術(shù)還處在襁褓階段,我們非常期待跟更多影視專(zhuān)業(yè)人士以及視覺(jué)內容創(chuàng )作者合作,看他們會(huì )如何使用這項技術(shù)?!?/span>
圖片
Douglas Eck    圖片來(lái)源:谷歌

| 無(wú)參考音頻生成
早年 OpenAI 發(fā)布 GPT 初代模型的論文標題很經(jīng)典:“Language models are few-shot learners”,點(diǎn)出了大語(yǔ)言模型在極少量樣本的基礎上,就可以在多種自然語(yǔ)言處理類(lèi)任務(wù)上展現出強大的能力——同時(shí),這個(gè)標題預言了今后更強大的大語(yǔ)言模型,能夠做到更多更厲害的事情。
而今天,谷歌展示的 AudioLM 純音頻模型就驗證了這一預言。
圖片
圖片來(lái)源:Google Research
AudioLM 是一個(gè)具備“長(cháng)期連貫性”的高質(zhì)量音頻生成框架,不需要任何文字或音樂(lè )符號表示的情況下,只在極短(三四秒即可)的音頻樣本基礎上進(jìn)行訓練,即可生成自然、連貫、真實(shí)的音頻結果,而且不限語(yǔ)音或者音樂(lè )。
用 AudioLM 生成的語(yǔ)句,在句法和語(yǔ)義上仍然保持了較高的可信度和連貫性,甚至能夠延續樣本中說(shuō)話(huà)人的語(yǔ)氣。
更厲害的是,這個(gè)模型最初沒(méi)有用任何音樂(lè )數據進(jìn)行訓練,結果卻十分驚人:能夠從任何樂(lè )器或樂(lè )曲錄音中進(jìn)行自動(dòng)“續寫(xiě)”——這一事實(shí),再一次展現出了大語(yǔ)言模型的真正實(shí)力。
下面的音頻是一段20秒左右的鋼琴曲,先聽(tīng)聽(tīng)感受一下:AudioLM 生成(從第4秒開(kāi)始)音頻:00:0000:20實(shí)際上只有前4秒是給到模型的提示,后面都是 AudioLM自己“補完”的。而且也只有這一段4秒的音頻樣本,沒(méi)有“鋼琴”、“進(jìn)行曲”等之類(lèi)的專(zhuān)業(yè)文字提示作為補充。
“你不需要給它提供整段樂(lè )曲來(lái)學(xué)習,只要給它一小段,他就能直接在音樂(lè )的空間里開(kāi)始續寫(xiě)——任何的音頻片段都可以,無(wú)論是音樂(lè )還是語(yǔ)音?!盓ck 表示,這種無(wú)參考的音頻生成能力,早已超出了人們曾經(jīng)對于 AI 創(chuàng )作能力的認知邊界。
| 其他 AIGC 技術(shù)、產(chǎn)品除了上述新技術(shù)之外,谷歌還宣布了在其他內容格式上的 AI 內容生成技術(shù)。
比如,在二維的圖片/視頻基礎上,谷歌還讓文字轉 3D 模型成為了現實(shí)。通過(guò)結合 Imagen 和最新的神經(jīng)輻射場(chǎng) (Neural Radiance Field) 技術(shù),谷歌開(kāi)發(fā)出了DreamFusion 技術(shù)可以根據現有的文字描述,生成在具有高保真外觀(guān)、深度和法向量的 3D 模型,支持在不同光照條件下進(jìn)行渲染。
圖片圖片來(lái)源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)
以及,谷歌在今年 I/O 大會(huì )上面向公眾推出的嘗鮮應用 AI Test Kitchen,也將在近期更新加入 LaMDA 模型創(chuàng )新所解鎖的新功能。比如“城市夢(mèng)想家” (City Dreamer) 來(lái)用文字命令建造主體城市,或者“Wobble”來(lái)創(chuàng )造會(huì )扭動(dòng)的卡通形象等。
用戶(hù)可以在對應系統的應用商城中下載 AI Test Kitchen,并且前往谷歌網(wǎng)站申請測試資格,實(shí)測審批速度挺快。
圖片
AI Test Kitchen 支持 iOS 和 Android 系統  圖片來(lái)源:谷歌、蘋(píng)果
我們在神經(jīng)網(wǎng)絡(luò )架構、機器學(xué)習算法和應用于機器學(xué)習的硬件新方法方面取得的進(jìn)展,幫助 AI 為數十億人解決了重要的現實(shí)問(wèn)題,”Jeff Dean 表示。
更多的進(jìn)展即將到來(lái)。我們今天分享的是對未來(lái)充滿(mǎn)希望的愿景:AI 正讓我們重新想象技術(shù)如何能夠帶來(lái)幫助。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 谷歌

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>