<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 編輯觀(guān)點(diǎn) > 一夜爆火的Sora：大模型再升級，解鎖新玩法？

一夜爆火的Sora：大模型再升級，解鎖新玩法？

作者：陳玲麗時(shí)間：2024-02-22 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

進(jìn)入到2024年后，AI大模型的熱度沒(méi)有絲毫下滑跡象，反倒愈發(fā)火熱。2月16日，OpenAI發(fā)布了文生視頻工具Sora，成功復制了又一個(gè)ChatGPT時(shí)刻，震撼了科技產(chǎn)業(yè)，引爆社交平臺熱議。根據OpenAI官網(wǎng)的介紹，Sora是一個(gè)通用的視覺(jué)數據模型，生成的視頻可包含復雜的角色、特定的移動(dòng)類(lèi)型，以及主體和背景細節。

本文引用地址：http://dyxdggzs.com/article/202402/455626.htm

Sora到底是什么？

目前，Sora能夠根據用戶(hù)輸入的提示詞、文本指令或靜態(tài)圖像，生成長(cháng)達60s的視頻，遠超此前Runway（18秒）、Pika（起步3秒+增加4秒）、Stable Video Diffusion（4秒）等AI視頻應用生成時(shí)長(cháng)，在視頻效果及穩定性等指標上表現也更加優(yōu)異。

Sora呈現良好的多模態(tài)能力，不僅支持文本生成視頻，還具備圖像生成視頻等能力，另外視頻可以往前/向后擴展，如果你對視頻的局部（比如背景）不滿(mǎn)意，也可以直接更換。雖然Sora尚未對公眾開(kāi)放，從已經(jīng)公布的生成的視頻案例來(lái)看，其中既能實(shí)現多角度鏡頭的自然切換，還包含復雜的場(chǎng)景和生動(dòng)的角色表情，且故事的邏輯性和連貫性極佳。

Sora具有三大突出亮點(diǎn)：一是60秒長(cháng)視頻，可以保持視頻主體與背景的高度流暢性與穩定性；二是在一個(gè)視頻內實(shí)現多角度鏡頭，分鏡切換符合邏輯且十分流暢；三是理解真實(shí)世界的能力，對于光影反射、運動(dòng)方式、鏡頭移動(dòng)等細節處理得十分優(yōu)秀，極大地提升了真實(shí)感。

除了是視頻生成工具，「世界模擬器」也是Sora的重要標簽，畢竟Sora技術(shù)報告的標題就是“作為世界模擬器的視覺(jué)生成模型”。OpenAI在關(guān)于Sora的詳細技術(shù)報告中表示，Sora對自然語(yǔ)言的理解能力很強。OpenAI將其視為能夠理解和模擬現實(shí)世界的模型的基礎，相信其能力是實(shí)現AGI的重要里程碑。

AGI即Artificial General Intelligence，又稱(chēng)通用人工智能，是指能夠完全模仿人類(lèi)情感、行為，實(shí)現自我學(xué)習、自我改進(jìn)、自我修正的智能計算機系統。AGI最大的特點(diǎn)在于對真實(shí)世界的規則，尤其是物理狀態(tài)、自然規律、化學(xué)變化等等因素的反饋。盡管Sora當前只展示了其在視頻，又或是內容創(chuàng )作上的能力，但其對于真實(shí)世界的理解已經(jīng)展現出強悍的實(shí)力。

AI視頻生成的難點(diǎn)在于視頻是連續的多幀圖像，并且要有邏輯性，并非簡(jiǎn)單的圖片組合。Sora令人驚嘆的地方是在于其生成的視頻是通過(guò)程序架構、通過(guò)不斷地訓練而來(lái)的：據OpenAI科學(xué)家提姆·布魯克斯透露，沒(méi)通過(guò)人類(lèi)預先設定，Sora就自己通過(guò)“觀(guān)察”大量數據，自然而然地學(xué)會(huì )了關(guān)于3D幾何形狀和一致性的知識，其生成的虛擬視頻是符合現實(shí)世界物理規律的。

盡管Sora距離世界模型還有很長(cháng)距離，并不意味著(zhù)它已經(jīng)‘讀懂’了物理規律，究竟是模型建立了真實(shí)世界的法則，還是解碼能力強大？不過(guò)肯定的是它證明了一點(diǎn)，即機器可以通過(guò)“投喂數據”推算出一些物理世界的規則。毫無(wú)疑問(wèn)，Sora是機器模擬現實(shí)世界的一個(gè)里程碑。

Sora模型的技術(shù)路線(xiàn)

從ChatGPT到Sora，反映了大模型真實(shí)理解、反映和模擬物理世界的巨大能力，也讓我們看到了這種巨大的可能性。OpenAI官網(wǎng)公布的Sora大模型技術(shù)報告顯示，Sora的核心技術(shù)是Diffusion Transformer架構，基于該構架從一開(kāi)始看似靜態(tài)噪聲的視頻出發(fā)，經(jīng)過(guò)多步驟的噪聲去除過(guò)程，逐漸生成視頻。

2022年，Diffusion Transformer架構由Sora模型的主要作者Bill Peebles提出，他將Transformer結構替代了Diffusion模型中常用的U-Net結構；同時(shí)，受到訓練大語(yǔ)言模型的Token（文本單元）啟發(fā)，引入了Patch（視覺(jué)塊嵌入代碼）的概念，它能對像素、尺寸等各不相同的視頻進(jìn)行編碼，提升了原來(lái)Diffusion模型在深度和寬度上的可擴展性，為視頻模型增加輸出時(shí)長(cháng)奠定了基礎。

從技術(shù)路線(xiàn)來(lái)看，Diffusion架構是用于文生視頻的標準算法框架，已在業(yè)內達成共識。Sora“驚艷”之處在于為圖像視頻等多模態(tài)數據找到了適合Transformer架構的表征方式，從而將ScalingLaw從語(yǔ)言模型復制到了圖像視頻模型。此外，Sora能更好地理解用戶(hù)給的提示詞，借助DALL·E3的re-captioning功能，給訓練用的視頻素材都加上了高質(zhì)量文本描述，在推理時(shí)借助了GPT對用戶(hù)輸入進(jìn)行擴展，可謂“站在巨人肩膀上”更進(jìn)一步。

盡管OpenAI在Sora的技術(shù)文檔中并未公開(kāi)所有模型細節，但我們可以通過(guò)其描述大致推測出，Sora的實(shí)現仍然依賴(lài)于OpenAI在大語(yǔ)言模型領(lǐng)域取得巨大成功的“大力出奇跡”思想，即通過(guò)大幅提升訓練數據和參數規模實(shí)現視頻精度和對現實(shí)世界物理關(guān)系的“涌現”。

Sora面臨的問(wèn)題

Sora模型目前還處于測試階段，預計再經(jīng)過(guò)一段時(shí)間的安全測試和用戶(hù)反饋后才會(huì )正式提供服務(wù)，因此還無(wú)法了解Sora模型的實(shí)際效果。不過(guò)，OpenAI沒(méi)有刻意回避Sora模型生成錯誤內容的情況。在OpenAI發(fā)布的技術(shù)報告中有一段Sora模型生成的錯誤視頻，展示了桌上的水杯會(huì )先從底部流出果汁，然后沿著(zhù)錯誤的方向和角度倒在桌上。

值得注意的是，Sora代表的AGI“世界模擬器”要運轉，離不開(kāi)算力基礎設施。每一個(gè)深度學(xué)習的人工智能模型，都離不開(kāi)背后強大算力的支持，Sora亦是如此。OpenAI CEO Altman曾公開(kāi)表示，其工作與產(chǎn)品仍需更多算力提供幫助，目前公司所使用的還遠遠不夠。

而視頻生成推理需要更大的VRAM或帶寬，如果Sora開(kāi)放使用后如期推動(dòng)各類(lèi)視頻創(chuàng )作的繁榮，當前電信和數通網(wǎng)絡(luò )的帶寬都需要大幅升級。作為廣義算力的一部分，網(wǎng)絡(luò )設備的需求也將爆發(fā)式增長(cháng)。

AI技術(shù)的復雜性意味著(zhù)需要大量金錢(qián)和算力資源投入。據媒體報道，OpenAI首席執行官山姆·奧特曼正與投資者洽談，籌集資金用于研發(fā)，具體數目可能高達5萬(wàn)億至7萬(wàn)億美元。目前，OpenAI已展開(kāi)自有芯片布局，路透社就曾報道OpenAI已經(jīng)參與投資至少三家半導體設計公司，其中Cerebras更是一家初創(chuàng )型企業(yè)。

當然，我們也不能忽視Sora潛在的問(wèn)題和風(fēng)險。一方面，“文生視頻”模型需要海量的訓練數據來(lái)進(jìn)行學(xué)習，這就會(huì )帶來(lái)版權問(wèn)題；另一方面，和所有其他人工智能工具一樣，Sora過(guò)于逼真的視頻表現也會(huì )帶來(lái)對于偽造和傳播虛假內容的憂(yōu)慮。如何在未來(lái)的實(shí)踐中保證數據安全、規避風(fēng)險，確實(shí)值得關(guān)注。

針對業(yè)界的擔憂(yōu)，美國聯(lián)邦貿易委員會(huì )（FTC）2月15日提出了禁止使用AI工具冒充個(gè)人的規則。FTC表示，它正在提議修改一項已經(jīng)禁止冒充企業(yè)或政府機構的規則，將保護范圍擴大到所有個(gè)人。OpenAI內部仍在開(kāi)展模型倫理側的對抗性測試，比如錯誤信息、仇恨內容、偏見(jiàn)內容、色情暴力內容等，會(huì )在文本輸入時(shí)被拒絕。

新生事物的發(fā)展過(guò)程難免會(huì )遭遇波折、迂回，但不會(huì )停下前行的腳步。近兩年，由于人工智能技術(shù)的迅猛發(fā)展，世界各國以及許多知名企業(yè)不約而同地加大了對相關(guān)產(chǎn)業(yè)的投入。據估計，2026年全球生成式人工智能的市場(chǎng)規模將到981億美元，無(wú)論是對Sora還是對其他人工智能工具來(lái)說(shuō)，未來(lái)都可能給人類(lèi)世界帶來(lái)更多驚喜和顛覆性的變革。

OpenAI迫不及待地推出仍在開(kāi)發(fā)中的不完美模型，更像是用一出大型廣告秀吸引更多融資的高招。因此，現階段不必過(guò)于高估“文生視頻”模型為行業(yè)以及世界帶來(lái)的影響。Sora作為生成式AI模型的一顆“新星”，仍存在一些不成熟之處，比如邏輯性還有待提升，在更精細內容的調控方面有待加強。但它的出現，已經(jīng)給大眾帶來(lái)了一定的想象空間。

技術(shù)浪潮下的文化產(chǎn)業(yè)，重塑與變革必然勢不可當，正如蒸汽機、發(fā)電機等機器工具的發(fā)明和普及，讓手工勞動(dòng)被自動(dòng)化機器代替。生成式AI所蘊含的深層次、革命性力量是不容低估的，與其揣著(zhù)“飯碗焦慮”，我們不如將之視為工作的“搭子”。換言之，無(wú)論是ChatGPT還是Sora，技術(shù)進(jìn)步更重要的意義在于讓更多人可以不被簡(jiǎn)單重復的勞動(dòng)所束縛，與AI成為工作“搭子”，從而去創(chuàng )造更大價(jià)值。

關(guān)鍵詞： Sora 大模型 OpenAI AIGC

評論

相關(guān)推薦

AI大模型時(shí)代的邊云協(xié)同之EdgeXFoundry

nakey | 2024-04-10

OpenAI秘密武器將亮相邏輯推理能力比聊天機器人更好

智能計算 OpenAI 邏輯推理聊天機器人 GPT-5 | 2024-05-12

邊緣智能：AI商業(yè)化中最值得關(guān)注的一環(huán)

智能計算邊緣智能 AI 大模型 | 2024-05-16

當《她》不再是未來(lái)

智能計算人工智能 chatgpt-4o OpenAI | 2024-05-17

谷歌與OpenAI競相升級的背后——生成式AI市場(chǎng)機會(huì )引發(fā)關(guān)注

智能計算谷歌 OpenAI 生成式AI | 2024-05-20

OpenAI，正在open AI

智能計算 OpenAI | 2024-05-15

高校擁抱微軟AIGC 研華攜手微軟，鳳凰教育構建智能未來(lái)

嵌入式系統 AIGC 鳳凰教育微軟研華 | 2024-05-10

外媒評論GPT-4o：OpenAI面臨雙重壓力新產(chǎn)品全力擴張用戶(hù)群

智能計算 GPT-4o OpenAI | 2024-05-14

OpenAI再次對線(xiàn)谷歌，誰(shuí)才是贏(yíng)家？

智能計算 OpenAI 谷歌 Gemini ChatGPT 大模型 | 2024-05-16

外媒：OpenAI保密協(xié)議引發(fā)爭議，CEO回應并致歉

智能計算 OpenAI AI 隱私 | 2024-05-20

重磅！類(lèi)人速度超快語(yǔ)音響應！OpenAI推出新旗艦模型GPT-4o，圖文音頻手機AI搞定

智能計算 openAI chatGPT-4o AI | 2024-05-14

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>