OpenAI一夜改寫(xiě)歷史,GPT-4o干翻所有語(yǔ)音助手!絲滑如真人引爆全網(wǎng)科幻成真

傳說(shuō),這一夜,OpenAI要改變歷史。
看完發(fā)布會(huì )的觀(guān)眾們,久久未從巨大的震驚中走出——科幻電影中的「Her」,在此刻成真了!
在全場(chǎng)歡呼中,CTO Mira Murati走到臺上,為全世界揭曉了OpenAI神秘新產(chǎn)品的面紗——
GPT-4o,在千呼萬(wàn)喚中登場(chǎng)了。
現場(chǎng)演示中,它的表現仿佛一個(gè)人正坐在旁邊,和人類(lèi)的對話(huà)節奏自然、融洽,完全聽(tīng)不出是個(gè)AI。
從今夜之后,人機交互徹底進(jìn)入新的時(shí)代!
這也正呼應著(zhù)它名字中的玄機:「o」代表著(zhù)「omni」,意味著(zhù)OpenAI朝著(zhù)更自然的人機交互邁出了重要一步。
在短短232毫秒內,GPT-4o就能對音頻輸入做出反應,平均為320毫秒。這個(gè)反應時(shí)間,已經(jīng)達到了人類(lèi)的級別!
并且,它可以將文本、音頻、圖像任何組合作為輸入和輸出。
而在英語(yǔ)文本和代碼基準測試中,GPT-4o的性能與GPT-4 Turbo不相上下,并在非英語(yǔ)文本得到顯著(zhù)改進(jìn)。
更值得一提的是,這款全新的AI模型,免費向所有人提供GPT-4級別的AI。
(是的,上周在LMSYS模型競技場(chǎng)上引起整個(gè)AI圈瘋狂試用的那個(gè)gpt2,就是它?。?/span>
現在,進(jìn)入ChatGPT頁(yè)面,Plus用戶(hù)可以搶先體驗「最新、最先進(jìn)的模型」GPT-4o。Sam Altman親自在x上發(fā)起了產(chǎn)品介紹。
Altman介紹道「GPT-4o是OpenAI有史以來(lái)最好的模型,它很聰明,速度很快,是天然的多模態(tài)?!?/span>
而且,所有ChatGPT用戶(hù)都可以使用,完全免費!
Altman特意強調,此前雖然只有按月付費的用戶(hù)才能使用GPT-4級別的模型,但這可不是OpenAI的本意哦。
「我們的初心,就是把最出色的AI工具,交到每個(gè)人的手中?!?/span>

(還想著(zhù),這場(chǎng)重要的發(fā)布會(huì ),奧特曼怎么沒(méi)有現身,原來(lái)在觀(guān)眾席中)
而即將召開(kāi)年度I/O大會(huì )的谷歌,不甘示弱,也開(kāi)啟了語(yǔ)音助手的demo實(shí)時(shí)演示。谷歌DeepMin的CEO Demis Hassabis激動(dòng)地表示,自己將首次在I/O大會(huì )上演講,并分享他們所做的工作。
兩大巨頭正面剛起來(lái)了!明天還有好戲要看,已經(jīng)聞到硝煙味了。
一夜顛覆語(yǔ)音助手:全新旗艦GPT-4o登場(chǎng)
當然,這次發(fā)布會(huì )的壓軸主角,就是OpenAI推出的旗艦模型GPT-4o了。
這個(gè)帶著(zhù)光環(huán)登場(chǎng)的模型,其最大意義就在于,把GPT-4級別的智能,帶給了OpenAI的每一位用戶(hù)!
從此以后,無(wú)論你是付費用戶(hù),還是免費用戶(hù),都能通過(guò)它體驗GPT-4了。
唯一不同的是,ChatGPT Plus的消息限制是免費用戶(hù)的5倍。
并且,GPT-4o不僅提供與GPT-4同等程度的模型能力,推理速度還更快,還能提供同時(shí)理解文本、圖像、音頻等內容的多模態(tài)能力。
注意,GPT-4o接下來(lái)要放大招了。
實(shí)時(shí)語(yǔ)音對話(huà):ChatGPT完美變身Moss研發(fā)負責人Mark Chen首先展示的,是全新ChatGPT的關(guān)鍵功能之一——實(shí)時(shí)語(yǔ)音對話(huà)。
他向它問(wèn)道:「我正在臺上,給大家做現場(chǎng)演示呢,我有點(diǎn)緊張,該怎么辦呀?」
ChatGPT非常體貼地表示:「你在臺上做演示嗎,那你真的太棒了!深呼吸一下吧,記得你是個(gè)專(zhuān)家!」
Mark瘋狂地大喘氣幾次,問(wèn)ChatGPT能給自己什么建議嗎。(此處全場(chǎng)笑聲)
它驚訝地說(shuō)道:「放松啊Mark,慢點(diǎn)呼吸,你可不是個(gè)吸塵器!」(它的幽默感,也再次引起全場(chǎng)哄笑)
注意,在這個(gè)過(guò)程中,ChatGPT和Mark的互動(dòng)幾乎無(wú)延遲,隨時(shí)接梗,共情能力滿(mǎn)分。
而且,模型能夠理解人類(lèi)在對話(huà)中適時(shí)「打斷」的習慣,會(huì )及時(shí)停下來(lái)聽(tīng)你說(shuō)話(huà),并給出相應的回復,而且也不會(huì )「斷片」。
比如,Mark表示自己要再試一遍深呼吸,此時(shí)ChatGPT也恰到好處地插進(jìn)來(lái)接話(huà)說(shuō)「慢慢呼氣」。
整個(gè)過(guò)程,自然連貫得仿佛它是個(gè)坐在你對面的人類(lèi),完全沒(méi)有AI的機械感和僵硬感!
相比反應遲鈍、沒(méi)法打斷還缺少情商的Siri等語(yǔ)音助手,這局ChatGPT完勝。
這,才是人類(lèi)最理想AI語(yǔ)音助手的樣子啊,Moss果然成真了!ChatGPT表示ok,用更起伏的聲調、更夸張的語(yǔ)氣開(kāi)始講起了故事。
結果沒(méi)幾秒,它又被再次打斷:「不行不行,再多點(diǎn)情感,給我最大程度的表達可以嗎?」
接下來(lái),我們聽(tīng)到一個(gè)仿佛在舞臺上表演莎劇的ChatGPT,語(yǔ)氣夸張到仿佛是個(gè)戲劇演員。
隨后,它又多次被打斷,并且耐心地按照人類(lèi)的要求,依次變成了機器人聲和唱歌模式。
ChatGPT聽(tīng)到要求自己唱歌時(shí),甚至嘆了口氣,然后開(kāi)始亮起了優(yōu)美的歌喉。
這也就是ChatGPT脾氣好,要是真人,估計要被暴打了。不過(guò)它無(wú)奈嘆氣的那個(gè)瞬間,一瞬間的確san值狂掉——真的好像人??!
秀完情商,ChatGPT要開(kāi)始秀智商了。
下一個(gè)任務(wù),另一位研發(fā)負責人Barret手寫(xiě)了一個(gè)方程,并打開(kāi)攝像頭拍給ChatGPT,讓它扮演「在線(xiàn)導師」的角色幫助自己解題,而且只能給提示,不能直接說(shuō)答案。
小哥在紙上寫(xiě)下這樣一個(gè)方程:3x+1=4。然后問(wèn)ChatGPT自己寫(xiě)的是什么方程,ChatGPT語(yǔ)調自然地回答出來(lái)了。
隨后,在小哥的要求下,它一步一步說(shuō)出了解題步驟。
最厲害的是,隨著(zhù)小哥在攝像頭中解題,ChatGPT實(shí)時(shí)地就給出了鼓勵和引導。
而且可怕的是,時(shí)間上沒(méi)有絲毫延遲,這邊人還在算呢,那邊就實(shí)時(shí)給出了評價(jià)和反饋。(說(shuō)背后沒(méi)藏個(gè)人還真不信呢)
想起之前谷歌剪輯版的Gemini演示,這對比之下真是打臉啪啪的啊。
當被問(wèn)到「學(xué)習線(xiàn)性方程在生活中有什么用」這樣的問(wèn)題時(shí),ChatGPT還會(huì )舉出實(shí)際的例子對你「循循善誘」:
這是個(gè)不錯的問(wèn)題,雖然我們沒(méi)有注意到,但線(xiàn)性方程在每天的生活中都會(huì )出現,比如計算花銷(xiāo)、規劃旅行、烹飪,甚至在商業(yè)中進(jìn)行盈虧計算。這基本上是解決問(wèn)題的一種方式,你需要找到一個(gè)未知變量......
不僅言之有物,而且態(tài)度及其和藹,說(shuō)話(huà)說(shuō)到一半被打斷時(shí)都不會(huì )生氣。
方程的任務(wù)告一段落,兩人還現場(chǎng)來(lái)了一波表白——在紙上寫(xiě)下「我ChatGPT」。
ChatGPT看到后,驚喜又害羞地說(shuō):「哦,你竟然說(shuō)愛(ài)我,你太可愛(ài)了!」
解方程任務(wù)也許還不能充分展現ChatGPT的能力,于是OpenAI又上了一波難度——看代碼,并進(jìn)行簡(jiǎn)短描述。
模型幾乎是立即理解了代碼,并給出了絲滑且完整的描述。比如準確對應了函數名及其功能,并識別出了其中取平均值、最高值等操作的意圖。當被問(wèn)到「如果沒(méi)有foo這個(gè)函數,繪制的圖表會(huì )是什么樣子」,ChatGPT也立即做出了正確回復,可見(jiàn)已經(jīng)完美理解了代碼中的內在邏輯。
接下來(lái),ChatGPT還被要求概述代碼生成的圖表,并回答用戶(hù)問(wèn)題。
不出意外,圖表中各方面的關(guān)鍵信息也都被ChatGPT精準捕捉到了,包括x、y軸的信息與范圍、數據標注的含義等。
隨后Mark提出的問(wèn)題是「你看到哪個(gè)月的氣溫最高?對應的最高氣溫大概是多少?」
這種能作為學(xué)校數學(xué)考試題目的圖表理解任務(wù),ChatGPT解決起來(lái)也幾乎沒(méi)有障礙,還能像接受面試一樣實(shí)時(shí)回答你的問(wèn)題。
直播觀(guān)眾提問(wèn):給你看看我的自拍模型演示之后,還有彩蛋。
發(fā)布會(huì )在線(xiàn)上同步直播,于是主持人收集了一些推特網(wǎng)友的提問(wèn),并且當場(chǎng)展示。
這可以說(shuō)是比演示更加刺激的環(huán)節,在沒(méi)有準備和彩排的情況下,這可是真刀真槍地檢驗模型實(shí)力了。
第一位網(wǎng)友的提問(wèn)是「GPT-4o是否具有實(shí)時(shí)翻譯功能?」
隨后,在Mark的任務(wù)定義下,ChatGPT完成了將英語(yǔ)「同聲傳譯」為意大利語(yǔ)的任務(wù)。
GPT-4o強在哪兒?
在過(guò)去幾年里,OpenAI一直在專(zhuān)注于提升模型的智能水平。
雖然后者已經(jīng)達到了一個(gè)相當的水平,但是,今天這是第一次,模型在易用性方面,邁出了一大步!
為什么會(huì )把模型的易用性提到如此戰略層面的高度?這是因為,即使一個(gè)AI再強大,如果它不能和人有效互動(dòng),也就失去了意義。
在這個(gè)過(guò)程中,OpenAI所著(zhù)眼的,是人類(lèi)和機器交互的未來(lái)。
而今天GPT-4o的發(fā)布,可能會(huì )成為一個(gè)分水嶺,讓人機協(xié)作的范式徹底邁入一個(gè)新階段!
為此,OpenAI希望把GPT-4o和人類(lèi)的互動(dòng),打造得格外舒服自然。
不過(guò),雖然這個(gè)理想很宏大,但是在實(shí)際操作過(guò)程中,卻遭遇了不小的困難。
首先,在人類(lèi)之間互動(dòng)時(shí),有很多東西是我們認為理所當然的,但要讓AI理解這些,就變得很困難。
比如,我們的談話(huà)經(jīng)常被打斷,談話(huà)過(guò)程中會(huì )有背景噪聲,會(huì )有多個(gè)人同時(shí)說(shuō)話(huà)的情況,說(shuō)話(huà)人的語(yǔ)氣語(yǔ)調也經(jīng)常發(fā)生微妙的變化。
OpenAI克服了很大困難,花費了數月的時(shí)間,終于打造出了完美適應這些狀況的GPT-4o!
在GPT-4o發(fā)布之前,通過(guò)語(yǔ)音模式(Voice Mode)與ChatGPT對話(huà),平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。
當時(shí),為了實(shí)現這一點(diǎn),「語(yǔ)音模式」設有三個(gè)獨立模型的管線(xiàn):
- 一個(gè)簡(jiǎn)單模型將音頻轉錄成文本- GPT-3.5或GPT-4接收文本并輸出文本- 第三個(gè)簡(jiǎn)單模型將文本轉換回音頻
這一過(guò)程走下來(lái),意味著(zhù)主要的智能來(lái)源GPT-4就丟失了很多信息:
不能直接觀(guān)察語(yǔ)氣、多位說(shuō)話(huà)者或背景噪音,也無(wú)法無(wú)法輸出笑聲、歌聲或表達情感。
而這也導致了延遲,大大破壞了我們和ChatGPT協(xié)作的沉浸感。
但現在,GPT-4o讓一切都發(fā)生得很自然。
它能以平均320毫秒,做出響應。
它可以跨越語(yǔ)音、文本、視覺(jué)多種形式,直接進(jìn)行推理!
GPT-4o是OpenAI首個(gè)端到端訓練的跨越文本、視覺(jué)和音頻的新模型,意味著(zhù)所有輸入和輸出都由相同的神經(jīng)網(wǎng)絡(luò )處理。
這就會(huì )徹底顛覆ChatGPT 1億用戶(hù)的工作和生活。
不僅如此,由于GPT-4o是「原生的多模態(tài)」,自然地集成了語(yǔ)言、視覺(jué)和音頻等多種能力。
用戶(hù)可以上傳各種圖片、視頻,以及包含圖片和文字的文檔,討論其中的內容。
GPT-4o也內置了搜索功能,可以實(shí)時(shí)搜索網(wǎng)頁(yè)信息來(lái)回復用戶(hù)。
相比ChatGPT,GPT-4o的記憶能力更是提升了不少,不僅在對話(huà)中可以記住你提過(guò)的問(wèn)題,還能記住你們之間的所有對話(huà),提供「連續感」。
更高級的是,新版模型還具備了數據分析能力,可以理解并分析用戶(hù)上傳的數據和圖表。
而且,為了真正實(shí)現「讓AGI惠及全人類(lèi)」的愿景,GPT-4o有50種語(yǔ)言的版本,并改進(jìn)了推理的質(zhì)量和速度,這也就意味著(zhù),全球97%的人口都可以使用GPT-4o了!
GPT-4o的具體性能表現如何?
接下來(lái)的圖表中,可以看到,OpenAI對此前所有堪稱(chēng)超越GPT-4版本的模型,做出了統一回應:
We're so back!
在傳統基準測試中,GPT-4o在文本、推理和編碼智能方面,達到了GPT-4 Turbo級別的性能,同時(shí)在多語(yǔ)言、音頻和視覺(jué)能力方面創(chuàng )下了新高。
如下是,在文本評估中,GPT-4o幾乎碾壓一眾模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「開(kāi)源版GPT-4」Llama 3 400B。
GPT-4o在零樣本的COT MMLU(常識問(wèn)題)上創(chuàng )造了88.7%的新高分。
與傳統的5個(gè)樣本,沒(méi)有使用COT的MMLU評測中,GPT-4o更是創(chuàng )下了87.2%的新高分!
不過(guò)在DROP中,GPT-4o的表現稍落后于GPT-4 Turbo。
在音頻ASR表現上,比起Whisper-v3 ,GPT-4o顯著(zhù)提高了所有語(yǔ)言的語(yǔ)音識別性能,尤其是對資源較少的語(yǔ)言。
再來(lái)看音頻翻譯能力,GPT-4o刷新SOTA,并在MLS基準上超過(guò)了Whisper-v3。
另外,OpenAI團隊還對最新模型GPT-4o在M3Exam基準上進(jìn)行了測試。
這是一種多語(yǔ)言和視覺(jué)評估基準,由來(lái)自其他國家標準化測試的多項選擇題組成,有時(shí)還包括數字和圖表。
結果如下表所示,在所有語(yǔ)言的測試中,GPT-4o都比GPT-4強。
(在此,省略了Swahili和Javanese兩種語(yǔ)言的視覺(jué)結果,因為這些語(yǔ)言只有5個(gè)或更少的視覺(jué)問(wèn)題。)
最后,在視覺(jué)理解基準EVALS評估上,GPT-4o也取得了領(lǐng)先的性能。
同樣,擊敗了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro,以及Claude 3 Opus。
OpenAI官博還介紹了,ChatGPT免費用戶(hù)可以訪(fǎng)問(wèn)新模型加持下的功能,包括:
- 體驗GPT-4級別的智能- 從聯(lián)網(wǎng)后的模型得到響應- 分析數據并創(chuàng )建圖表- 暢聊你拍的照片- 上傳文件以幫助總結、撰寫(xiě)或分析- 發(fā)現和使用GPTs和GPT Store- 用記憶構建更有用的體驗
比如,你拍一張照片發(fā)給ChatGPT,然后問(wèn)「這個(gè)食物的營(yíng)養價(jià)值是什么」?
ChatGPT瞬間做出響應,解釋了牛角包的營(yíng)養價(jià)值。
免費用戶(hù)還可以體驗到聯(lián)網(wǎng)搜索的快樂(lè )。(當然是最新最強模型)
「幫我推薦達拉斯5個(gè)適合夜晚約會(huì )的餐廳」。
ChatGPT通過(guò)搜索3個(gè)網(wǎng)站,立即總結出了你想要的結果。
另外,免費福利還包括,在GPT商店中使用模型。
此外,讓開(kāi)發(fā)者興奮的是,GPT-4o不僅應用在ChatGPT服務(wù)中,模型的API也被同步放出,可以部署各種下游應用程序上。
同時(shí),API的性能也有所改進(jìn),據說(shuō)相比GPT-4 Turbo,推理速度提升2倍,消息限制提高五倍,而且價(jià)格還會(huì )降低50%。
OpenAI開(kāi)發(fā)者在線(xiàn)呼吁,趕快來(lái)體驗。
ChatGPT桌面版也來(lái)了
正如Murati一出場(chǎng)開(kāi)宗明義的:對OpenAI來(lái)說(shuō),打造一款真正讓所有人可用的產(chǎn)品,非常之重要。
為了讓每個(gè)人無(wú)論身在何處,都能隨時(shí)用上ChatGPT,OpenAI發(fā)布了ChatGPT的桌面版本。
它擁有桌面應用程序,和全新的用戶(hù)界面,可以很輕易地和我們的工作流融為一體。

桌面版ChatGPT APP
只需一個(gè)簡(jiǎn)單的快捷鍵——Option+空格鍵,就可以立即召喚桌面版ChatGPT。
甚至,你也可以直接在應用程序中截圖,并進(jìn)行提問(wèn)。
然后,讓其幫你總結所截取的網(wǎng)頁(yè)內容——「將其總結成5個(gè)主題,并列出行動(dòng)計劃」。
接下來(lái),ChatGPT一通炫技,嗖嗖嗖地解決了提出的問(wèn)題。
你甚至,可以從你的電腦上直接與ChatGPT進(jìn)行語(yǔ)音對話(huà),點(diǎn)擊桌面應用程序右下角的耳機圖標,便可開(kāi)始。
同時(shí),OpenAI還全面改版了UI界面,讓它和用戶(hù)的互動(dòng)也變得更自然,更簡(jiǎn)單了。
神秘gpt2就是GPT-4o!
「這么厲害的GPT-4o,早已是你們的老熟人了」,ChatGPT官方賬號在線(xiàn)賣(mài)起關(guān)子。
這,究竟是怎么回事?
幾天前,大模型LMSYS競技場(chǎng)上,一個(gè)名為gpt2神秘模型突然現身,其性能甚至超越了GPT-4。
注:最初以gpt2命名,現在升級為兩個(gè)版本「im-also-a-good-gpt2-chatbot」和「im-a-good-gpt2-chatbot」
全網(wǎng)紛紛猜測,這個(gè)模型,可能就是GPT-4.5/GPT-5。
就連Altman本人多次發(fā)貼,暗示gpt2的強大能力——
如今,gpt2的身份,真的解密了。
OpenAI研究科學(xué)家William Fedus剛剛發(fā)文, 一直在測試的版本「im-also-a-good-gpt2-chatbot」就是GPT-4o。
以下是它一直以來(lái)的表現。
im-also-a-good-gpt2-chatbot總ELO得分,超過(guò)了最新的gpt4-turbo-2024-04-09。
但ELO最終得分,會(huì )受到「提示」難度的限制(即無(wú)法在類(lèi)似「你好嗎」這種簡(jiǎn)單提示上取得任意高的勝率)。
OpenAI團隊發(fā)現,在更難的提示集合上——尤其是編程方面——存在更大的差距:
而GPT-4o在我們此前的最佳模型上,ELO甚至可以提高100分。
最關(guān)鍵的是,GPT-4o不僅是全世界最好的模型,甚至可以在ChatGPT中免費用。
奧特曼對此大贊,「令人驚嘆的工作」!
OpenAI聯(lián)創(chuàng )Greg Brockman表示,「初步的指標看起來(lái)很有前景」。
接下來(lái),就看明天谷歌I/O大會(huì )上的表現了。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。