重磅!類(lèi)人速度超快語(yǔ)音響應!OpenAI推出新旗艦模型GPT-4o,圖文音頻手機AI搞定
北京時(shí)間周二凌晨1點(diǎn),自年初“文生視頻模型”Sora后許久未給市場(chǎng)帶來(lái)驚喜的OpenAI舉行春季發(fā)布會(huì )。公司首席技術(shù)官米拉·穆拉蒂(Mira Murati)向外界展現了多項與ChatGPT有關(guān)的更新。簡(jiǎn)要來(lái)說(shuō),OpenAI的發(fā)布會(huì )主要干了兩件事情:發(fā)布最新GPT-4o多模態(tài)大模型,相較于GPT-4 Trubo速度更快、價(jià)格也更便宜。
本文引用地址:http://dyxdggzs.com/article/202405/458687.htm第二件事情就是宣布,ChatGPT的免費用戶(hù)也能用上最新發(fā)布的GPT-4o模型(更新前只能使用GPT-3.5),來(lái)進(jìn)行數據分析、圖像分析、互聯(lián)網(wǎng)搜索、訪(fǎng)問(wèn)應用商店等操作。這也意味著(zhù)GPT應用商店的開(kāi)發(fā)者,將面對海量的新增用戶(hù)。
當然,付費用戶(hù)將會(huì )獲得更高的消息限制(OpenAI說(shuō)至少是5倍)。當免費用戶(hù)用完消息數量后,ChatGPT將自動(dòng)切換到GPT-3.5。
另外,OpenAI將在未來(lái)1個(gè)月左右向Plus用戶(hù)推出基于GPT-4o改進(jìn)的語(yǔ)音體驗,目前GPT-4o的API并不包含語(yǔ)音功能。蘋(píng)果電腦用戶(hù)將迎來(lái)一款為macOS設計的ChatGPT桌面應用,用戶(hù)可以通過(guò)快捷鍵“拍攝”桌面并向ChatGP提問(wèn),OpenAI表示,Windows版本將在今年晚些時(shí)候推出。
值得一提的是,米拉·穆拉蒂在一次直播活動(dòng)中表示:“這是我們第一次在易用性方面真正向前邁出了一大步?!?/p>
OpenAI由微軟支持,目前投資者對其估值已超過(guò)800億美元。該公司成立于2015年,目前正面臨在生成式AI市場(chǎng)保持領(lǐng)先地位的壓力,同時(shí)需要想方設法實(shí)現盈利,因為其在處理器和基礎設施建設上投入了大量資金,以構建和訓練其模型。
實(shí)時(shí)口譯、讀取用戶(hù)情緒等
米拉·穆拉蒂強調了GPT-4o在實(shí)時(shí)語(yǔ)音和音頻功能方面必要的安全性,稱(chēng)OpenAI將繼續部署迭代,帶來(lái)所有的功能。
在演示中,OpenAI研究主管Mark Chen掏出手機打開(kāi)ChatGPT,用語(yǔ)音模式Voice Mode現場(chǎng)演示,向GPT-4o支持的ChatGPT征詢(xún)建議。GPT的聲音聽(tīng)起來(lái)像一位美國女性,當它聽(tīng)到Chen過(guò)度呼氣時(shí),它似乎從中察覺(jué)到了他的緊張。然后說(shuō)“Mark,你不是吸塵器”,告訴Chen要放松呼吸。如果有些大變化,用戶(hù)可以中斷GPT,GPT-4o的延遲通常應該不會(huì )超過(guò)兩三秒。
圖片來(lái)源:視頻截圖
另一項演示中,OpenAI的后訓練團隊負責人Barret Zoph在白板上寫(xiě)了一個(gè)方程式3x+1=4,ChatGPT給他提示,引導他完成每一步解答,識別他的書(shū)寫(xiě)結果,幫助他解出了X的值。這個(gè)過(guò)程中,GPT充當了實(shí)時(shí)的數學(xué)老師。GPT能夠識別數學(xué)符號,甚至是一個(gè)心形。
圖片來(lái)源:視頻截圖
應社交媒體X的用戶(hù)請求,米拉·穆拉蒂現場(chǎng)對ChatGPT說(shuō)起了意大利語(yǔ)。GPT則將她的話(huà)翻譯成英語(yǔ),轉告Zoph和Chen。聽(tīng)完米拉·穆拉蒂說(shuō)的意大利語(yǔ),GPT翻譯為英文告訴Chen:“Mark,她(米拉·穆拉蒂)想知道鯨魚(yú)會(huì )不會(huì )說(shuō)話(huà),它們會(huì )告訴我們什么?”
圖片來(lái)源:視頻截圖
OpenAI稱(chēng),GPT-4o還可以檢測人的情緒。在演示中,Zoph將手機舉到自己面前正對著(zhù)臉,要求ChatGPT告訴他自己長(cháng)什么樣子。最初,GPT參考了他之前分享的一張照片,將他識別為“木質(zhì)表面”。經(jīng)過(guò)第二次嘗試,GPT給出了更好的答案。
GPT注意到了Zoph臉上的微笑,對他說(shuō):“看起來(lái)你感覺(jué)非??鞓?lè ),喜笑顏開(kāi)?!庇性u論稱(chēng),這個(gè)演示顯示,ChatGPT可以讀取人類(lèi)的情緒,但讀取還有一點(diǎn)困難。
圖片來(lái)源:視頻截圖
OpenAI的高管表示,GPT-4o可以與代碼庫交互,并展示了它根據一些數據分析圖表,根據看到的內容對一張全球氣溫圖得出一些結論。OpenAI稱(chēng),基于GPT-4o的ChatGPT文本和圖像輸入功能將于本周一上線(xiàn),語(yǔ)音和視頻選項將在未來(lái)幾周內推出。
據外媒援引PitchBook的數據,2023年,近700筆生成式AI交易共投入創(chuàng )紀錄的291億美元,較上一年增長(cháng)逾260%。據預測,該市場(chǎng)將在未來(lái)十年內突破1萬(wàn)億美元收入大關(guān)。業(yè)內一些人對于未經(jīng)測試的新服務(wù)如此迅速地推向市場(chǎng)表示擔憂(yōu),而學(xué)術(shù)界和倫理學(xué)家則對這項技術(shù)傳播偏見(jiàn)的傾向感到憂(yōu)慮。
ChatGPT自2022年11月推出以來(lái),便打破了當時(shí)最快增長(cháng)消費類(lèi)應用的歷史記錄,如今每周活躍用戶(hù)已接近1億。OpenAI表示,超過(guò)92%的《財富》500強企業(yè)都在使用該平臺。
圖片來(lái)源:CNBC報道截圖
在周一的活動(dòng)上,穆拉蒂表示,OpenAI希望“消除科技中的一些神秘感”。她還說(shuō),“未來(lái)幾周,我們將向所有人推出這些功能?!?/p>
在直播活動(dòng)結束時(shí),穆拉蒂感謝了英偉達首席執行官黃仁勛及其公司提供的必要圖形處理單元(GPU),這些GPU為OpenAI的技術(shù)提供了動(dòng)力。她說(shuō),“我只想感謝出色的OpenAI團隊,同時(shí)也要感謝黃仁勛和英偉達團隊為我們帶來(lái)最先進(jìn)的GPU,讓今天的演示成為可能?!?/p>
最快232毫秒響應音頻輸入
OpenAI官網(wǎng)介紹,GPT-4o中的o代表意為全能的前綴omni,稱(chēng)它向更自然的人機交互邁進(jìn)了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內容,并生成文本、音頻和圖像的任意組合輸出內容。
圖片來(lái)源:OpenAI官網(wǎng)截圖
除了API的速度更快、成本大幅下降,OpenAI還提到,GPT-4o可以在最快232毫秒的時(shí)間內響應音頻輸入,平均響應時(shí)間為320毫秒,這與人類(lèi)在對話(huà)中的響應時(shí)間相似。它在英語(yǔ)文本和代碼方面的性能與GPT-4 Turbo的性能一致,并且在非英語(yǔ)文本方面的性能有了顯著(zhù)提高。
OpenAI介紹,與現有模型相比,GPT-4o在視覺(jué)和音頻理解方面尤其出色。以前GPT-3.5和GPT-4用戶(hù)以語(yǔ)音模式Voice Mode與ChatGPT對話(huà)的平均延遲時(shí)間為2.8秒和5.4秒,因為OpenAI用了三個(gè)獨立的模型實(shí)現這類(lèi)對話(huà):一個(gè)模型將音頻轉錄為文本,一個(gè)模型接收并輸出文本,再有一個(gè)模型將該文本轉換回音頻。這個(gè)過(guò)程意味著(zhù),GPT丟失了大量信息,它無(wú)法直接觀(guān)察音調、多個(gè)說(shuō)話(huà)者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達情感。
而GPT-4o的語(yǔ)音對話(huà)是OpenAI跨文本、視覺(jué)和音頻端到端訓練一個(gè)新模型的產(chǎn)物,這意味著(zhù)所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò )處理。OpenAI稱(chēng),GPT-4o是其第一個(gè)結合所有這些模式的模型,因此仍然只是淺嘗輒止地探索該模型的功能及其局限性。
上周曾有消息稱(chēng),OpenAI將發(fā)布基于A(yíng)I的搜索產(chǎn)品,但上周五OpenAI的CEO Sam Altman否認了該消息,稱(chēng)本周一演示的既不是GPT-5,也不是搜索引擎。這意味著(zhù)OpenAI再一次沒(méi)有像市場(chǎng)爆料的時(shí)間線(xiàn)那樣推出AI搜索。此后有媒體稱(chēng),OpenAI的新產(chǎn)品可能是一個(gè)具備視覺(jué)和聽(tīng)覺(jué)功能的全新多模態(tài)AI模型,且具有比目前聊天機器人更好的邏輯推理能力。
評論