大模型亂斗 GPT-4迎來(lái)“雙子”星?
距離ChatGPT發(fā)布,已經(jīng)過(guò)去一年零一周。伴隨著(zhù)ChatGPT的發(fā)布,OpenAI成為了人工智能領(lǐng)域最耀眼的公司,尤其是在大模型領(lǐng)域,它也是其他所有科技公司的追趕目標,當然也包括谷歌。
本文引用地址:http://dyxdggzs.com/article/202312/453917.htm谷歌一直把「AI-first」作為公司戰略,2016年吸引了全球目光的AlphaGo便是最好的證明。事實(shí)上,谷歌才是在2017年提出Transformer模型、為今天這場(chǎng)游戲制定規則的先行者。毫不夸張地說(shuō),是谷歌掀起的第一波AI浪潮,改變了整個(gè)AI行業(yè)的發(fā)展。但現在,它亟需在大模型領(lǐng)域證明自己。
Gemini:谷歌重新證明自己
12月6日,谷歌正式發(fā)布了Gemini大模型。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱(chēng),這是谷歌迄今為止功能最強大、最通用的模型,也是谷歌新時(shí)代的開(kāi)始。
Gemini是Google Brain和DeepMind合并組建Google DeepMind之后的首個(gè)重要產(chǎn)品。而在Gemini發(fā)布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶(hù)當中收獲的評價(jià)一直不高,相對于業(yè)界領(lǐng)軍的GPT-4差距很大。
目前,谷歌計劃通過(guò)谷歌云將Gemini授權給客戶(hù),供他們在自己的應用程序中使用。據悉,在Gemini 1.0版本中包含三個(gè)不同尺寸,分別是Nano、Pro、Ultra。
· Gemini Nano:有1.8B和3.25B兩個(gè)版本,分別針對低內存和高內存設備,用于特定任務(wù)和移動(dòng)設備,支持在本地部署;目標是創(chuàng )建一個(gè)盡可能強大的Gemini版本,但同時(shí)不會(huì )占用手機的存儲空間或使處理器過(guò)熱。
· Gemini Pro:是性?xún)r(jià)比優(yōu)化的版本,具有良好延展性,在推理、多模態(tài)等方面也有較強能力,可以在幾周內完成預訓練,在多項測試中僅次于GPT-4V,強于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;從發(fā)布會(huì )當天開(kāi)始,谷歌聊天機器人Bard將使用Pro來(lái)實(shí)現高級推理、規劃、理解和其他功能。
· Gemini Ultra:是最大、功能最強大的類(lèi)別,在對應的TPU基礎設施中能夠展現出最高效率,在多項測試中Ultra版本性能超過(guò)GPT-4V,被定位為GPT-4的競爭對手;谷歌稱(chēng)目前正在進(jìn)行信任和安全檢查,以及通過(guò)微調和基于人類(lèi)反饋的強化學(xué)習(RLHF)進(jìn)一步完善模型,預計明年初,谷歌將推出使用Gemini Ultra的Bard Advanced,會(huì )是Bard發(fā)布以來(lái)的最大更新。
在性能測試上,Gemini Ultra在32個(gè)大語(yǔ)言模型基準測試中的30個(gè)中超過(guò)了當前最優(yōu)成績(jì),另外在MMLU(大規模多任務(wù)語(yǔ)言理解)中,Gemini Ultra的得分為90%,成為首個(gè)超越人類(lèi)專(zhuān)家的大模型。
MMLU通過(guò)結合數學(xué)、物理、歷史、法律、醫學(xué)和倫理學(xué)等57個(gè)科目,來(lái)測試大模型對世界知識和解決問(wèn)題的能力。此前,GPT-4在該測試中的成績(jì)?yōu)?6.4%,而人類(lèi)專(zhuān)家的成績(jì)?yōu)?9.8%。
從自然圖像、音頻和視頻理解到數學(xué)推理,在被大型語(yǔ)言模型研究和開(kāi)發(fā)中廣泛使用的32項學(xué)術(shù)基準中,Gemini Ultra的性能有30項都超過(guò)了目前最先進(jìn)的水平;圖像理解方面,在新的MMMU(專(zhuān)家AGI的大規模多學(xué)科多模式理解和推理)基準測試中,Gemini Ultra的表現也更優(yōu),其得分率達59.4%,GPT-4V的得分率為56.8%。
在對比Gemini和GPT-4的基準測試中,Gemini最明顯的優(yōu)勢來(lái)自于它理解視頻和音頻并與之交互的能力,這很大程度上是設計使然:多模態(tài)在最開(kāi)始就是Gemini計劃的一部分。谷歌沒(méi)有像OpenAI構建DALL·E(文生圖模型)和Whisper(語(yǔ)音識別模型)那樣單獨訓練圖像和語(yǔ)音模型,而是從一開(kāi)始就建立為一個(gè)多感官模型。
最大亮點(diǎn):原生多模態(tài)模型
目前,創(chuàng )建多模態(tài)模型的標準方法主要是通過(guò)分別針對不同模態(tài)訓練單獨的組件,再將這些組件組合起來(lái)以模擬多模態(tài)功能的方法構建的。但這樣操作的結果是,這些模型有時(shí)在執行某些任務(wù)(如描述圖像)方面表現良好,但在處理需要更深層次概念理解和復雜推理的任務(wù)時(shí),它們的表現往往不盡人意。
而谷歌將Gemini設計為原生多模態(tài),區別于其他既有的多模態(tài)模型,它從一開(kāi)始就針對不同模態(tài)進(jìn)行了預訓練,再通過(guò)使用額外的多模態(tài)數據進(jìn)行微調,進(jìn)一步提升了模型的有效性。這意味著(zhù)Gemini一開(kāi)始就能無(wú)縫理解和推理不同類(lèi)型的信息,包括文本、代碼、音頻、圖像和視頻,遠遠優(yōu)于現有的多模態(tài)模型。
這種原生的多模態(tài)訓練方法使得Gemini在處理多種類(lèi)型的數據和復雜任務(wù)時(shí)更為高效和精準,從而在多模態(tài)人工智能領(lǐng)域樹(shù)立了新的標準。原生多模態(tài)能力意味著(zhù)模型能夠更自然、高效地處理和融合多種類(lèi)型的數據,這在實(shí)現更復雜的AI應用方面具有重要意義。
人類(lèi)在理解世界時(shí)自然地融合了視覺(jué)、聽(tīng)覺(jué)和語(yǔ)言等多種感官信息。一個(gè)具有本地多模態(tài)能力的AI模型在處理信息時(shí)也采用了類(lèi)似的綜合方式,這更接近于人類(lèi)的理解和認知方式。
想要實(shí)現AGI(通用人工智能),就需要AI做到像人類(lèi)一樣從容地解決不同領(lǐng)域、不同模式的復雜任務(wù),在這個(gè)過(guò)程中,除了基本的計算、推理等基礎能力,相對應的文字、圖像、視頻等多模態(tài)能力也要跟上。
· AGI-0:基本的人工智能,能夠在特定的領(lǐng)域和任務(wù)上表現出智能,如圖像識別、語(yǔ)音識別、自然語(yǔ)言處理等,但不能跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習和推理,也不能與人類(lèi)和其他AI進(jìn)行有效和自然的溝通和協(xié)作,也不能感知和表達情感和價(jià)值。
· AGI-1:初級的通用人工智能,能夠在多個(gè)領(lǐng)域和任務(wù)上表現出智能,如問(wèn)答、摘要、翻譯、對話(huà)等,能夠跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習和推理,可以與人類(lèi)和其他AI進(jìn)行基本的溝通和協(xié)作,能夠感知和表達簡(jiǎn)單的情感和價(jià)值。
Gemini的演示視頻,充分展現了它對各個(gè)模態(tài)交互的深刻理解,能看、能說(shuō)、能推理、能夠感知和表達簡(jiǎn)單的情感和價(jià)值,也讓我們看到了AGI-1的潛在可能性。
經(jīng)過(guò)訓練,Gemini可以同時(shí)識別和理解文本、圖像、音頻等,因此它能更好地理解微妙的信息,并能回答涉及復雜主題的問(wèn)題,比如進(jìn)行數學(xué)和物理等復雜學(xué)科的推理。
而在編碼方面,Gemini能夠理解、解釋和生成世界上最流行的編程語(yǔ)言(如Python、Java、C++和Go)的高質(zhì)量代碼。兩年前,谷歌曾推出AI代碼生成平臺AlphaCode,現在在Gemini的助力下,該平臺迭代到AlphaCode 2,性能也得到大幅提升,可以解決之前幾乎兩倍數量的問(wèn)題。
Gemini的訓練是基于谷歌自己的張量處理單元(TPUs)v4和v5e,比谷歌之前的模型運行速度更快、成本更低。值得關(guān)注的是,隨著(zhù)Gemini的問(wèn)世,谷歌還宣布了TPU系統的最強升級Cloud TPU v5p,專(zhuān)為訓練尖端AI模型而設計;在訓練優(yōu)化方面,Gemini還使用了Jax和Pathways編程模型,為復雜的數學(xué)運算(如在機器學(xué)習中常見(jiàn)的運算)提供了優(yōu)化的支持,增加了對模型并行性和數據并行性的利用,并對網(wǎng)絡(luò )延遲和帶寬進(jìn)行了優(yōu)化。
通過(guò)使用這些工具,Gemini模型的開(kāi)發(fā)者可以使用單個(gè)Python進(jìn)程來(lái)協(xié)調整個(gè)訓練過(guò)程,這樣可以簡(jiǎn)化開(kāi)發(fā)和訓練工作流,同時(shí)利用Jax和Pathways的高效性能。
GPT-4的“雙子”星?
在過(guò)去的一年里,大模型的聊天機器人單月訪(fǎng)問(wèn)量已經(jīng)增長(cháng)到超過(guò)20億:ChatGPT的月用戶(hù)數從5月開(kāi)始有所下降,10月出現回升重新達到17億,對比谷歌Bard的用戶(hù)數僅為2.6億;Bard雖然排名第二,但和幾個(gè)競品一起歸為“其他”更為合適。
隨著(zhù)OpenAI推出了ChatGPT,尤其是在必應搜索中整合了GPT技術(shù),并首次在應用程序下載量上超越了谷歌后,人們開(kāi)始思考谷歌是否在已人工智能領(lǐng)域落后于競爭對手。此次谷歌發(fā)布Gemini早已被寄予了打破ChatGPT統治的厚望,那么Gemini能否代表著(zhù)谷歌已經(jīng)迎頭趕上了呢?或者說(shuō),如今的谷歌能否重新站在人工智能行業(yè)的最高點(diǎn)呢?
通過(guò)ChatGPT獲得了大量訓練數據反饋,短期內OpenAI仍占有先機,但長(cháng)期來(lái)看谷歌也依然有著(zhù)自己的優(yōu)勢 —— 具備的海量用戶(hù)和產(chǎn)品生態(tài)將會(huì )成為強大勢能。相比OpenAI,谷歌積累了海量的PC和手機端用戶(hù),擁有海量實(shí)時(shí)數據(而OpenAI的數據依賴(lài)互聯(lián)網(wǎng),包括谷歌),并通過(guò)在用戶(hù)手機集成GPT提供如地鐵導航方面而擁有大量用戶(hù)信息。
雖然谷歌此次發(fā)布的Gemini雖然在很多性能上超越了GPT-4,但是它與OpenAI仍存在時(shí)間差,GPT-4發(fā)布已經(jīng)半年多,新一代模型應該也在開(kāi)發(fā)過(guò)程中。所以對谷歌而言,與GPT-4進(jìn)行各種基準測試的比較,只是展現其現階段能力的一方面,能否依靠自身積累以及強大的資源,縮短與OpenAI的時(shí)間差才是關(guān)鍵。
據CNBC報道,在Gemini正式發(fā)布前曾多次推遲發(fā)布日期,內部對Gemini的提前發(fā)布意見(jiàn)不一,如今因為過(guò)大的市場(chǎng)壓力突然決定發(fā)布。未來(lái)還需要解決在非英語(yǔ)查詢(xún)等任務(wù)上的困難,盈利策略也還沒(méi)有確定,商業(yè)化路線(xiàn)不清晰。即使Gemini宣傳效果驚人,但作為谷歌在大模型時(shí)代構建的全新基礎設施,比起測試數據,實(shí)際應用效果有待驗證:能否滿(mǎn)足日常用戶(hù)以及企業(yè)客戶(hù),才是檢驗Gemini能力的真正標準。目前谷歌已經(jīng)開(kāi)始在搜索中試驗Gemini,它使用戶(hù)的搜索生成體驗變得更快(目前只有英語(yǔ)版本,其他語(yǔ)言版本將在未來(lái)陸續推出),延遲減少了40%,同時(shí)在質(zhì)量方面也有所提升。
Gemini的發(fā)布無(wú)疑是AI界又一個(gè)里程碑,這意味著(zhù)AI大模型浪潮進(jìn)入到一個(gè)全新階段。比起大語(yǔ)言模型,多模態(tài)模型的運作模式,才是人類(lèi)最自然的和世界交互的方式:用眼睛看到東西,用耳朵聽(tīng)到聲音,再把這個(gè)東西的語(yǔ)義用聲音/文字輸出,再做出決策。
值得注意的是,視頻內容已經(jīng)是信息時(shí)代的主流,據思科的年度互聯(lián)網(wǎng)報告顯示,視頻已經(jīng)占據互聯(lián)網(wǎng)超過(guò)80%的流量。Gemini只是掀起了多模態(tài)領(lǐng)域的一角,比起大語(yǔ)言模型,多模態(tài)模型增加了音頻、視頻、圖片這些數據,而且這些數據的訓練還遠未到頭,意味著(zhù)大模型的天花板上限還很高。如果AI領(lǐng)域的尺度定律(Scaling law)一直奏效,隨著(zhù)訓練規模不斷擴大,我們還有許多可以期待的能力涌現。
Gemini的發(fā)布,必然會(huì )對其他AI大模型的迭代升級帶來(lái)新的催化。對產(chǎn)業(yè)而言,多模態(tài)料將帶動(dòng)算力需求的提升,同時(shí)為后續GPT-5等模型的發(fā)布將帶來(lái)更多催化。除了在一樣閉源路線(xiàn)上的谷歌,還能有誰(shuí)可以超越OpenAI?走不同開(kāi)源路線(xiàn)Meta旗下的Llama可能也有機會(huì )。
Meta對AI的投資主要集中在三個(gè)方面。一是基礎設施:Meta耗費巨資,在全球范圍內建立昂貴的數據中心;二是開(kāi)源大模型Llama 2:作為AI社區中最強大的開(kāi)源大模型,Llama 2包括7B、13B、70B三個(gè)版本;三是Meta AI:作為一款打通Meta旗下各平臺的AI助手,Meta AI可支持一對一、群聊,上線(xiàn)文生圖功能,甚至可用于A(yíng)R眼鏡。
7月,Meta發(fā)布Llama 2開(kāi)源大模型,以“開(kāi)源”“開(kāi)放”的名義發(fā)起反擊;12月,Meta又高調升級Meta AI助手,為Facebook、Instagram等平臺注入AI動(dòng)力。面對激烈的競爭,Meta寄希望于升級已有平臺,將Meta AI打造成全球應用最廣泛的AI助手。
強大的平臺,一方面為Meta的大模型訓練提供了豐富的語(yǔ)料,另一方面也為Meta AI的普及準備了大量的用戶(hù)。除此之外,AI的核心專(zhuān)利方面,Meta可以微軟、谷歌并駕齊驅?zhuān)瑥V泛應用的深度學(xué)習框架PyTorch便誕生于Meta團隊。
評論