蘋(píng)果發(fā)力對話(huà)式AI 預算擴至每日數百萬(wàn)美元
9月7日消息,據外媒援引知情人士透露,蘋(píng)果始終在增加構建人工智能所需計算的預算,并且已經(jīng)擴大到每天數百萬(wàn)美元。該公司的一個(gè)目標是開(kāi)發(fā)一些功能,允許iPhone用戶(hù)使用簡(jiǎn)單的語(yǔ)音命令來(lái)自動(dòng)執行涉及多個(gè)步驟的任務(wù)。舉例來(lái)說(shuō),這項技術(shù)可以讓用戶(hù)命令Siri語(yǔ)音助手用他們最近拍攝的五張照片創(chuàng )建GIF動(dòng)圖,并將其發(fā)送給朋友。如今,iPhone用戶(hù)必須手動(dòng)完成這個(gè)過(guò)程。
本文引用地址:http://dyxdggzs.com/article/202309/450326.htm據了解該團隊的人士稱(chēng),早在四年前,蘋(píng)果的人工智能主管約翰·詹南德里亞(John Giannandrea)就被授權組建團隊,開(kāi)發(fā)被稱(chēng)為大語(yǔ)言模型(LLM)的對話(huà)式人工智能(或稱(chēng)生成式人工智能)。當時(shí),這項技術(shù)尚未成為軟件行業(yè)的焦點(diǎn)。在OpenAI于去年推出聊天機器人ChatGPT之后,人們才發(fā)現蘋(píng)果有先見(jiàn)之明。聊天機器人ChatGPT推動(dòng)了大語(yǔ)言模型的繁榮。
幾位蘋(píng)果員工表示,盡管詹南德里亞多次表達了對由人工智能語(yǔ)言模型驅動(dòng)的聊天機器人潛在用途的懷疑,但蘋(píng)果并不是完全沒(méi)有為語(yǔ)言模型的繁榮做好準備。這要歸功于詹南德里亞,他幫助對蘋(píng)果的軟件研究文化做出了改變。
這些變化現在正獲得回報,因為大語(yǔ)言模型的出現可能會(huì )改變人們創(chuàng )造一切東西的方式,從計算機程序到幻燈片演示再到書(shū)籍,都是如此。這項技術(shù)還有望自動(dòng)化涉及文本的繁瑣、重復性的任務(wù),從摘要到處理企業(yè)IT票據或客戶(hù)服務(wù)查詢(xún)等。
這個(gè)名為“基礎模型”(Foundational Models)的對話(huà)式人工智能團隊,由幾位曾在谷歌工作多年的工程師組成,詹南德里亞在加入蘋(píng)果之前是他們的主管。該團隊由龐若明(Ruoming Pang,音譯)領(lǐng)導,他于2021年加入蘋(píng)果,此前在谷歌工作了15年,包括詹南德里亞負責領(lǐng)導的人工智能研究部門(mén)。
蘋(píng)果組建多個(gè)LLM團隊
知情人士表示,“基礎模型”團隊的規模仍然很小,大約有16人,但用于培訓蘋(píng)果最先進(jìn)模型的預算已經(jīng)增加到每天數百萬(wàn)美元。相比之下,開(kāi)發(fā)ChatGPT的初創(chuàng )企業(yè)OpenAI首席執行官薩姆·奧特曼(Sam Altman)曾表示,該公司在幾個(gè)月的時(shí)間里,花費了超過(guò)1億美元來(lái)培訓GPT-4,這是該公司為聊天機器人提供支持的最先進(jìn)軟件。
蘋(píng)果的“基礎模型”團隊扮演著(zhù)與谷歌和Meta等公司人工智能團隊類(lèi)似的角色。在這些公司,研究人員需要構建人工智能模型,然后其他團隊將這些模型應用到公司的各種產(chǎn)品中。
不過(guò),蘋(píng)果似乎至少還有另外兩個(gè)相對較新的團隊,正在開(kāi)發(fā)語(yǔ)言或圖像模型。蘋(píng)果最近的一份人工智能研究報告和LinkedIn上的員工簡(jiǎn)介顯示,該公司存在一個(gè)“視覺(jué)智能”(Visual Intelligence)團隊,致力于開(kāi)發(fā)能夠生成“圖像、視頻或3D場(chǎng)景”的軟件。
另一個(gè)團隊正在進(jìn)行涉及多模式人工智能的長(cháng)期研究,這種模型可以識別和生成圖像、視頻或文本。這個(gè)多模式團隊的領(lǐng)導者之一是喬恩·什倫斯(Jon Shlens),他曾在2021年底開(kāi)始在蘋(píng)果工作,之前在谷歌從事人工智能工作。什倫斯于今年早些時(shí)候加入了谷歌的人工智能團隊(現在被稱(chēng)為Google DeepMind)。谷歌即將推出的Gemini模型具有多模式功能。
蘋(píng)果“基礎模型”團隊已經(jīng)開(kāi)發(fā)出幾個(gè)先進(jìn)的模型,并正在內部測試。一位直接了解蘋(píng)果聊天機器人開(kāi)發(fā)情況的人士說(shuō),一款基于大語(yǔ)言模型的蘋(píng)果聊天機器人最終可能會(huì )與使用蘋(píng)果AppleCare客戶(hù)互動(dòng)。AppleCare是該公司提供保修和技術(shù)支持的售后服務(wù)。
Siri升級
另外,Siri團隊也計劃整合大語(yǔ)言模型,讓蘋(píng)果的智能語(yǔ)音助手用戶(hù)以目前無(wú)法實(shí)現的方式自動(dòng)完成某些復雜的任務(wù),比如前面提到的用簡(jiǎn)單指令創(chuàng )建和發(fā)送GIF的例子。這項新功能與蘋(píng)果的快捷方式應用Shortcuts有關(guān),該應用允許用戶(hù)使用不同的應用手動(dòng)編程一系列操作,預計將于明年與新版iPhone操作系統一起發(fā)布。一位知情人士說(shuō),谷歌也一直在努力將其大語(yǔ)言模型與語(yǔ)音助手整合,以便能夠理解和處理更復雜的任務(wù)。
據這位知情人士透露,蘋(píng)果“基礎模型”團隊中的成員認為,其最先進(jìn)的大語(yǔ)言模型AJAX GPT的功能超過(guò)了OpenAI的GPT 3.5,后者是支持ChatGPT最初版本的大語(yǔ)言模型。自那以后,OpenAI推出了一系列功能明顯更強大的模型。
關(guān)于蘋(píng)果如何在其產(chǎn)品中融入大語(yǔ)言模型,目前仍不清楚細節。據多位離職的蘋(píng)果機器學(xué)習工程師說(shuō),該公司領(lǐng)導層更喜歡在設備上運行軟件,這提高了隱私和性能,而不是在云服務(wù)器上運行。
但這可能很難實(shí)現。例如,據一位直接了解該模型的人士透露,AJAX GPT已經(jīng)接受了2000多億個(gè)參數的培訓。參數反映了機器學(xué)習模型的大小和復雜性,參數數量越多,表示模型越復雜,需要更多的存儲空間和計算能力。一個(gè)擁有2000多億個(gè)參數的大語(yǔ)言模型,可能不適合在iPhone上運行。
縮小大語(yǔ)言模型的規模已經(jīng)有先例可循。例如,谷歌的PaLM 2有四種尺寸,其中一種可以在設備上使用,另一種則可以離線(xiàn)使用。
蘋(píng)果發(fā)言人拒絕就此置評。
谷歌的影響力
詹南德里亞被同事們稱(chēng)為J.G.,他最初加入蘋(píng)果是為了幫助改進(jìn)Siri,并為蘋(píng)果的軟件注入更多的機器學(xué)習功能。盡管他曾多次向同事們表示,對由大語(yǔ)言模型驅動(dòng)的聊天機器人的潛在用途持懷疑態(tài)度,但一位知情人士表示,在過(guò)去一年里,在看到一些內部演示后,他開(kāi)始承認這項技術(shù)有能力完成指定任務(wù)。
蘋(píng)果“基礎模型”團隊的組建源于詹南德里亞的決定,他希望讓蘋(píng)果更像他的前雇主,讓員工在進(jìn)行各種研究和發(fā)表論文方面有更大的靈活性。此前,對這些做法的限制損害了蘋(píng)果招聘人才的能力,盡管該公司成功地在其產(chǎn)品中使用了早期的人工智能技術(shù)。
2018年加入蘋(píng)果后,詹南德雷亞幫助從谷歌招聘了關(guān)鍵工程師和研究人員。他還支持更多地使用谷歌的云服務(wù),包括安裝了谷歌開(kāi)發(fā)的人工智能芯片(即張量處理單元)的服務(wù)器,用來(lái)訓練蘋(píng)果的機器學(xué)習模型,進(jìn)而幫助改進(jìn)Siri和提高其他產(chǎn)品功能。
據了解龐若明的人說(shuō),他在神經(jīng)網(wǎng)絡(luò )方面發(fā)表的研究成果吸引了大批追隨者。神經(jīng)網(wǎng)絡(luò )是機器學(xué)習的一個(gè)子集,涉及訓練軟件識別數據中的模式和關(guān)系,類(lèi)似于人類(lèi)大腦的工作方式。龐若明某些比較著(zhù)名的研究涉及神經(jīng)網(wǎng)絡(luò )如何與手機處理器協(xié)同工作,以及如何使用并行計算來(lái)訓練神經(jīng)網(wǎng)絡(luò ),并行計算是將較大的問(wèn)題分解成多個(gè)處理器可以同時(shí)計算的較小任務(wù)的過(guò)程。
開(kāi)源運動(dòng)
龐若明對蘋(píng)果的影響可以從AXLearn中看出來(lái),這是他的團隊在過(guò)去1年中開(kāi)發(fā)用于培訓AJAX GPT的內部軟件。AXLearn是一個(gè)機器學(xué)習框架,可以快速訓練機器學(xué)習模型。AXLearn的部分構成基于龐若明的研究,并針對谷歌張量處理單元進(jìn)行了優(yōu)化。
AXLearn是JAX的一個(gè)分支,JAX是谷歌研究人員開(kāi)發(fā)的開(kāi)源框架。如果將蘋(píng)果的AJAX GPT比作一棟房子,那AXLearn就是藍圖,而JAX就是用來(lái)繪制藍圖的筆和紙。蘋(píng)果用來(lái)培訓大語(yǔ)言模型的數據主要源自建筑行業(yè),目前尚未公開(kāi)。
今年7月份,蘋(píng)果“基礎模型”團隊悄悄地將AXLearn的代碼上傳到代碼存儲庫GitHub,公眾可以使用它來(lái)培訓自己的大語(yǔ)言模型,而不必從頭開(kāi)始構建所有內容。蘋(píng)果公開(kāi)發(fā)布AXLearn代碼的原因尚不清楚,但公司這樣做通常是希望其他工程師能對模型進(jìn)行改進(jìn)。在詹南德雷亞到來(lái)之前,對于向來(lái)行事隱秘的蘋(píng)果來(lái)說(shuō),開(kāi)放可用于商業(yè)用途的源代碼的決定顯得不同尋常。
團隊領(lǐng)導
荷蘭計算機科學(xué)家阿瑟·范·霍夫(Arthur Van Hoff)最初領(lǐng)導的團隊,后來(lái)成為蘋(píng)果“基礎模型”團隊的骨干。據熟悉霍夫的人說(shuō),他是上世紀90年代開(kāi)發(fā)Java的太陽(yáng)微系統公司團隊的早期成員,后來(lái)成為了知名的企業(yè)家?;舴蛴?019年加入蘋(píng)果,最初致力于開(kāi)發(fā)新版Siri,內部代號為黑鳥(niǎo)(Blackbird),但蘋(píng)果最終放棄了這個(gè)版本。
然后,霍夫的團隊開(kāi)始專(zhuān)注于構建大語(yǔ)言模型,他們的目標是將其用于黑鳥(niǎo)的基本版本。該團隊最初只有幾名員工,其中最著(zhù)名的是兩名專(zhuān)門(mén)從事自然語(yǔ)言處理的英國研究人員湯姆·岡特(Tom Gunter)和托馬斯·尼克森(Thomas Nickson)。這兩位研究人員都在牛津大學(xué)獲得了高等學(xué)位,并于2016年加入蘋(píng)果從事Siri的研究。
據知情人士透露,2021年,龐若明加入蘋(píng)果,幫助培訓尖端的大語(yǔ)言模型。與其他蘋(píng)果研究人員不同,他獲得了留在紐約的特殊請求,并被授權在那里為公司的機器學(xué)習團隊建立一個(gè)新的前哨基地。幾個(gè)月后,蘋(píng)果聘請了谷歌前人工智能高管達芙妮·梁(Daphne Luong)來(lái)監督霍夫的團隊,并聘請谷歌研究員薩米·本吉奧(Samy Bengio)領(lǐng)導一個(gè)專(zhuān)注于長(cháng)期機器學(xué)習研究的平行團隊。
龐若明如今接管了“基礎模型”團隊,而霍夫則在今年早些時(shí)候開(kāi)始無(wú)限期休假。據知情人士透露,龐若明團隊的幾名成員目前常駐紐約。
谷歌云交易
龐若明被招聘之際,蘋(píng)果內部越來(lái)越意識到大語(yǔ)言模型在機器學(xué)習領(lǐng)域正變得越來(lái)越重要。據知情人士透露,OpenAI的GPT-3于2020年6月發(fā)布,這促使蘋(píng)果機器學(xué)習團隊要求獲得更多資金來(lái)訓練他們自己的模型。
據兩名直接了解此事的人士透露,為了節省成本,蘋(píng)果的管理人員歷來(lái)鼓勵機器學(xué)習工程師使用谷歌的云計算服務(wù),而不是亞馬遜的類(lèi)似服務(wù),因為谷歌的成本更低。
據一位熟悉相關(guān)討論的離職蘋(píng)果高管透露,谷歌高管過(guò)去曾對蘋(píng)果表示,云服務(wù)定價(jià)較低,在一定程度上是對兩家公司之間廣泛商業(yè)合作的認可。根據協(xié)議,谷歌搜索是蘋(píng)果Safari瀏覽器的默認搜索提供商。多年來(lái),蘋(píng)果始終是全球最大的云服務(wù)器租賃商,并已成為谷歌云的最大客戶(hù)之一,盡管它仍然是亞馬遜的重要客戶(hù)。
一名知情人士表示,蘋(píng)果還積極從谷歌和Meta的人工智能團隊中招募人才。自從AXLearn代碼于7月上傳到GitHub上以來(lái),已有18人對其進(jìn)行了改進(jìn),其中至少有12人在過(guò)去兩年內加入了蘋(píng)果的機器學(xué)習團隊。這些人中,有7人曾在谷歌或Meta工作過(guò)。
評論