<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ChatGPT的戰爭不會(huì )濃縮于一個(gè)晚上

ChatGPT的戰爭不會(huì )濃縮于一個(gè)晚上

發(fā)布人:大數據文摘 時(shí)間:2023-03-06 來(lái)源:工程師 發(fā)布文章

大數據文摘授權轉載自品玩

作者:玄寧

進(jìn)入2023年,ChatGPT著(zhù)實(shí)讓人類(lèi)感受了一把被AI支配的恐懼。


它超強的上下文理解,泛化,學(xué)習和推理能力,以逼近人類(lèi)互動(dòng)體驗的方式呈現出來(lái),讓所有人耳目一新。哪怕它和它的同類(lèi)競品紛紛暴露出諸多的問(wèn)題,依然難阻人們每天驚呼一次“奇點(diǎn)”來(lái)臨,日日擔心自己的工作被取代,紛紛轉述比爾蓋茨,納德拉和黃仁勛們對ChatGPT的贊賞。各路人馬也紛紛行動(dòng)起來(lái),最新的是馬斯克,在批評了自己參與創(chuàng )辦但早已沒(méi)有股份的OpenAI旗下ChatGPT的安全問(wèn)題后,隨即傳出他自己正在計劃組隊開(kāi)發(fā)ChatGPT的替代品。


一切都飛快的發(fā)展著(zhù),這個(gè)沉寂了一段時(shí)間的行業(yè)終于又被焦慮和聒噪籠罩,這給人一種錯覺(jué):


仿佛這場(chǎng)關(guān)于ChatGPT的競爭就要在一夜之間決出勝負。


圖片

圖源:Unsplash


而在這些焦躁里,那些本該更清晰指向這場(chǎng)競爭真正本質(zhì)的特征——ChatGPT的千億參數,每一次調用的可觀(guān)費用,OpenAI坐的多年冷板凳等等——也被用于了制造短期恐慌。這些或主動(dòng)或無(wú)意的討論事實(shí)上都在糾結于ChatGPT里“chat”的部分——對商業(yè)模式,對可能改變的人類(lèi)對互聯(lián)網(wǎng)的使用習慣以及對錯失新投資或是投機機會(huì )的恐慌。


這些焦慮對想把水攪渾而入局的人以及煽動(dòng)人工智能威脅論的人們來(lái)說(shuō)是喜聞樂(lè )見(jiàn)的,但對于真正理性看待這場(chǎng)技術(shù)競爭是無(wú)益的。


某種意義上,與其說(shuō)ChatGPT證明了某一條AI研究路線(xiàn)的成功,倒不如說(shuō)它更大的意義是證明了AI這些年不斷收斂但依然存在多種選擇的各類(lèi)路線(xiàn)里,最終真的是會(huì )走出一條路的:也就是,它第一次證明了這場(chǎng)技術(shù)革命真的會(huì )到來(lái)。


而當我們真的把它當作一場(chǎng)技術(shù)革命來(lái)看時(shí),就會(huì )明白這是一場(chǎng)將持續很久的復雜系統的比拼,也才有可能尋找到真正具備競爭能力的中國參與者,會(huì )明白這場(chǎng)新的技術(shù)浪潮的競爭不會(huì )“濃縮于一個(gè)晚上”。


讓Chat的歸Chat,GPT的歸GPT


“ChatGPT是AI的iPhone時(shí)刻?!庇ミ_創(chuàng )始人及CEO黃仁勛在近期的一次演講里形容?!癷Phone時(shí)刻”的說(shuō)法隨之變得十分流行,它代表了今天對ChatGPT的熱鬧討論里非常流行的思考方式——人們與AI終于找到了最佳交互界面,從此一切新技術(shù)都可以用來(lái)替代舊應用。而這也成了很多中國的焦慮者參與ChatGPT“創(chuàng )業(yè)潮”的通行證。


但這種“iPhone時(shí)刻”的說(shuō)法,有道理,但無(wú)益處。


與黃仁勛類(lèi)似,微軟創(chuàng )始人比爾蓋茨和微軟現在的CEO納德拉也對ChatGPT做了與黃仁勛“互文”般的表達:比爾蓋茨把它的意義比作互聯(lián)網(wǎng)的誕生,納德拉說(shuō)它堪比工業(yè)革命。但對這幾家公司在最近這波浪潮里的角色稍加分析,就會(huì )明白,通過(guò)投資OpenAI而占盡ChatGPT紅利的微軟,和因為ChatGPT而再次進(jìn)入新的“收稅”模式的英偉達,如此表達的另一層含義,是希望這場(chǎng)技術(shù)革命最終建立在它們自己的商業(yè)帝國之上。


至少現在來(lái)看,iPhone時(shí)刻還只是他們的,并不是我們的。


因此跟著(zhù)這樣的思路去討論是偷懶的且無(wú)益的,尤其是作為ChatGPT沒(méi)有率先誕生在中國這個(gè)事已成事實(shí)的今天,它只會(huì )讓人們繼續關(guān)注被他人定義的“Chat”的部分,著(zhù)急的去跟著(zhù)iPhone做應用,最終給iPhone添磚加瓦;它也會(huì )讓人們陷入窘迫而難以靜下來(lái),無(wú)暇真正了解我們自己“GPT”部分的進(jìn)展。


在大模型上,一些從業(yè)者早已對“iPhone”時(shí)刻足夠警惕,對建立在它人底座上的模式創(chuàng )新已有充足反思和警惕,并已付諸了行動(dòng)。


OpenAI在2020年發(fā)布了1750億參數的GPT3,根據公開(kāi)資料,那之后中國公司和機構發(fā)布的超過(guò)千億參數規模的大模型包括百度發(fā)布的Ernie(文心),華為發(fā)布的盤(pán)古大模型,和阿里巴巴發(fā)布的M6大模型等。


2021年,百度基于其已有的ERNIE模型框架,發(fā)布了百億參數的對話(huà)大模型PLATO-XL,到了最新發(fā)布的ERNIE 3.0 Zeus,模型已有千億級參數。


結合自身的PaddlePaddle訓練框架,讓Ernie從一開(kāi)始的對中文語(yǔ)境的優(yōu)化到現在得到全球研究者越來(lái)越多的關(guān)注。2021年4月, 華為對外公布了盤(pán)古大模型。根據公開(kāi)資料,其在預訓練階段學(xué)習了 40TB 的中文文本數據,并也已達到千億級參數規模。


而2021年4月,阿里巴巴達摩院發(fā)布的270億參數語(yǔ)言大模型PLUG,被稱(chēng)為中文版“GPT-3”。同年阿里巴巴還發(fā)布了國內首個(gè)千億參數多模態(tài)大模型M6。


圖片

圖源:達摩院官網(wǎng)


阿里巴巴的這兩個(gè)大模型都在過(guò)去幾年繼續進(jìn)化, 2021年10月,PLUG模型實(shí)現2萬(wàn)億參數 ,2022年11月,它所屬的阿里通義-AliceMind,在中文語(yǔ)言理解領(lǐng)域權威榜單CLUE中首次超越人類(lèi)成績(jì)。而M6在不斷提高著(zhù)訓練效率,2021年10月,達摩院使用512卡GPU即訓練出全球首個(gè)10萬(wàn)億參數大模型M6,同等參數規模能耗為此前業(yè)界標桿的1%。并且,M6還在進(jìn)一步做多模態(tài)的打通。達摩院的諸多模型集成在2022年發(fā)布的“通義”大模型系列中。


這些大模型的進(jìn)步也引來(lái)了包括OpenAI在內的同行的關(guān)注,OpenAI的前政策主管Jack Clark曾公開(kāi)點(diǎn)評M6模型,稱(chēng)它“規模和設計都非常驚人。


這看起來(lái)像是眾多中國的AI研究組織逐漸發(fā)展壯大的一種表現?!?/span>


可以看出,中國的參與者并不少,參與的也并不晚,成果也并非乏善可陳,否認這一點(diǎn)是虛無(wú)的。而且,但凡親自訓練過(guò)大模型的研究者都不難得出結論:最好的方式就是在已有建制的基礎上去繼續加速。


因為今天諸多對AI模型的研究已經(jīng)發(fā)現,大模型許多能力上的驚人突破,并非一個(gè)線(xiàn)性的過(guò)程,而是會(huì )在模型尺寸達到一個(gè)量級時(shí)發(fā)生突然的“進(jìn)化”,也就是“突現”。不管你喜不喜歡,但事實(shí)就是,雖然AI看起來(lái)高大上,但它的突破需要的,的確是一次不期而至的“大力出奇跡”。


但如果留意最近一段時(shí)間的討論,會(huì )發(fā)現一些此前曾表示開(kāi)發(fā)出大模型的機構和領(lǐng)頭者或明星科學(xué)家,卻選擇跳離這些機構,避而不談曾經(jīng)高調宣揚的自己已有的進(jìn)展,放棄更接近突現的節點(diǎn)而去從零開(kāi)始,背后原因可能不言自明。


一些人抓住“一生一遇”機會(huì )的方式,是追隨別人的iPhone時(shí)刻而去,試圖重新來(lái)過(guò),過(guò)度興奮于“chat”高度擬人的實(shí)現效果帶來(lái)的資本與商業(yè)想象力。但那些真正在產(chǎn)業(yè)里摸爬的中國科技公司,那些真正花很多年的心血打造自己的大模型的中國人工智能科學(xué)家們心里清楚:真正的屬于自己的iPhone時(shí)刻,不在眾聲喧嘩之側,不在“chat”本身,而是在“GPT”上,也就是自己曾經(jīng)多年的辛苦建模、訓練和調參的基礎之上。


只有讓Chat的歸Chat,才能讓GPT的歸GPT,自己的GPT,比什么都重要。


論系統戰,論持久戰


當我們從這種“歷史在一夜之間改變”的興奮脫離出來(lái),會(huì )明白大模型的競爭是一場(chǎng)全面戰爭,它像所有歷史上波瀾壯闊的技術(shù)變革一樣,也將是曠日持久的。


這種全面戰爭首先體現在它不只是某一個(gè)模型的問(wèn)題,而是一個(gè)系統的問(wèn)題。


在人們津津樂(lè )道的微軟借助OpenAI逆襲谷歌的故事里,有些被忽略的是微軟提供給OpenAI的云計算能力對ChatGPT的重要性。


根據公開(kāi)資料,微軟為OpenAI的GPT3訓練,提供了一個(gè)有一萬(wàn)塊 GPU的分布式集群,并且這些昂貴的計算資源和計算能力也專(zhuān)門(mén)為OpenAI做了優(yōu)化。


微軟的云計算Azure,為OpenAI建立和部署了多個(gè)大規模的高性能計算(HPC)系統,根據一些研究數據,微軟Azure“與其他云服務(wù)對手相比,為每個(gè)GPU提供了近2倍的計算吞吐量,并且由于其網(wǎng)絡(luò )和系統軟件的優(yōu)化,可以近乎線(xiàn)性地擴展到數千個(gè)GPU。在模型推理方面,微軟Azure更具成本效益,每美元的推理能獲得2倍的性能?!?/span>


這說(shuō)明類(lèi)似ChatGPT的大模型是AI+云計算的全方位競爭,需要超大規模智算平臺對芯片、系統、網(wǎng)絡(luò )、存儲到數據進(jìn)行全盤(pán)系統優(yōu)化。


這些作為基礎設施的計算平臺提供的不只是高效率的支持,往后更多的甚至是定制化的支持——一丁點(diǎn)的算力浪費,都會(huì )是這場(chǎng)競爭里致命的成本。


這種復雜的系統是以云計算為代表的新技術(shù)發(fā)展到極高復雜度階段的結果,而中國科技公司在這個(gè)技術(shù)周期里生長(cháng)出來(lái)的技術(shù)自覺(jué)和為此付出的長(cháng)期努力,讓它們也擁有了自己的復雜系統,從而也有了參與這場(chǎng)ChatGPT競爭的“入場(chǎng)券”。


其中能力最為完備的當屬阿里巴巴,因為云、數據、系統和芯片。


阿里云的飛天智算平臺在去IOE的過(guò)程中誕生,逐漸成長(cháng)為一個(gè)超大規模的高性能計算集群,并且已是國內唯一能實(shí)現萬(wàn)卡規模的AI集群。它在一個(gè)超大規模高性能網(wǎng)絡(luò )中,構建了一個(gè)可以持續進(jìn)化的智能算力系統,與此同時(shí),阿里云自研的高性能集合通信庫ACCL和自研的網(wǎng)絡(luò )交換機也建立了無(wú)擁塞、高性能的集群通訊能力。


據公開(kāi)資料,飛天智算平臺的千卡并行效率達90%。針對數據密集型場(chǎng)景的大規模集群,還進(jìn)行了數據IO優(yōu)化,通過(guò)自研KSpeed和RDMA高速網(wǎng)絡(luò )架構,最高可將存儲IO性能提升10倍,將時(shí)延顯著(zhù)降低了90%。此外飛天智算平臺的機器學(xué)習平臺PAI,專(zhuān)門(mén)針對AI大模型推理和訓練場(chǎng)景進(jìn)行針對性?xún)?yōu)化,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。阿里的M6模型,在訓練階段使用的正是阿里云機器學(xué)習PAI平臺自研的分布式訓練框架EPL(Easy Parallel Library)。


這場(chǎng)全面戰爭還體現在,它并不是一場(chǎng)比拼誰(shuí)更接近標準答案的戰爭。


圖片圖源:Unsplash


大模型本身也是一個(gè)精妙的系統,它不會(huì )只有一個(gè)答案,甚至無(wú)法只有一個(gè)答案。一個(gè)例證就是,ChatGPT的真正復現到今天依舊無(wú)人實(shí)現。一方面,是技術(shù)本身越來(lái)越閉源,另一方面,真正實(shí)現性能突破的許多關(guān)鍵環(huán)節,有時(shí)真的是一種藝術(shù)性的存在,或者更直白的說(shuō),是碰運氣的過(guò)程,因此沒(méi)有答案可抄。


比如,根據GPT3的論文,這個(gè)模型的大小和數據量,是根據OpenAI自己的擴展規律決定,因此對于另外一個(gè)模型,哪怕是同樣的算力條件,模型和數據的配比也可以有不同的思路,GPT3最終的配方是1750億參數和2500億token的數據,而另一個(gè)知名的類(lèi)似模型,DeepMind 旗下的Chinchilla,則是1100億參數和5000億token,但后者在一些性能上也與GPT3不相上下。也就是,任何一種“配方”都很難直接使用,它很大程度取決于基礎模型的特點(diǎn),很多時(shí)候在那些模型的論文里簡(jiǎn)單的一句結論,背后就是巨大的試錯成本。


這是挑戰,但也是機遇所在:能最極致的做好“軟硬件結合”的模型和平臺,就有機會(huì )用最適合自己的配方更進(jìn)一步。


最典型的當屬英偉達。當幾乎所有的模型訓練都需要在它的硬件上完成,最能發(fā)揮硬件性能的軟件框架自然也最可能由英偉達制造。英偉達發(fā)布的NeMo Megatron 就曾宣稱(chēng)僅用 11 天就完成了 GPT-3 的訓練,還和微軟合作,在 6 周內完成了 Megatron 的一個(gè)5300 億參數模型的訓練。


同樣的,阿里云的計算硬件,軟件平臺和大模型的全方位系統優(yōu)化,也帶來(lái)效率的提升。通義-M6已經(jīng)實(shí)現使用512 位GPU在10天內訓練出具有可用水平的10萬(wàn)億模型的能力,相比GPT-3,同等參數規模能耗僅為其1%,此外達摩院研發(fā)的超大模型落地關(guān)鍵技術(shù)S4框架(Sound、Sparse、Scarce、Scale)也提供了“濃縮”能力,讓百億參數大模型在高壓縮率下仍能高精度完成多個(gè)任務(wù),使“通義”系列模型已在服務(wù)的200多個(gè)場(chǎng)景中實(shí)現了2%-10%的應用效果提升。


也就是說(shuō),這場(chǎng)全面競爭里最需要的是一個(gè)自己的方案,一個(gè)能自主掌控更多環(huán)節從而實(shí)現全局調優(yōu)的自己的方案。這樣的能力更重要的意義在于,它們將不只是用于跟隨——面對一場(chǎng)全面的技術(shù)浪潮,人們往往習慣在短期過(guò)于興奮與高估,激動(dòng)的把開(kāi)局理解為終結,但事實(shí)上技術(shù)浪潮會(huì )是長(cháng)期的。這也是每一場(chǎng)全面戰爭里都會(huì )發(fā)生的事情。而擁有自己的復雜系統掌控能力和基于此的技術(shù)理解能力,會(huì )在長(cháng)期的競爭里提供一定的技術(shù)定力。


對于當前的ChatGPT來(lái)說(shuō),它其實(shí)有著(zhù)鮮明的開(kāi)局感:它基本上還是一個(gè)語(yǔ)言模型,而AI研究者這些年已經(jīng)開(kāi)始奮力追逐多模態(tài)模型——過(guò)往人工智能模型有些八仙過(guò)海的意味,架構眾多,但2017年之后,Transformer的出現改變了這種趨勢,這之后算法架構從包括ChatGPT的NLP到視覺(jué)都迅速統一到以Transformer為底層架構的路線(xiàn),于是不同模態(tài)的模型更有了統一的可能。因此,某種意義上,ChatGPT可能只是未來(lái)真正“恐怖”的多模態(tài)大模型的第一個(gè)明確了的組成部分。


這樣的一場(chǎng)全面戰爭剛剛開(kāi)始。曾經(jīng)因為相信所以看見(jiàn)而衍生出來(lái)的技術(shù)路線(xiàn),讓一些中國互聯(lián)網(wǎng)公司在技術(shù)浪潮來(lái)臨前握住了那最初的浪花,而今天ChatGPT預示了大浪終將到來(lái),對于那些用了多年建立起來(lái)自己的技術(shù)完備能力的中國互聯(lián)網(wǎng)巨頭來(lái)說(shuō),終于到了因為看見(jiàn)所以相信的時(shí)刻。



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>