<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 萬(wàn)字長(cháng)文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(2)

萬(wàn)字長(cháng)文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(2)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-04-18 來(lái)源:工程師 發(fā)布文章
圖片NLP奮發(fā)五載

由于變換器網(wǎng)絡(luò )的出現,大語(yǔ)言模型的興起,以及多種機器學(xué)習范式的融合,近五年自然語(yǔ)言處理有了極大的發(fā)展。從現在來(lái)看,這個(gè)起點(diǎn)當屬2018年ELMo、GPT和BERT的出現。特別是,BERT通過(guò)巨量語(yǔ)料所學(xué)習出來(lái)的大規模預訓練模型,不僅學(xué)會(huì )了上下文信息,還學(xué)會(huì )了語(yǔ)法、語(yǔ)義和語(yǔ)用等,乃至很好地學(xué)會(huì )部分領(lǐng)域知識。BERT在預訓練模型之上,針對特定任務(wù)進(jìn)行微調訓練,在十多個(gè)自然語(yǔ)言處理任務(wù)的評測中遙遙領(lǐng)先,并在機器閱讀理解頂級水平測試SQuAD1.1中表現出驚人成績(jì),兩個(gè)衡量指標上都首次并全面超越人類(lèi)。由于BERT的驚人表現,自然語(yǔ)言處理由此開(kāi)啟了新時(shí)代,在此后的五年中奮發(fā)進(jìn)取,不斷增強語(yǔ)言理解與生成的能力,最終出現了去年年底爆火出圈的ChatGPT,并引發(fā)了通用人工智能即將到來(lái)的激烈探討。下面從三個(gè)維度來(lái)介紹自然語(yǔ)言處理的奮進(jìn)五年——大模型的突飛猛進(jìn),算法的融會(huì )貫通,以及應用的百花齊放。

大模型的突飛猛進(jìn)

圖10展示了自2018年至今具有一定影響力的大模型,其中橫軸是模型發(fā)布時(shí)間(論文發(fā)表時(shí)間或模型發(fā)布時(shí)間的較早者),縱軸是模型參數的數量(單位是百萬(wàn),坐標軸是底為10的對數坐標軸),名字為黑色字體的是國外機構發(fā)布的大模型,紅色字體的是國內機構發(fā)布的大模型。從圖10可以看到,這五年,預訓練大語(yǔ)言模型的參數規模從1億到1萬(wàn)億的“野蠻”增長(cháng),增長(cháng)速度幾乎是每年翻10倍。這個(gè)每年翻10倍的模型增長(cháng)規律,被稱(chēng)為“智能時(shí)代的摩爾定律”。深入分析大模型的情況,總結有兩方面內容:圖片圖10 自然語(yǔ)言大模型的奮進(jìn)五載

  • 機構方面,Google和Deepmind發(fā)布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型,模型的參數規模從1億增長(cháng)到1萬(wàn)億;OpenAI和微軟則發(fā)布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型,模型的參數規模從1億增長(cháng)到5000億;百度發(fā)布了文心(ERNIE)系列,包括 ERNIE,ERNIE2.0,ERNIE3.0,ERNIE 3.0-Titan,參數規模從3億增長(cháng)到2600億??傮w來(lái)說(shuō),隨著(zhù)模型的增長(cháng),有能力訓練和發(fā)布大模型的在減少。除了上面提到的幾家之外,其他的還有芯片大廠(chǎng)Nvidia靠充足的算力,大力出奇跡,國內的智源研究院和鵬程實(shí)驗室等機構也發(fā)布了悟道、盤(pán)古等大模型,表現不俗。
  • 大模型成本高昂,時(shí)間成本和經(jīng)濟成本都巨大。以模型參數為1750億的GPT-3為例,用于訓練模型的原始語(yǔ)料文本超過(guò)100TB(壓縮包為45TB),包含了網(wǎng)頁(yè)、書(shū)籍、英文維基百科等。原始語(yǔ)料文本經(jīng)過(guò)處理后,形成了超過(guò)5000億個(gè)詞元(西方語(yǔ)言的詞,中文的字等)的訓練語(yǔ)料。GPT-3模型的訓練和評估采用的算力是微軟和OpenAI一起打造的超級計算集群,集群有28.5萬(wàn)核CPU,1萬(wàn)個(gè)V100 GPU,以及400Gbps的網(wǎng)絡(luò )帶寬。建造這個(gè)超級計算集群的費用超過(guò)20億元。如果租用微軟或其他云廠(chǎng)商的集群來(lái)訓練GPT-3,訓練一次GPT-3需要耗費估計從280萬(wàn)到540萬(wàn)美元不等(價(jià)格因不同云廠(chǎng)商而有所不同)。因訓練花費不菲,在 GPT-3的論文《Language Models are Few-Shot Learners》中提到“發(fā)現了bug但由于訓練費用問(wèn)題而沒(méi)有重新訓練模型(Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.)”[11]。

算法的融會(huì )貫通

自然語(yǔ)言處理在這五年的高速發(fā)展,除了模型越來(lái)越大,訓練語(yǔ)料越來(lái)越多之外,核心還是多種不同類(lèi)型的人工智能技術(shù)的高速發(fā)展,以及在自然語(yǔ)言處理領(lǐng)域將對這些技術(shù)的融會(huì )貫通。這些人工智能技術(shù)包括但不限于語(yǔ)言模型、對話(huà)系統(Conversational AI)、思維鏈(Chain of Thoughts)、強化學(xué)習(Reinforcement Learning)和人類(lèi)反饋強化學(xué)習 (Reinforcement Learning from Human Feedback,RLHF)、情境學(xué)習(In-context learning)、無(wú)監督學(xué)習(Unsupervised Learning)等等。除此之外,算力的增長(cháng)、大數據處理技術(shù)的發(fā)展也提供了必不可少的支撐。

語(yǔ)言模型

這里簡(jiǎn)要介紹三類(lèi)代表性的語(yǔ)言模型,分別為BERT所使用的掩碼語(yǔ)言模型、GPT系列所使用的自回歸語(yǔ)言模型以及ERNIE系列所使用的引入了知識圖譜等專(zhuān)家知識的語(yǔ)言模型。掩碼語(yǔ)言模型(Masked language model,MLM)是一種雙向語(yǔ)言模型[6][8],模擬了人類(lèi)對語(yǔ)言的認知的雙向語(yǔ)言模型。一個(gè)例子是,人們快速讀閱時(shí),些許的字文錯誤并不會(huì )影響理解,這是由于人們會(huì )自動(dòng)補全。掩碼語(yǔ)言模型正是模擬了這一特點(diǎn),比如對于“一枝紅杏出墻來(lái)”這句話(huà),將其一部分掩蓋住后,原句變?yōu)椤耙恢t?出墻來(lái)”,如何判斷“?”掩蓋的部分?人們能夠自然地意識到“?”掩蓋的是“杏”。而掩碼語(yǔ)言模型則是為了讓模型能夠像人一樣“猜出”被掩蓋的部分。BERT通過(guò)變換器網(wǎng)絡(luò )的編碼器來(lái)實(shí)現掩碼語(yǔ)言模型。同時(shí),如圖11所示,BERT使用了多任務(wù)學(xué)習方法來(lái)從大規模語(yǔ)料中訓練出模型,并在具體任務(wù)中進(jìn)行微調(Fine-Tuning)。圖片圖11 BERT的預訓練和具體任務(wù)的微調示意圖[8]與BERT不一樣的是,GPT系列則通過(guò)變換器網(wǎng)絡(luò )的****實(shí)現了自回歸語(yǔ)言模型(Autoregressive language model)[9],采用多任務(wù)訓練的方法訓練模型,模型如圖12所示。自回歸在時(shí)間序列分析中非常常見(jiàn),比如ARMA,GARCH等都是典型的自回歸模型。在語(yǔ)言模型中,自回歸模型每次都是根據給定的上下文從一組詞元中預測下一個(gè)詞元,并且限定了一個(gè)方向(通常是正向,即在一個(gè)句子中從前往后依次猜下一個(gè)字/詞)。同樣以“一枝紅杏出墻來(lái)”為例,自回歸語(yǔ)言模型中,給定“一枝紅”的上下文來(lái)預測下一個(gè) “杏”字,緊接著(zhù)給定“一枝紅杏”來(lái)預測下一個(gè)“出”字,然后是根據給定的“一枝紅杏出”來(lái)預測“墻”字,如此循環(huán),直到完成整個(gè)序列的預測并輸出。有多種不同的方案來(lái)選擇模型預測的輸出標記序列,例如貪婪解碼、集束搜索(Beam Search)、Top-K采樣、核采樣(Nucleus Sampling)、溫度采樣(Temperature Sampling)等。除了 GPT 系列之外,Transformer-XL、XLNet等大模型也采用了自回歸語(yǔ)言模型。圖片圖12 GPT模型架構及多任務(wù)訓練示意圖[9]ERNIE在采用了 BERT 類(lèi)似的模型架構之上,加入了知識圖譜[6],使得模型能夠用先驗知識來(lái)更好地理解語(yǔ)義,其架構如圖13所示[10]。還是以“一枝紅杏出墻來(lái)”為例,ERNIE能夠更好地理解“紅杏”,并知道它是一種“植物”。也因此,相比于BERT和GPT,ERNIE能夠在更小的模型下獲得相對更好的效果。尤其值得一提的是,這點(diǎn)在中文場(chǎng)景中更加明顯。圖片圖13 ERNIE模型架構及嵌入知識圖譜的示意圖[10]

情境學(xué)習

情境學(xué)習(In-context Learning)是隨著(zhù)GPT-3而流行起來(lái)。在GPT-3中,通過(guò)給出僅僅幾個(gè)示例就能夠很好地完成許多自然語(yǔ)言處理任務(wù)的方法,被稱(chēng)為情境學(xué)習。圖14是一個(gè)直觀(guān)的例子,使用了ChatGPT的情境學(xué)習來(lái)實(shí)現情感分析任務(wù)。直觀(guān)地說(shuō),情境學(xué)習就是給模型一些包含任務(wù)輸入和輸出的提示,并在提示的末尾附加一個(gè)用于預測的輸入,模型根據提示和預測輸入來(lái)預測任務(wù)的結果并輸出。也因此,情境學(xué)習有時(shí)候也被稱(chēng)為基于提示的學(xué)習(Prompt-based learning)。圖片圖14 情境學(xué)習實(shí)例,使用了ChatGPT從圖15可以看出,情境學(xué)習的預測結果在大模型的情況下效果表現得非常好,但在小模型的情況下表現糟糕。簡(jiǎn)單地說(shuō),大模型使得情境學(xué)習變得有用。這是由于情境學(xué)習依賴(lài)于語(yǔ)言模型所學(xué)習到的概念語(yǔ)義和隱含的貝葉斯推理,而這依賴(lài)于大規模預訓練模型對潛在概念的學(xué)習,從文檔級語(yǔ)料學(xué)習了長(cháng)距離依賴(lài)并保持長(cháng)距離的連貫性、思維鏈和復雜推理等等。也因此,情境學(xué)習在大模型之前罕見(jiàn),可謂連實(shí)驗室的玩具都談不上。而在大模型的支撐下,在許多自然語(yǔ)言處理任務(wù)的基準測試(如LAMBADA文本理解測試集和TriviaQA問(wèn)答測試集)中,情境學(xué)習相比其他模型也非常具有競爭力。圖片圖15 情境學(xué)習效果曲線(xiàn)[11]從應用來(lái)看,情境學(xué)習最為津津樂(lè )道的兩個(gè)特點(diǎn)是:

  • 情境學(xué)習能夠有效地使模型即時(shí)適應輸入分布與訓練分布有顯著(zhù)差異的新任務(wù),這相當于在推理期間通過(guò)“學(xué)習”范例來(lái)實(shí)現對特定任務(wù)的學(xué)習,進(jìn)而允許用戶(hù)通過(guò)新的用例快速構建模型,而不需要為每個(gè)任務(wù)進(jìn)行微調訓練。
  • 構建于大語(yǔ)言模型之上的情境學(xué)習通常只需要很少的提示示例即可正常工作,這對于非自然語(yǔ)言處理和人工智能領(lǐng)域的專(zhuān)家來(lái)說(shuō)非常直觀(guān)且有用。

這兩個(gè)特點(diǎn)使得人們能夠使用一個(gè)模型來(lái)實(shí)現不同的任務(wù),為類(lèi)似ChatGPT這樣的準AGI提供了技術(shù)基礎。也正因此,人工智能領(lǐng)域念叨多年的通用人工智能終于露出了一絲曙光。

人類(lèi)反饋強化學(xué)習

人類(lèi)反饋強化學(xué)習是一種人工智能模型在進(jìn)行預測(推斷)的過(guò)程中通過(guò)人的反饋來(lái)實(shí)現模型學(xué)習,使得模型輸出與人類(lèi)的意圖和偏好保持一致,并在連續的反饋循環(huán)中持續優(yōu)化,進(jìn)而產(chǎn)生更好的結果。事實(shí)上,人工智能發(fā)展過(guò)程中,模型訓練階段一直都有人的交互,這也被稱(chēng)為人在圈內(Human-in-the-loop, HITL),但預測階段則更多的是無(wú)人參與,即人在圈外(Human-out-of-the-loop, HOOTL)。在這五年的奮進(jìn)中,通過(guò)人類(lèi)反饋強化學(xué)習使得自然語(yǔ)言處理在推斷階段能夠從人的反饋中學(xué)習。這在自然語(yǔ)言處理領(lǐng)域是一個(gè)新創(chuàng )舉,可謂人與模型手拉手,共建美好新AI。從技術(shù)上看,人類(lèi)反饋強化學(xué)習是強化學(xué)習的一種,適用于那些難以定義明確的用于優(yōu)化模型損失函數,但卻容易判斷模型預測效果好壞的場(chǎng)景,即評估行為比生成行為更容易。在強化學(xué)習的思想中,智能體(Agent)通過(guò)與它所處環(huán)境的交互中進(jìn)行學(xué)習,常見(jiàn)在各類(lèi)游戲AI中。比如,鼎鼎大名的 AlphaGo,在2017年烏鎮互聯(lián)網(wǎng)大會(huì )上打敗了圍棋世界冠軍柯潔,其核心技術(shù)就是強化學(xué)習。人類(lèi)反饋強化學(xué)習并非從自然語(yǔ)言處理開(kāi)始的,比如2017年OpenAI和DeepMind合作探索人類(lèi)反饋強化學(xué)習系統與真實(shí)世界是否能夠有效地交互,實(shí)驗的場(chǎng)景是Atari游戲、模擬機器人運動(dòng)等。這些成果隨后被OpenAI和DeepMind應用到大語(yǔ)言模型上,通過(guò)人類(lèi)反饋來(lái)優(yōu)化語(yǔ)言模型,進(jìn)而使得模型的輸出與預期目標趨于一致,比如InstructionGPT、FLAN等。這些成果表明,加入人類(lèi)反饋強化學(xué)習使得生成文本的質(zhì)量明顯優(yōu)于未使用人類(lèi)反饋強化學(xué)習的基線(xiàn),同時(shí)能更好地泛化到新領(lǐng)域。圖16是人類(lèi)反饋強化學(xué)習的框架圖,獎勵預測器是學(xué)習出來(lái)的,這點(diǎn)與傳統強化學(xué)習有所不同。在傳統強化學(xué)習中,獎勵函數是人工設定的。在InstructionGPT中,強化學(xué)習算法使用了近端策略?xún)?yōu)化(Proximal Policy Optimization,PPO)來(lái)優(yōu)化GPT-3生成摘要的策略。圖片圖16 人類(lèi)反饋強化學(xué)習框架圖應用的百花齊放

近年來(lái),所有自然語(yǔ)言處理的任務(wù)都有了長(cháng)足進(jìn)步,效果飆升,許多任務(wù)都超越了人類(lèi)專(zhuān)家的水平。在斯坦福問(wèn)答數據集2.0(SQuAD2.0)評測中,最新的模型EM 分數和F1分數分別為90.939和93.214,相比人類(lèi)專(zhuān)家86.831和89.452高了4.73%和4.21%。在斯坦福對話(huà)問(wèn)答CoQA數據集的評測中,最佳模型的分數達到90.7,相比人類(lèi)專(zhuān)家的分數88.8,高出了2%。在機器翻譯中,自2017年至今,WMT2014英譯德評測集的 BLEU分數從26增長(cháng)到35以上,德譯英則從23增長(cháng)到35以上。在其他諸如文本分類(lèi)、文檔分類(lèi)、對話(huà)生成、數據到文本(Data-to-Text)、看圖說(shuō)話(huà)(Visual Storytelling)、視覺(jué)問(wèn)答、情感分析、實(shí)體抽取、關(guān)系抽取、事件抽取、自動(dòng)摘要、OCR等等任務(wù)中的效果增長(cháng)都非常顯著(zhù)。在這五年中,行業(yè)應用也愈加廣泛。金融、醫療、司法、制造、營(yíng)銷(xiāo)、媒體等各行各業(yè)都是使用自然語(yǔ)言處理技術(shù)提升效率,降低風(fēng)險?;谧匀徽Z(yǔ)言處理最新技術(shù)的綜合性平臺智能文檔處理系統(Intelligence Document Process System,IDPS)開(kāi)始流行,比如圖17所示的達觀(guān)數據IDPS。中國信息通信研究院(信通院)等機構組織了標準編制和評測,萬(wàn)千企業(yè)開(kāi)始使用智能文檔處理系統進(jìn)行文檔智能比對、關(guān)鍵要素抽取、銀行流水識別、風(fēng)險審核、文檔寫(xiě)作等,實(shí)現了諸多腦力勞動(dòng)的智能化。圖片圖17 達觀(guān)智能文檔處理系統同時(shí),依托自然語(yǔ)言處理進(jìn)行實(shí)體、關(guān)系、事件等知識的抽取,構建出領(lǐng)域專(zhuān)業(yè)知識圖譜,并以語(yǔ)義檢索、智能問(wèn)答、歸因分析、知識推理等為各行提供了豐富的應用,比如賦能智能制造的故障排查,金融行業(yè)的智能投研和智能投顧,政府和企業(yè)的輿情分析,營(yíng)銷(xiāo)和售后的智能客服和智能運營(yíng),媒體的資訊分類(lèi)、自動(dòng)摘要和事實(shí)校驗等。隨著(zhù)近五年自然語(yǔ)言處理技術(shù)的發(fā)展,許多原來(lái)無(wú)法完善服務(wù)的場(chǎng)景也有了切實(shí)可見(jiàn)的應用,影響著(zhù)三百六十行的億萬(wàn)工作者。由OpenAI的Codex大語(yǔ)言模型提供支撐的GitHub CoPilot為數千萬(wàn)的程序員提供效率工具。最新的ChatGPT參與沃頓商學(xué)院的工商管理碩士課程的期末考試并獲得了B檔成績(jì),展現出了非凡的能力[12]。同樣的場(chǎng)景出現在許多大學(xué)中,比如北密歇根大學(xué)有學(xué)生使用 ChatGPT寫(xiě)課程論文獲得了全班最高分。更有甚者,ChatGPT已經(jīng)成為了許多科學(xué)論文或出版書(shū)籍的共同作者,比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》這篇12個(gè)作者中的第三位[13],Gautier Marti則在其出版的書(shū)籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中將ChatGPT列為共同作者。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>