<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 從馬爾可夫鏈到GPT,字節跳動(dòng)AI Lab總監李航細說(shuō)語(yǔ)言模型的前世今生

從馬爾可夫鏈到GPT,字節跳動(dòng)AI Lab總監李航細說(shuō)語(yǔ)言模型的前世今生

發(fā)布人:機器之心 時(shí)間:2022-07-24 來(lái)源:工程師 發(fā)布文章

本文描述了語(yǔ)言模型的發(fā)展歷史,指出未來(lái)可能的發(fā)展方向。

近年來(lái),自然語(yǔ)言處理 (NLP) 領(lǐng)域發(fā)生了革命性的變化。由于預訓練語(yǔ)言模型的開(kāi)發(fā)和應用,NLP 在許多應用領(lǐng)域取得了顯著(zhù)的成就。預訓練語(yǔ)言模型有兩個(gè)主要優(yōu)點(diǎn)。一、它們可以顯著(zhù)提高許多自然語(yǔ)言處理任務(wù)的準確性。例如,可以利用 BERT 模型來(lái)實(shí)現比人類(lèi)更高的語(yǔ)言理解性能。我們還可以利用 GPT-3 模型生成類(lèi)似人類(lèi)寫(xiě)的文章。預訓練語(yǔ)言模型的第二個(gè)優(yōu)點(diǎn)是它們是通用的語(yǔ)言處理工具。在傳統的自然語(yǔ)言處理中,為了執行機器學(xué)習任務(wù),必須標記大量數據來(lái)訓練模型。相比之下,目前只需要標記少量數據來(lái)微調預訓練語(yǔ)言模型,因為它已經(jīng)獲得了語(yǔ)言處理所需的大量知識。
本文從計算機科學(xué)的發(fā)展歷史和未來(lái)趨勢的角度簡(jiǎn)要介紹語(yǔ)言建模,特別是預訓練語(yǔ)言模型,對 NLP 領(lǐng)域的基本概念、直觀(guān)解釋、技術(shù)成就和面臨的挑戰展開(kāi)了綜述,為初學(xué)者提供了關(guān)于預訓練語(yǔ)言模型的參考文獻。
自然語(yǔ)言處理是計算機科學(xué)(CS)、人工智能(AI)和語(yǔ)言學(xué)的一個(gè)交叉領(lǐng)域,包括機器翻譯、閱讀理解、對話(huà)系統、文本摘要、文本生成等應用。近年來(lái),深度學(xué)習已成為自然語(yǔ)言處理的基礎技術(shù)。
借助數學(xué)知識對人類(lèi)語(yǔ)言建模主要有兩種方法:一種是基于概率,另一種是基于形式語(yǔ)言。這兩種方法也可以結合使用。從基本框架的角度看,語(yǔ)言模型屬于第一類(lèi)。語(yǔ)言模型是定義在單詞序列(句子或段落)上的概率分布。
本文首先介紹馬爾可夫和香農的研究中關(guān)于語(yǔ)言建模的基本概念;然后討論了諾姆 ? 喬姆斯基提出的語(yǔ)言模型(基于形式語(yǔ)言理論),描述了神經(jīng)語(yǔ)言模型的定義及其對傳統語(yǔ)言模型的擴展;接下來(lái)解釋了預訓練語(yǔ)言模型的基本思想,討論了神經(jīng)語(yǔ)言建模方法的優(yōu)勢和局限性,并對 NLP 的未來(lái)進(jìn)行了展望。
馬爾可夫與語(yǔ)言模型
安德烈 · 馬爾可夫可能是第一個(gè)研究語(yǔ)言模型的科學(xué)家。盡管當時(shí)還沒(méi)有「語(yǔ)言模型」這個(gè)詞。
假設w1w2, ···, wN是一個(gè)單詞序列。我們可以按如下公式計算單詞序列的概率:

圖片


設 p(w1|w0) = p(w1)。
不同類(lèi)型的語(yǔ)言模型使用不同的方法計算條件概率 p(wi|w1w2, ···, wi-1)。學(xué)習和使用語(yǔ)言模型的過(guò)程稱(chēng)為語(yǔ)言建模。
n-gram 模型是一種基本模型,它假設每個(gè)位置的單詞僅取決于前 n-1 個(gè)位置的單詞。也就是說(shuō),該模型是一個(gè) n–1 階馬爾可夫鏈。

圖片


馬爾可夫鏈模型非常簡(jiǎn)單,只涉及兩個(gè)狀態(tài)之間的轉移概率。馬爾可夫證明,如果根據轉移概率在兩個(gè)狀態(tài)之間跳躍,則訪(fǎng)問(wèn)兩個(gè)狀態(tài)的頻率將收斂到期望值,這是馬爾可夫鏈的遍歷定理。在接下來(lái)的幾年里,他擴展了模型,并證明了上述結論在更一般的情況下仍然成立。
為了提供一個(gè)具體的例子,馬爾可夫將他提出的模型應用于亞歷山大 · 普希金 1913 年的詩(shī)體小說(shuō)《尤金 · 奧涅金》。去掉空格和標點(diǎn)符號,將小說(shuō)的前 20000 個(gè)俄語(yǔ)字母分為元音和輔音,他得到了小說(shuō)中的元音和輔音序列。然后,馬爾可夫使用紙和筆計算元音和輔音之間的轉換概率。然后,使用數據驗證最簡(jiǎn)單馬爾可夫鏈的特征。非常有趣的是,馬爾可夫鏈的初始應用領(lǐng)域是語(yǔ)言。馬爾可夫模型是最簡(jiǎn)單的語(yǔ)言模型。
香農和語(yǔ)言模型
1948 年,克勞德 · 香農發(fā)表了開(kāi)創(chuàng )性的論文《通信的數學(xué)理論》,開(kāi)創(chuàng )了信息論領(lǐng)域。在該論文中,香農引入了熵和交叉熵的概念,并研究了 n-gram 模型的性質(zhì)。
熵表示概率分布的不確定性,而交叉熵表示概率分布相對于另一概率分布的不確定性。熵是交叉熵的下限。
假設語(yǔ)言(單詞序列)是由隨機過(guò)程生成的數據。n-gram 的概率分布熵定義如下:

圖片


其中 p(w1w2, ···, wn表示 n-gram 中 w1w2, ···, wn 的概率。n-gram 概率分布相對于數據「真實(shí)」概率分布的交叉熵定義如下:

圖片


其中q(w1w2, ···, wn表示 n-gram 中w1w2, ···, wn 的概率,p(w1w2, ···, wn表示 n-gram 中 w1w2, ···, wn 的真實(shí)概率。那么,以下關(guān)系成立:

圖片


Shannon-McMillan-Breiman 定理指出,當語(yǔ)言的隨機過(guò)程滿(mǎn)足平穩性和遍歷性條件時(shí),以下關(guān)系成立:

圖片


換句話(huà)說(shuō),當單詞序列長(cháng)度趨于無(wú)窮大時(shí),可以定義語(yǔ)言的熵,從語(yǔ)言的數據中估計出熵的常數值。
如果一種語(yǔ)言模型能比另一種語(yǔ)言模型更準確地預測單詞序列,那么它應該具有更低的交叉熵。因此,香農的工作為語(yǔ)言建模提供了一個(gè)評估工具。
注意,語(yǔ)言模型不僅可以建模自然語(yǔ)言,還可以建模形式和半形式語(yǔ)言,例如 Peng 和 Roth。
喬姆斯基和語(yǔ)言模型
與此同時(shí),諾姆 · 喬姆斯基在 1956 年提出了喬姆斯基語(yǔ)法層次,用于表示語(yǔ)言的語(yǔ)法。他指出,有限狀態(tài)語(yǔ)法(n-gram 模型)在描述自然語(yǔ)言方面具有局限性。
喬姆斯基的理論認為,一種語(yǔ)言由一組有限或無(wú)限的句子組成,每個(gè)句子是一系列長(cháng)度有限的單詞,單詞來(lái)自有限的詞匯,語(yǔ)法是一組生成規則,可以生成語(yǔ)言中的所有句子。不同的語(yǔ)法可以產(chǎn)生不同復雜性的語(yǔ)言,其中存在一些層次結構。
能夠生成有限狀態(tài)機可接受句子的語(yǔ)法是有限狀態(tài)語(yǔ)法或正則語(yǔ)法,而能夠生成非確定性下推自動(dòng)機(PDA)可接受句子的語(yǔ)法是上下文無(wú)關(guān)語(yǔ)法(CFG),有限狀態(tài)語(yǔ)法正確地包含在上下文無(wú)關(guān)語(yǔ)法中。有限馬爾可夫鏈(或 n-gram 模型)背后的「語(yǔ)法」是有限狀態(tài)語(yǔ)法。有限狀態(tài)語(yǔ)法在生成英語(yǔ)句子方面確實(shí)有局限性。
然而,有限狀態(tài)語(yǔ)法不能描述所有的語(yǔ)法關(guān)系組合,有些句子無(wú)法涵蓋。因此,喬姆斯基認為,用有限狀態(tài)語(yǔ)法(包括 n-gram 模型)描述語(yǔ)言有很大的局限性。相反,他指出上下文無(wú)關(guān)語(yǔ)法可以更有效地建模語(yǔ)言。受他的影響,在接下來(lái)的幾十年里,上下文無(wú)關(guān)語(yǔ)法在自然語(yǔ)言處理中更為常用。喬姆斯基的理論目前對自然語(yǔ)言處理影響不大,但仍具有重要的科學(xué)價(jià)值。
神經(jīng)語(yǔ)言模型
n-gram 模型的學(xué)習能力有限。傳統的方法是使用平滑方法從語(yǔ)料庫中估計模型中的條件概率 p(wi|wi-n+1wi-n+2, ···, wi-1。然而,模型中的參數數量為指數級O(Vn),其中 V 表示詞匯量。當 n 增加時(shí),由于訓練數據的稀疏性,無(wú)法準確地學(xué)習模型的參數。
2001 年,Yoshua Bengio 等人提出了第一個(gè)神經(jīng)語(yǔ)言模型,開(kāi)啟了語(yǔ)言建模的新時(shí)代。
Bengio 等人提出的神經(jīng)語(yǔ)言模型從兩個(gè)方面改進(jìn)了 n-gram 模型。首先,實(shí)值向量(稱(chēng)為單詞嵌入)用于表征單詞或單詞的組合。
詞嵌入作為一種「分布式表征」,可以比 one-hot 向量更有效地表征一個(gè)詞,具有泛化能力、穩健性和可擴展性。并且,用神經(jīng)網(wǎng)絡(luò )表征語(yǔ)言模型,大大減少了模型中的參數數量。條件概率由神經(jīng)網(wǎng)絡(luò )確定:

圖片


其中(wi-n+1wi-n+2, ···, wi-1) 表示單詞 wi-n+1wi-n+2, ···, wi-1 的嵌入;f(·) 表示神經(jīng)網(wǎng)絡(luò );? 表示網(wǎng)絡(luò )參數。模型中的參數數量?jì)H為 O(V)。圖 1 顯示了模型中表征之間的關(guān)系。每個(gè)位置都有一個(gè)中間表征,它取決于前 n–1 個(gè)位置處的詞嵌入(單詞),這適用于所有位置。然后,使用當前位置的中間表征為該位置生成一個(gè)單詞。

圖片

圖 1:原始神經(jīng)語(yǔ)言模型中表征之間的關(guān)系

在 Bengio 等人的工作之后,研究人員開(kāi)發(fā)了大量的詞嵌入方法和神經(jīng)語(yǔ)言建模方法,從不同角度進(jìn)行了改進(jìn)。幾個(gè)有代表性的方法包括:文字嵌入方法 Word2Vec、遞歸神經(jīng)網(wǎng)絡(luò )(RNN)語(yǔ)言模型,包括長(cháng)短期記憶(LSTM)網(wǎng)絡(luò )。在 RNN 語(yǔ)言模型中,每個(gè)位置的條件概率由 RNN 確定:

圖片


其中w1w2, ···, wi-1 表示單詞w1w2, ···, wi-1的嵌入;f(·) 表示 RNN;? 表示網(wǎng)絡(luò )參數。RNN 語(yǔ)言模型不再使用馬爾可夫假設,每個(gè)位置的詞取決于之前所有位置的詞。RNN 中的一個(gè)重要概念是其中間表征或狀態(tài)。在 RNN 模型中,詞之間的依賴(lài)關(guān)系以狀態(tài)之間的依賴(lài)關(guān)系為特征。模型的參數被不同位置共享,但在不同位置獲得的表征不同。
下圖 2 顯示了 RNN 語(yǔ)言模型中表征之間的關(guān)系。到目前為止,每個(gè)位置的每一層都有一個(gè)中間表征,表示單詞序列的「狀態(tài)」。當前層在當前位置的中間表征由同一層在前一位置的中間表征和下面層在當前位置的中間表征確定。當前位置的最終中間表征用于計算下一個(gè)單詞的概率。

圖片

圖 2:RNN 語(yǔ)言模型中表征之間的關(guān)系
語(yǔ)言模型可用于計算語(yǔ)言(詞序列)的概率或生成語(yǔ)言。后一種情況通過(guò)從語(yǔ)言模型中隨機采樣來(lái)生成自然語(yǔ)言句子或文章。眾所周知,從大量數據中學(xué)習的 LSTM 語(yǔ)言模型可以生成非常自然的句子。
語(yǔ)言模型的擴展是條件語(yǔ)言模型,它計算給定條件下單詞序列的條件概率。如果條件是另一個(gè)詞序列,則問(wèn)題變成從一個(gè)詞序列到另一個(gè)詞序列的轉換,即所謂的序列到序列問(wèn)題。機器翻譯 、文本摘要和生成對話(huà)都是這樣的任務(wù)。如果給定的條件是圖片,那么問(wèn)題就變成了從圖片到文字序列的轉換。圖像字幕就是這樣一項任務(wù)。
條件語(yǔ)言模型可用于多種應用。在機器翻譯中,系統將一種語(yǔ)言的句子轉換為另一種語(yǔ)言的句子,具有相同的語(yǔ)義。在對話(huà)生成中,系統生成對用戶(hù)話(huà)語(yǔ)的響應,兩條消息形成一輪對話(huà)。在文本摘要中,系統將長(cháng)文本轉換為短文本,使后者代表前者的要點(diǎn)。模型的條件概率分布表示的語(yǔ)義因應用程序而異,并從應用程序的數據中學(xué)習。

序列到序列模型的研究有助于新技術(shù)的發(fā)展。典型的序列到序列模型是 Vaswani 等人開(kāi)發(fā)的 transformer。transformer 完全基于注意力機制。并利用注意力在編碼器和****之間進(jìn)行編碼、解碼和信息交換。目前,幾乎所有的機器翻譯系統都采用 transformer 模型,機器翻譯已經(jīng)達到了幾乎可以滿(mǎn)足實(shí)際需要的水平。由于 transformer 在語(yǔ)言表示方面的強大功能,它的體系結構現在幾乎被所有預訓練語(yǔ)言模型所采用。
預訓練語(yǔ)言模型
基于 transformer 編碼器或****的語(yǔ)言模型分兩個(gè)階段進(jìn)行學(xué)習:預訓練,通過(guò)無(wú)監督學(xué)習(也稱(chēng)為自監督學(xué)習)使用非常大的語(yǔ)料庫訓練模型參數;微調,將經(jīng)過(guò)預訓練的模型應用于特定任務(wù),并通過(guò)監督學(xué)習使用少量標記數據進(jìn)一步調整模型參數。下表 1 中的鏈接提供了學(xué)習和使用預訓練語(yǔ)言模型的資源。

圖片

表 1:學(xué)習和使用預訓練語(yǔ)言模型的資源。

有三種類(lèi)型的預訓練語(yǔ)言模型:?jiǎn)蜗?、雙向和序列到序列。由于篇幅限制,本文僅涵蓋前兩種類(lèi)型。所有主要的預訓練語(yǔ)言模型都采用 transformer 的架構。表 2 提供了現有預訓練語(yǔ)言模型的簡(jiǎn)介。

圖片

表 2 現有預訓練語(yǔ)言模型概述

Transformer 具有很強的語(yǔ)言表征能力,大型語(yǔ)料庫包含豐富的語(yǔ)言表達(這樣的未標記數據很容易獲得),使得訓練大規模深度學(xué)習模型變得更加高效。因此,預訓練語(yǔ)言模型可以有效地表示語(yǔ)言的詞匯、句法和語(yǔ)義特征。預訓練語(yǔ)言模型,如 BERT 和 GPT(GPT-1、GPT-2 和 GPT-3),已成為當前 NLP 的核心技術(shù)。
預訓練語(yǔ)言模型的流行,為自然語(yǔ)言處理帶來(lái)了巨大的成功。BERT 在語(yǔ)言理解任務(wù)(如閱讀理解)的準確性方面優(yōu)于人類(lèi)。GPT-3 在文本生成任務(wù)中也達到了驚人的流利程度。請注意,這些結果僅表明機器在這些任務(wù)中具有非常高的性能,而不應簡(jiǎn)單地解釋 BERT 和 GPT-3 能比人類(lèi)更好地理解語(yǔ)言,因為這也取決于如何進(jìn)行基準測試。正確理解和期望人工智能技術(shù)的能力對于該領(lǐng)域的發(fā)展至關(guān)重要。
Radford 和 Brown 等人開(kāi)發(fā)的 GPT 具有以下架構。輸入是一系列單詞w1w2, ···, wN。首先,通過(guò)輸入層創(chuàng )建一系列輸入表征,表示為矩陣H(0)。
再通過(guò) L transformer ****層后創(chuàng )建一系列中間表征,表示為矩陣H(L)

圖片


最后,根據每個(gè)位置的最終中間表征,計算每個(gè)位置的單詞概率分布。GPT 的預訓練與傳統的語(yǔ)言建模相同,目的是預測單詞序列的可能性。對于給定的詞序列w = w1w2, ···, wN,我們計算并最小化交叉熵或負對數似然來(lái)估計參數:

圖片

其中? 表示 GPT 模型的參數。

圖 3 顯示了 GPTs 模型中表征之間的關(guān)系。每個(gè)位置的輸入表征由單詞嵌入和「位置嵌入」組成每個(gè)位置處每個(gè)層的中間表征是根據之前位置處下方層的中間表征創(chuàng )建的。從左到右在每個(gè)位置重復執行單詞的預測或生成。換句話(huà)說(shuō),GPT 是一種單向語(yǔ)言模型,其中單詞序列從一個(gè)方向建模。(請注意,RNN 語(yǔ)言模型也是單向語(yǔ)言模型。)因此,GPTs 更適合解決自動(dòng)生成句子的語(yǔ)言生成問(wèn)題。

圖片

圖 3:GPT 模型中表征之間的關(guān)系
BERT,由 Devlin 等人開(kāi)發(fā)。它的輸入是一個(gè)單詞序列,可以是單個(gè)文檔中的連續句子,也可以是兩個(gè)文檔中連續句子的串聯(lián)。這使得該模型適用于以一個(gè)文本作為輸入的任務(wù)(如文本分類(lèi)),以及以?xún)蓚€(gè)文本作為輸入的任務(wù)(如回答問(wèn)題)。該模型首先通過(guò)輸入層創(chuàng )建一系列輸入表征,表示為矩陣H(0)。通過(guò)L transformer編碼器層創(chuàng )建一系列中間表征,表示為H(L)。

圖片


最后,可以根據每個(gè)位置的最終中間表征,計算每個(gè)位置的單詞概率分布。BERT 的預訓練作為所謂的 mask 語(yǔ)言建模進(jìn)行。假設單詞序列是 w = w_1, w_2, ···, w_N。序列中的幾個(gè)詞被隨機 mask,即更改為特殊符號——產(chǎn)生新的詞序列。學(xué)習的目標是通過(guò)計算并最小化以下負對數似然來(lái)估計參數,從而恢復「mask 詞」:

圖片


其中? 表示BERT模型的參數,δi 取1或0,表示位置 i 處的單詞是否被 mask。請注意,mask 語(yǔ)言建模已經(jīng)是一種不同于傳統語(yǔ)言建模的技術(shù)。
圖 4 顯示了 BERT 模型中表征之間的關(guān)系。每個(gè)位置的輸入表征由單詞嵌入、位置嵌入等組成。每個(gè)位置的每個(gè)層的中間表征是從下面所有位置的層的中間表征創(chuàng )建的。字的預測或生成在每個(gè) mask 位置獨立執行。也就是說(shuō),BERT 是一種雙向語(yǔ)言模型,其中單詞序列從兩個(gè)方向建模。因此,BERT 可以自然地應用于語(yǔ)言理解問(wèn)題,這些問(wèn)題的輸入是一個(gè)完整的單詞序列,輸出通常是一個(gè)標簽或標簽序列。

圖片

圖 4:BERT 模型中表征之間的關(guān)系
對預練語(yǔ)言模型的直觀(guān)解釋是,計算機在預訓練中基于大型語(yǔ)料庫進(jìn)行了大量的單詞接龍(GPT)或單詞完形填空(BERT)練習,從單詞中捕獲各種構詞模式,然后從句子中構詞,并表達和記憶模型中的模式。文本不是由單詞和句子隨機創(chuàng )建的,而是基于詞匯、句法和語(yǔ)義規則構建的。GPT 和 BERT 可以分別使用 transformer 的****和編碼器來(lái)實(shí)現語(yǔ)言的組合性。(組合性是語(yǔ)言最基本的特征,也是由喬姆斯基層次結構中的語(yǔ)法建模的。)換句話(huà)說(shuō),GPT 和 BERT 在預訓練中獲得了大量的詞匯、句法和語(yǔ)義知識。因此,當適應特定任務(wù)時(shí),可以?xún)H使用少量標記數據來(lái)微調模型,以實(shí)現高性能。例如,BERT 的不同層具有不同的特征。底層主要代表詞匯知識,中間層主要代表句法知識,頂層主要代表語(yǔ)義知識。
預訓練語(yǔ)言模型,如 BERT 和 GPT-3,包含大量事實(shí)知識。例如,它們可以用來(lái)回答諸如「但丁出生在哪里?」只要他們從訓練數據中獲得了知識,就可以進(jìn)行簡(jiǎn)單的推理,例如「48 加 76 等于多少?」
然而,語(yǔ)言模型本身沒(méi)有推理機制。他們的「推理」能力是基于聯(lián)想而不是真正的邏輯推理。因此,他們在需要復雜推理的問(wèn)題如論點(diǎn)推理、數值推理和話(huà)語(yǔ)推理等方面并沒(méi)有很好的表現。將推理能力和語(yǔ)言能力集成到自然語(yǔ)言處理系統中將是未來(lái)的一個(gè)重要課題。

未來(lái)展望
當代科學(xué)(腦科學(xué)和認知科學(xué))對人類(lèi)語(yǔ)言處理機制(語(yǔ)言理解和語(yǔ)言生成)的理解有限。在可預見(jiàn)的未來(lái),很難看到出現重大突破,永遠不突破的可能性也存在。另一方面,我們希望不斷推動(dòng)人工智能技術(shù)的發(fā)展,開(kāi)發(fā)對人類(lèi)有用的語(yǔ)言處理機器。

神經(jīng)語(yǔ)言建模似乎是迄今為止最成功的方法。語(yǔ)言建模的基本特征沒(méi)有改變,即它依賴(lài)于在包含所有單詞序列的離散空間中定義的概率分布。學(xué)習過(guò)程是找到最優(yōu)模型,以便根據交叉熵預測語(yǔ)言數據的準確性最高(見(jiàn)圖 5)。神經(jīng)語(yǔ)言建模通過(guò)神經(jīng)網(wǎng)絡(luò )構建模型。其優(yōu)點(diǎn)是,通過(guò)利用復雜的模型、大數據和強大的計算能力,它可以非常準確地模擬人類(lèi)的語(yǔ)言行為。從 Bengio 等人提出的原始模型到 RNN 語(yǔ)言模型和預訓練語(yǔ)言模型,如 GPT 和 BERT,神經(jīng)網(wǎng)絡(luò )的架構變得越來(lái)越復雜(參見(jiàn)圖 1, 2 ,3 ,4 ),而預測語(yǔ)言的能力越來(lái)越高(交叉熵越來(lái)越?。?。然而,這并不一定意味著(zhù)這些模型具有與人類(lèi)相同的語(yǔ)言能力,這種方法的局限性也是不言而喻的。

圖片

圖 5:該機器通過(guò)調整其 “大腦” 內神經(jīng)網(wǎng)絡(luò )的參數來(lái)模擬人類(lèi)的語(yǔ)言行為最終,它可以像人類(lèi)一樣處理語(yǔ)言
還有其他可能的發(fā)展途徑嗎?目前尚不清楚??梢灶A見(jiàn),神經(jīng)語(yǔ)言建模方法仍有許多可改進(jìn)的方面。當前的神經(jīng)語(yǔ)言模型與人腦在表示能力和計算效率(在功耗方面)方面仍有很大差距。成年人的大腦處理語(yǔ)言問(wèn)題只需要 12 瓦功耗與之形成鮮明對比的是,根據作者的說(shuō)法,訓練 GPT-3 模型已經(jīng)消耗了數千萬(wàn)億次浮點(diǎn)計算。能否開(kāi)發(fā)出更接近人類(lèi)語(yǔ)言處理的更好的語(yǔ)言模型是未來(lái)研究的一個(gè)重要方向。技術(shù)改進(jìn)仍有很多機會(huì )。我們仍然可以從腦科學(xué)的有限發(fā)現中繼續探索。
人們認為,人類(lèi)語(yǔ)言處理主要在大腦皮層的兩個(gè)大腦區域進(jìn)行:布羅卡區和韋尼克區(圖 6)。前者負責語(yǔ)法,后者負責詞匯。有兩種典型的由腦損傷引起的失語(yǔ)癥。布羅卡區受傷的患者只能用零星的單詞而不是句子說(shuō)話(huà),而韋尼克區受傷的患者可以構造語(yǔ)法正確的句子,但單詞往往缺乏意義。一個(gè)自然的假設是,人類(lèi)的語(yǔ)言處理是在兩個(gè)大腦區域并行進(jìn)行的。是否有必要采用更人性化的處理機制是一個(gè)值得研究的課題。語(yǔ)言模型不明確使用語(yǔ)法,也不能無(wú)限組合語(yǔ)言,這是喬姆斯基指出的人類(lèi)語(yǔ)言的一個(gè)重要屬性。將語(yǔ)法更直接地納入語(yǔ)言模型的能力將是一個(gè)需要研究的問(wèn)題。

圖片

圖 6 人腦中負責語(yǔ)言處理的區域
腦科學(xué)家認為,人類(lèi)語(yǔ)言理解是一個(gè)在潛意識中激活相關(guān)概念表達并在意識中生成相關(guān)圖像的過(guò)程。表征包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)表征。它們是視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)等概念的內容,這些概念通過(guò)一個(gè)人在成長(cháng)和發(fā)展過(guò)程中的經(jīng)歷在大腦的各個(gè)部分被記住。因此,語(yǔ)言理解與人們的經(jīng)驗密切相關(guān)。生活中的基本概念,如貓和狗,是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等傳感器的輸入來(lái)學(xué)習的。聽(tīng)到或看到單詞 “貓” 和“狗”也會(huì )激活人們大腦中相關(guān)的視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)表征。機器能否從大量多模式數據(語(yǔ)言、視覺(jué)、語(yǔ)音)中學(xué)習更好的模型,以便能夠更智能地處理語(yǔ)言、視覺(jué)和語(yǔ)音?多模態(tài)語(yǔ)言模型將是未來(lái)探索的一個(gè)重要課題。
結論
語(yǔ)言模型的歷史可以追溯到 100 多年前。馬爾可夫、香農和其他人無(wú)法預見(jiàn)他們研究的模型和理論會(huì )在以后產(chǎn)生如此大的影響;這對 Bengio 來(lái)說(shuō)甚至可能出乎意料。未來(lái) 100 年,語(yǔ)言模型將如何發(fā)展?它們仍然是人工智能技術(shù)的重要組成部分嗎?這超出了我們的想象和預測。我們可以看到,語(yǔ)言建模技術(shù)在不斷發(fā)展。在未來(lái)幾年,很可能會(huì )有更強大的模型取代 BERT 和 GPT。對我們來(lái)說(shuō),我們有幸成為第一代看到技術(shù)巨大成就并參與研發(fā)的人。
原文鏈接:https://cacm.acm.org/magazines/2022/7/262080-language-models/fulltext


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

紅外熱像儀相關(guān)文章:紅外熱像儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>