<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 獨家 | 語(yǔ)言模型初學(xué)者指南

獨家 | 語(yǔ)言模型初學(xué)者指南

發(fā)布人:數據派THU 時(shí)間:2023-03-19 來(lái)源:工程師 發(fā)布文章

過(guò)去十年中,從文本數據中提取信息的技術(shù)發(fā)生了巨大變化,自然語(yǔ)言處理這一術(shù)語(yǔ)已經(jīng)超躍文本挖掘,成為該領(lǐng)域的主導方法。與此同時(shí),該方法也發(fā)生了翻天覆地的變化。引發(fā)變化的主要驅動(dòng)因素是語(yǔ)言模型的出現,它旨在從原始文本中提取有價(jià)值的見(jiàn)解,成為了許多應用程序的基礎。


語(yǔ)言模型的定義


語(yǔ)言模型使用機器學(xué)習預測單詞的概率分布,基于前一個(gè)條目來(lái)預測句子中最有可能出現的下一個(gè)單詞。語(yǔ)言模型從文本中學(xué)習,可用于生成原始文本、預測文本中的下一個(gè)單詞、語(yǔ)音識別、光學(xué)字符識別和手寫(xiě)識別。


在自然語(yǔ)言處理的學(xué)習過(guò)程中,我對過(guò)去幾年中語(yǔ)言模型的演變非常著(zhù)迷,你或許已經(jīng)聽(tīng)說(shuō)過(guò)GPT-3及其它所構成的潛在威脅,但又是如何走到這一步的呢?機器又是如何制作出一篇模仿記者的文章的呢?


什么是語(yǔ)言模型?


語(yǔ)言模型預測單詞或單詞序列的概率分布。在項目實(shí)踐中,它給出了某個(gè)單詞序列是“有效的”的概率,此時(shí)的有效性并不是指語(yǔ)法上的有效性,相反,它是指類(lèi)似于人類(lèi)的寫(xiě)作方式,這便是語(yǔ)言模型所學(xué)習的東西。正如其他機器學(xué)習模型,特別是深度神經(jīng)網(wǎng)絡(luò )一樣,語(yǔ)言模型并不是在變魔術(shù),它只是一個(gè)以簡(jiǎn)潔的方式合并豐富信息的工具,可以重用樣本外的語(yǔ)境。


語(yǔ)言模型能做什么?


對自然語(yǔ)言的抽象理解是從語(yǔ)境中推斷單詞概率的必要條件,可以用于多項任務(wù)。詞性化或詞干化的目的是將一個(gè)詞簡(jiǎn)化為其最基本的形式,從而大幅度減少標記的數量。如果知道這個(gè)詞的詞性,算法會(huì )工作得更好,動(dòng)詞的后綴可以不同于名詞的后綴,因此,詞性標記(或pos標記)是語(yǔ)言模型的基本原理,同時(shí)也是語(yǔ)言模型的一項常見(jiàn)任務(wù)。


有了良好的語(yǔ)言模型,便可以對文本進(jìn)行提取或抽象摘要。有了不同語(yǔ)言的模型,可以非常容易地建立一個(gè)機器翻譯系統。用例包括回答問(wèn)題(帶或不帶語(yǔ)境,請參見(jiàn)文末的示例)。語(yǔ)言模型還可用于語(yǔ)音識別、OCR、手寫(xiě)識別等領(lǐng)域,有很各種各樣的應用。


語(yǔ)言模型的種類(lèi)


有兩種類(lèi)型的語(yǔ)言模型:


1. 概率統計方法。

2. 基于神經(jīng)網(wǎng)絡(luò )的現代語(yǔ)言模型


注意區分二者之間的不同非常重要。


概率統計語(yǔ)言模型


通過(guò)計算單詞的n-gram概率,建立起一個(gè)簡(jiǎn)單的概率語(yǔ)言模型。n-gram是由n個(gè)單詞組成的序列,n為大于0的整數。n-gram概率是n-gram單詞跟隨一個(gè)特定的n-1 gram單詞(省去最后一個(gè)單詞)的條件概率,即在n-1gram之后,省略掉最后一個(gè)單詞的比例。這個(gè)概念是一個(gè)馬爾可夫假設。給定n-1 gram(現在),n-gram概率(未來(lái))不依賴(lài)于n-2、n-3(過(guò)去)單詞的概率。


這種方法也有一些明顯的缺點(diǎn):前面的n個(gè)單詞會(huì )影響下一個(gè)單詞的概率分布。復雜的文本有深刻的語(yǔ)境,可能對下一個(gè)詞的選擇產(chǎn)生決定性的影響。因此,即使n等于20或50,從前面的n個(gè)單詞中推導出下一個(gè)單詞的并非輕而易舉。一個(gè)術(shù)語(yǔ)對之前的用詞會(huì )產(chǎn)生影響:如果出現了United這個(gè)單詞,那么States of America緊隨其后的概率便有可能大得多,稱(chēng)之為語(yǔ)境問(wèn)題。


最為重要的是,很明顯,這種方法并不適合大規模學(xué)習。隨著(zhù)(n)的增加,單詞排列的數量飆升,即便文本中從未發(fā)生大多數的單詞排列,并且所有發(fā)生的概率(或全部n-gram計數)都必須計算和存儲。此外,未出現的n-gram計數會(huì )產(chǎn)生稀疏性問(wèn)題,概率分布的粒度會(huì )相當低。單詞概率鮮有不同的值,絕大多數單詞具有相同的概率。


基于神經(jīng)網(wǎng)絡(luò )的語(yǔ)言模型


基于神經(jīng)網(wǎng)絡(luò )的語(yǔ)言模型通過(guò)編碼輸入的方式,解決了稀疏性問(wèn)題。Word嵌入層為每個(gè)單詞創(chuàng )建一個(gè)任意大小的向量,向量中同時(shí)包含了語(yǔ)義關(guān)系,連續的向量在下一個(gè)單詞的概率分布中創(chuàng )建了所需的粒度。此外,語(yǔ)言模型同時(shí)也是一個(gè)函數,所有的神經(jīng)網(wǎng)絡(luò )都有大量的矩陣計算,所以無(wú)需存儲所有的n-gram計數來(lái)生成下一個(gè)單詞的概率分布。


語(yǔ)言模型的演進(jìn)


盡管神經(jīng)網(wǎng)絡(luò )解決了稀疏性問(wèn)題,但語(yǔ)境問(wèn)題仍然存在。首先,語(yǔ)言模型更有效地解決了語(yǔ)境問(wèn)題——引入越來(lái)越多的語(yǔ)境詞來(lái)影響概率分布。其次,目標是創(chuàng )建一個(gè)架構,使模型能夠學(xué)習哪些語(yǔ)境詞更為重要。


前文概述的第一個(gè)模型,是一個(gè)密集的(或隱含的)層和一個(gè)輸出層,堆疊在一個(gè)連續的單詞包(CBOW)Word2Vec模型之上。CBOW Word2Vec模型被訓練成從上下文中猜測單詞;Skip-Gram Word2Vec模型則相反,從單詞中猜測上下文。在項目實(shí)踐中,需要通過(guò)多個(gè)結構化的示例訓練 CBOW Word2Vec模型:輸入是在單詞之前和/或之后的n個(gè)單詞,從中可以看到,語(yǔ)境問(wèn)題依然沒(méi)有得到解決。


遞歸神經(jīng)網(wǎng)絡(luò )(RNN)


遞歸神經(jīng)網(wǎng)絡(luò )(RNNs)是對這一問(wèn)題的一個(gè)改進(jìn),RNN既可以是一個(gè)長(cháng)短期記憶(LSTM),也可以是一個(gè)基于門(mén)控循環(huán)單元(GRU)單元的網(wǎng)絡(luò ),它們在選擇下一個(gè)單詞的同時(shí)考慮了所有先前的單詞。AllenNLP的ELMo進(jìn)一步提出了這個(gè)概念,利用一個(gè)雙向的LSTM,將單詞計數前后的語(yǔ)境考慮進(jìn)來(lái)。


TRANSFORMERS


基于RNN架構的主要缺點(diǎn)在于它們的序列性質(zhì),因為沒(méi)有并行化,長(cháng)序列的訓練時(shí)間會(huì )飆升。解決這個(gè)問(wèn)題的方法是采用Transformer架構。


OpenAI的GPT和谷歌的BERT模型均采用了Transformer架構,與此同時(shí),這些模型還采用了一種稱(chēng)為“注意力”的機制,通過(guò)這種機制,模型可以學(xué)習在某些情況下哪些輸入比其他輸入更值得關(guān)注。


在模型架構方面,有數量級飛躍的首先是RNN,尤其是LSTM和GRU,很好地解決了稀疏性問(wèn)題,減少語(yǔ)言模型對磁盤(pán)空間的占用,其次是Transformer架構,使并行化成為可能,并創(chuàng )建了注意力機制。但是,架構并不是語(yǔ)言模型之所以?xún)?yōu)越的唯一考量。


與GPT-1架構相比,除了規模上變大了之外,GPT-3實(shí)際上沒(méi)有什么新穎之處。GPT-3有1750億個(gè)參數,并且是在普通訓練集的大語(yǔ)料庫上訓練的。語(yǔ)言模型的半監督訓練策略,使得這在一定程度上成為可能,將省略一些單詞的文本作為訓練示例。GPT-3令人難以置信的力量在于,它或多或少閱讀了過(guò)去幾年出現在互聯(lián)網(wǎng)上的所有文本,而且能夠準確反映自然語(yǔ)言所包含的絕大多數復雜性。


多用途訓練


最后,我想回顧一下谷歌的T5模型。以前,語(yǔ)言模型被用于標準的自然語(yǔ)言處理任務(wù),如詞性(POS)標注或經(jīng)過(guò)輕微修改的機器翻譯。只要經(jīng)過(guò)重新訓練,BERT就可以成為一個(gè)pos標記器,因為它具有理解自然語(yǔ)言底層結構的抽象能力。


對于T5,無(wú)需對NLP任務(wù)進(jìn)行任何修改,如果它獲取到一個(gè)帶標記的文本,它就知道用哪些標記來(lái)填充適當單詞的空白;它也可以回答問(wèn)題,如果它在問(wèn)題之后收到了一些語(yǔ)境信息,它會(huì )從中搜索出答案。否則,它會(huì )根據自己的知識得出答案。有趣的是:它在問(wèn)答小測試中擊敗了自己的創(chuàng )造者。


語(yǔ)言模型的未來(lái)


我個(gè)人認為,這是離創(chuàng )造人工智能最近的領(lǐng)域。關(guān)于人工智能有很多非議,從市場(chǎng)營(yíng)銷(xiāo)的角度來(lái)看,許多簡(jiǎn)單的決策系統和神經(jīng)網(wǎng)絡(luò )均可稱(chēng)之為人工智能。根據定義,人工智能涉及到由機器執行的類(lèi)人智能能力。遷移學(xué)習在計算機視覺(jué)領(lǐng)域很突出,遷移學(xué)習的概念對人工智能系統至關(guān)重要,同一模型可以完成廣泛的自然語(yǔ)言處理任務(wù),并可以從輸入中推斷出該做什么,它讓我們離真正創(chuàng )造類(lèi)人智能系統又近了一步。


原文標題:A Beginner’s Guide to Language Models

原文鏈接:https://builtin.com/data-science/beginners-guide-language-models


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>