AI 真的能夠理解人類(lèi)語(yǔ)言嗎?
作者 | Melanie Mitchell
譯者 | 彎月
出品 | CSDN(ID:CSDNnews)
2011年,IBM 的人工智能系統沃森參加綜藝節目《危險邊緣》,并獲得了冠軍,當時(shí)他們宣稱(chēng):“沃森能夠理解自然語(yǔ)言的所有歧義和復雜性?!比欢?,之后沃森在大膽進(jìn)軍醫療保健領(lǐng)域時(shí),卻遭遇慘敗,這說(shuō)明人工智能對語(yǔ)言的理解與人類(lèi)并不相同。
長(cháng)期以來(lái),理解自然語(yǔ)言一直是人工智能研究的主要目標。最初,研究人員曾嘗試通過(guò)手工編寫(xiě)的代碼,幫助計算機理解新聞故事、小說(shuō)或人類(lèi)撰寫(xiě)的其他文檔。然而,正如沃森的經(jīng)歷,這種方法都是徒勞的,我們不可能把理解文本所需的所有不成文的事實(shí)、規則和假設都寫(xiě)進(jìn)代碼里。
像人類(lèi)一樣進(jìn)行書(shū)本學(xué)習的AI
最近,人工智能領(lǐng)域又涌現出一種新型的范式:讓機器學(xué)習通過(guò)大量書(shū)面文本學(xué)習預測單詞的方式,自行理解語(yǔ)言。這就是研究人員所說(shuō)的語(yǔ)言模型。這類(lèi)模型基于大型神經(jīng)網(wǎng)絡(luò ),比如 OpenAI的GPT-3,并生成了令人難以置信的散文(和詩(shī)歌?。?,而且還可以推理復雜的語(yǔ)言邏輯。
GPT-3通過(guò)來(lái)自數千個(gè)網(wǎng)站、書(shū)籍和百科全書(shū)的文本的訓練,它是否超越了沃森的表現呢?它真的能夠理解自己生成的語(yǔ)言及其邏輯嗎?這個(gè)話(huà)題在A(yíng)I研究領(lǐng)域一直富有爭議。這類(lèi)探討曾是哲學(xué)領(lǐng)域的話(huà)題,但在過(guò)去的十年中,人工智能已經(jīng)突破學(xué)術(shù)領(lǐng)域,并闖入了現實(shí)世界,但由于缺乏對現實(shí)世界的理解,它們可能會(huì )帶來(lái)災難性的后果。在一項研究中,有人發(fā)現了IBM的沃森“提出不安全和不正確的治療建議”的多個(gè)例子。還有一項研究表明,Google的機器翻譯系統為非英語(yǔ)患者翻譯醫療說(shuō)明時(shí)出現了重大錯誤。
AI學(xué)會(huì )了嗎?
在實(shí)踐中,我們如何才能確認機器學(xué)習是否真的能夠理解人類(lèi)的語(yǔ)言呢?1950 年,計算先驅艾倫·圖靈曾通過(guò)著(zhù)名的“模仿游戲”來(lái)回答這個(gè)問(wèn)題,如今我們稱(chēng)其為圖靈測試。具體做法是,一臺機器和一個(gè)人,看不見(jiàn)彼此,二者競相僅通過(guò)對話(huà)的方式來(lái)說(shuō)服人類(lèi)法官自己才是人類(lèi)。如果該法官無(wú)法分辨哪個(gè)是人類(lèi),那么,圖靈可以斷言這臺機器確實(shí)擁有思考的能力,也就是說(shuō)能夠理解人類(lèi)的語(yǔ)言。
然而不幸的是,圖靈低估了人類(lèi)喜歡被機器愚弄的傾向性。20世紀60年代,JosephWeizenbaum發(fā)明了一個(gè)名為Eliza的心理治療師,這個(gè)小程序騙過(guò)了很多人,他們相信自己正在與一個(gè)人類(lèi)交談,即便他們知道對面只是一臺機器。
訓練規模越來(lái)越大
在2012年的一篇論文中,計算機科學(xué)家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一個(gè)更客觀(guān)的測試,他們稱(chēng)之為“威諾格拉德模式挑戰”(WinogradSchema Challenge,WSC)。該測試已被AI語(yǔ)言社區采用,作為評估機器理解的一種方式,也許是最好的方式,盡管我們可以看到它并不完美。這種方式有一個(gè)“威諾格拉德模式”(WinogradSchema),其名稱(chēng)源于斯坦福大學(xué)計算機科學(xué)家特里·威諾格拉德。該模式由一對句子組成,兩個(gè)句子僅相差一個(gè)詞,而且兩個(gè)句子緊緊相接。下面是兩個(gè)例子:
句子1:我把瓶子里的水倒進(jìn)杯子里,一直到滿(mǎn)為止。
問(wèn)題:什么是滿(mǎn)的,瓶子還是杯子?
句子2:我把瓶子里的水倒進(jìn)杯子里,一直到空為止。
問(wèn)題:什么是空的,瓶子還是杯子?
句子1:小明跟叔叔打網(wǎng)球輸了,盡管他年長(cháng)了30歲。
問(wèn)題:誰(shuí)更年長(cháng),小明還是小明的叔叔?
句子2:小明跟叔叔打網(wǎng)球輸了,盡管他年輕了30歲。
問(wèn)題:誰(shuí)更年長(cháng),小明還是小明的叔叔?
在上述句子中,一字之差,所指的事物或人就完全不同。正確地回答這些問(wèn)題需要一些常識性的判斷。威諾格拉德模式正是為了測試這種理解能力而設計的,這種方式彌補了圖靈測試的脆弱性:不可靠的人類(lèi)判斷,以及聊天機器人采用的技巧。特別是,作者設計了數百個(gè)針對網(wǎng)絡(luò )搜索的模式:機器無(wú)法通過(guò)網(wǎng)絡(luò )搜索來(lái)正確回答的問(wèn)題。
這些模式是2016年舉辦的一場(chǎng)比賽的主題,最后就連獲勝的程序也只回答對了 58%的句子,比盲猜(50%)略好一點(diǎn)。人工智能研究員Oren Etzioni打趣道:“AI連一句話(huà)中的it指的是什么都無(wú)法確定,居然還有人指望它統治整個(gè)世界?”
然而,由于大型神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型的涌現,AI程序解決威諾格拉德模式的能力也迅速得到了提高。2020年,OpenAI的一篇論文稱(chēng),在威諾格拉德模式的測試中,GPT-3正確回答了90%的句子。還有一些語(yǔ)言模型在經(jīng)過(guò)專(zhuān)門(mén)的訓練之后表現更好。目前,神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型在一組特定的威諾格拉德模式測試上,達到了約97%的準確率,這些模式是一個(gè)名叫SuperGLUE的人工智能理解語(yǔ)言競賽中一部分。這個(gè)準確率幾乎與人類(lèi)的表現持平。這是否意味著(zhù)神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型已經(jīng)達到了人類(lèi)的理解水平?
不一定。盡管這些語(yǔ)言模型的創(chuàng )作者盡了最大努力,但這些威諾格拉德模式并非不可通過(guò)網(wǎng)絡(luò )獲取答案。這些問(wèn)題就像許多其他當前的AI語(yǔ)言理解測試一樣,有時(shí)也有捷徑可以走,即便神經(jīng)網(wǎng)絡(luò )不理解句子的真正含義,也可以給出正確答案。舉個(gè)例子:
跑車(chē)比卡車(chē)跑的更快,是因為它的速度更快。
跑車(chē)比卡車(chē)跑的更快,是因為它的速度更慢。
經(jīng)過(guò)大型語(yǔ)料庫訓練的語(yǔ)言模型掌握了“跑車(chē)”與“快”以及“卡車(chē)”與“慢”之間的聯(lián)系,因此可以?xún)H憑這些相關(guān)性(而不是真正理解句子的含義)來(lái)給出正確的答案。事實(shí)證明,SuperGLUE競賽中的許多威諾格拉德模式都可以通過(guò)這類(lèi)的統計相關(guān)性給出答案。
艾倫人工智能研究所的研究人員并沒(méi)有放棄威諾格拉德模式,并決定努力解決這些問(wèn)題。2019年,他們創(chuàng )建了WinoGrande,這是一組更大的威諾格拉德模式,其中包含44,000個(gè)句子。為了獲得如此多的例子,研究人員通過(guò)亞馬遜的 MechanicalTurk(一個(gè)流行的眾包工作平臺),讓每個(gè)(人類(lèi))工人寫(xiě)出幾對句子,并通過(guò)一些限制確保這些句子包含不同的主題,盡管最后收集到的每一對句子相差可能不止一個(gè)單詞。
接著(zhù),研究人員通過(guò)一些簡(jiǎn)單的AI測試,刪除了可通過(guò)統計捷徑輕松回答的句子。正如預期的那樣,與原始的威諾格拉德模式相比,WinoGrande中的句子向機器學(xué)習發(fā)起了更困難的挑戰。雖然在面對WinoGrande 時(shí),人類(lèi)的得分仍然很高,但神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型的得分卻低了很多。這項新挑戰似乎恢復了威諾格拉德模式作為常識測試的地位,只要句子本身經(jīng)過(guò)仔細篩選,確保無(wú)法通過(guò)網(wǎng)絡(luò )搜索得到答案即可。
然而,另一個(gè)驚喜還在后面。在 WinoGrande 發(fā)布后的近兩年里,神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型的規模越來(lái)越大,而且隨著(zhù)規模的增大,似乎它們在這項新挑戰中的得分也越來(lái)越高。目前,最先進(jìn)的神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型已經(jīng)經(jīng)過(guò)了TB級文本上訓練,然后又在數千個(gè)WinoGrande示例上進(jìn)行了進(jìn)一步的訓練,可以達到將近 90% 的正確率,而人類(lèi)的正確率約為94%。這種性能提升幾乎完全來(lái)源于神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型及其訓練數據規模的增加。
這些日益增大的神經(jīng)網(wǎng)絡(luò )模型是否達到了人類(lèi)的常識性理解水平?不太可能。WinoGrande 的結果有一些嚴重的問(wèn)題。例如,由于這些句子的編寫(xiě)依賴(lài)于亞馬遜Mechanical Turk 上的人工,因此寫(xiě)作的質(zhì)量和連貫性參差不齊。此外,利用簡(jiǎn)單的人工智能方法剔除可通過(guò)網(wǎng)絡(luò )搜索結果的句子,但這些人工智能方法可能過(guò)于簡(jiǎn)單,無(wú)法發(fā)現大型神經(jīng)網(wǎng)絡(luò )有可能使用的統計捷徑,而且這些人工智能只能處理單個(gè)句子,因此導致一些成對的句子只剩下一句。一項后續研究表明,如果要求神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型僅測試成對的句子,并且要求兩個(gè)句子都回答正確,則它們的準確性遠低于人類(lèi),因此前面的 90% 根本不能說(shuō)明什么。
AI理解人類(lèi)語(yǔ)言了嗎?
那么,威諾格拉德模式對我們來(lái)說(shuō)有何意義呢?我們可以從中得到一個(gè)重要的教訓:我們很難通過(guò)AI系統在某項挑戰中的表現判斷它們是否真的能夠理解人類(lèi)的語(yǔ)言(或其他數據)。如今我們知道,神經(jīng)網(wǎng)絡(luò )經(jīng)常使用統計捷徑(而不是展示類(lèi)似于人類(lèi)的理解能力)在威諾格拉德模式以及其他流行的“通用語(yǔ)言理解”基準上展示出高水平。
在我看來(lái),問(wèn)題的關(guān)鍵在于,要想理解人類(lèi)的語(yǔ)言就需要理解這個(gè)世界,而只能接觸到語(yǔ)言的機器無(wú)法獲得這樣的理解能力。我們來(lái)思考一下“跑車(chē)超過(guò)了卡車(chē),是因為它的速度更慢”,這句話(huà)是什么意思。首先你需要知道“跑車(chē)”和“卡車(chē)”是什么,而且需要知道車(chē)輛可以互相“超車(chē)”,從更基本的層面來(lái)看,車(chē)輛是存在于世界上、能夠與之互動(dòng)的物體,且由人類(lèi)駕駛。
對于人類(lèi)來(lái)說(shuō),這些知識不過(guò)是基本常識,但機器內部沒(méi)有這樣的常識庫,也不可能明確地編寫(xiě)到任何語(yǔ)言模型的訓練文本中。一些認知科學(xué)家認為,人類(lèi)學(xué)習和理解語(yǔ)言需要依賴(lài)語(yǔ)言的核心知識,即掌握空間、時(shí)間以及許多關(guān)于這個(gè)世界的其他基本因素。如果想讓機器像人類(lèi)一樣掌握語(yǔ)言,則我們需要賦予它們人類(lèi)與生俱來(lái)的一些基本法則。為了評估機器對語(yǔ)言的理解,我們首先應該它們對這些法則的掌握情況,人們稱(chēng)之為“嬰兒的元物理學(xué)”。
與威諾格拉德模式和GPT-3等人工智能系統相比,訓練和評估嬰兒級別的智能機器似乎是一個(gè)巨大的倒退。但是,我們的目標是理解語(yǔ)言,而這可能是機器能夠真正理解句子中的“it”所指,以及理解“it”所包含的一切的唯一途徑。
參考鏈接:
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
激光器相關(guān)文章:激光器原理