火爆全球的GPT-3,到底憑什么砸大家飯碗?
GPT-3是指第三代生成式預訓練Transformer,它由舊金山AI公司OpenAI開(kāi)發(fā)。該程序歷經(jīng)數年的發(fā)展,最近在AI文本生成領(lǐng)域內掀起了一波的創(chuàng )新浪潮。
本文引用地址:http://dyxdggzs.com/article/202008/416691.htm從許多方面來(lái)看,這些進(jìn)步與自2012年以來(lái)AI圖像處理的飛躍相似。
計算機視覺(jué)技術(shù)促進(jìn)了、無(wú)人駕駛汽車(chē)到、面部識別、無(wú)人機的發(fā)展。因此,有理由認為GPT-3及其同類(lèi)產(chǎn)品的新功能可能會(huì )產(chǎn)生類(lèi)似的深遠影響。
與所有深度學(xué)習系統一樣,GPT-3也是數據模式。它在龐大的文本集上進(jìn)行了訓練,并根據統計規律進(jìn)行了挖掘。
重要的是,此過(guò)程中無(wú)需人工干預,程序在沒(méi)有任何指導的情況下查找,然后將其用于完成文本提示。
海量訓練數據
GPT-3的與眾不同之處在于它的運行規模和完成一系列令人難以置信的任務(wù)。
第一版GPT于2018年發(fā)布,包含1.17億個(gè)參數。2019年發(fā)布的GPT-2包含15億個(gè)參數。
相比之下,GPT-3擁有1750億個(gè)參數,比其前身多100倍,比之前最大的同類(lèi)NLP模型要多10倍。
GPT-3的訓練數據集也十分龐大。整個(gè)英語(yǔ)維基百科(約600萬(wàn)個(gè)詞條)僅占其訓練數據的0.6%。
訓練數據的其他部分來(lái)自數字化書(shū)籍和各種網(wǎng)頁(yè)鏈接。不僅包括新聞文章、食譜和詩(shī)歌之類(lèi)的內容,還包括程序代碼、科幻小說(shuō)、宗教預言等各種你可以想象到的任何文字。
上傳到互聯(lián)網(wǎng)的文本類(lèi)型都可能成為其訓練數據,其中還包括不良內容。比如偽科學(xué)、陰謀論、種族主義等等。這些內容也會(huì )投喂給AI。
這種不可置信的深度和復雜性使輸出也具有復雜性,從而讓GPT-3成為一種非常靈活的工具。
在過(guò)去的幾周中,OpenAI通過(guò)向AI社區的成員提供GPT-3商業(yè)API,鼓勵了這些實(shí)驗。這導致大量新的用法出現。
下面是人們使用GPT-3創(chuàng )建的一小部分示例:
GPT-3能做什么
1、基于問(wèn)題的搜索引擎:就像Google,鍵入問(wèn)題,GPT-3會(huì )將定向到相關(guān)的維基百科URL作為答案。
2、與歷史人物交談的聊天機器人:由于GPT-3接受過(guò)許多數字化書(shū)籍的訓練,因此它吸收了大量與特定哲學(xué)家相關(guān)的知識。這意味著(zhù)你可以啟動(dòng)GPT-3,使其像哲學(xué)家羅素一樣講話(huà)。
3、僅需幾個(gè)樣本,即可解決語(yǔ)言和語(yǔ)法難題。
4、基于文本描述的代碼生成:用簡(jiǎn)單的文字描述你選擇的設計元素或頁(yè)面布局,GPT-3會(huì )彈出相關(guān)代碼。
5、回答醫療問(wèn)題:來(lái)自英國的一名醫學(xué)生使用GPT-3回答了醫療保健問(wèn)題。該程序不僅給出了正確答案,還正確解釋了潛在的生物學(xué)機制。
6、基于文本的探險游戲。
7、文本的風(fēng)格遷移:以某種格式編寫(xiě)的輸入文本,GPT-3可以將其更改為另一種格式。
8、編寫(xiě)吉他曲譜:這意味著(zhù)GPT-3可以自行生成音樂(lè )。
9、寫(xiě)創(chuàng )意小說(shuō)。
10、自動(dòng)完成圖像:這項工作是由GPT-2和OpenAI團隊完成的。它表明可以在像素而不是單詞上訓練相同的基本GPT體系結構,從而使其可以像在文字上一樣實(shí)現視覺(jué)數據自動(dòng)完成任務(wù)。
但是,所有這些樣本都需要一些上下文,以便更好地理解它們。而令人印象深刻的是,GPT-3沒(méi)有接受過(guò)完成任何特定任務(wù)的訓練。
常見(jiàn)的語(yǔ)言模型(包括GPT-2)需要完成基礎訓練,然后再微調以執行特定任務(wù)。
但是GPT-3不需要微調。在語(yǔ)法難題中,它只需要一些所需輸出類(lèi)型的樣本(稱(chēng)為“少量學(xué)習”)。
GPT-3是如此龐大,以至于所有這些不同功能都可以在其中實(shí)現。用戶(hù)只需要輸入正確的提示就可以調教好它。
但是網(wǎng)上傳出的內容存在另一個(gè)問(wèn)題:這些都是精心挑選的樣本,生成結果肯定不止一個(gè)。必然有炒作因素。
正如AI研究人員Delip Rao在一篇針對GPT-3的炒作解構文章中指出的那樣,該軟件的許多早期演示來(lái)自硅谷企業(yè)家,他們渴望宣傳該技術(shù)的潛力并忽略其陷阱,因為他們關(guān)注AI帶來(lái)的新創(chuàng )業(yè)公司。
的確,瘋狂的鼓吹情緒變得如此強烈,以至于OpenAI CEO本人都發(fā)Twitter說(shuō):GPT-3被過(guò)度宣傳了。
GPT-3也會(huì )犯低級錯誤
盡管GPT-3可以編寫(xiě)代碼,但我們很難判斷其總體用途。它是凌亂的代碼嗎,這樣的代碼會(huì )為人類(lèi)開(kāi)發(fā)人員帶來(lái)更多問(wèn)題嗎?
沒(méi)有詳細的測試很難說(shuō),但是我們知道GPT-3在其他方面會(huì )犯嚴重錯誤。
當用戶(hù)和GPT-3創(chuàng )造的“喬布斯”交談時(shí),詢(xún)問(wèn)他現在何處,這個(gè)“喬布斯”回答:“我在加州庫比蒂諾的蘋(píng)果總部?jì)??!边@是一個(gè)連貫的答案,但很難說(shuō)是一個(gè)值得信賴(lài)的答案。
在回答瑣事問(wèn)題或基本數學(xué)問(wèn)題時(shí),也可以看到GPT-3犯了類(lèi)似的錯誤。例如,不能正確回答100萬(wàn)前的數是多少(回答是99萬(wàn))。
但是,我們很難權衡這些錯誤的重要性和普遍性。
如何判斷這個(gè)可以幾乎回答所有問(wèn)題的程序的準確性?如何創(chuàng )建GPT-3的“知識”的系統地圖,然后如何對其進(jìn)行標記?
盡管GPT-3經(jīng)常會(huì )產(chǎn)生錯誤,但更加艱巨的挑戰是,通??梢酝ㄟ^(guò)微調所輸入的文本來(lái)解決這些問(wèn)題。
用GPT-3創(chuàng )造出小說(shuō)的研究人員Branwen指出,“抽樣可以證明知識的存在,但不能證明知識的缺失”,可以通過(guò)微調提示來(lái)修復GPT-3輸出中的許多錯誤。
在一個(gè)錯誤的示范中,詢(xún)問(wèn)GPT-3:“哪個(gè)更重,一個(gè)烤面包機或一支鉛筆?” 它回答說(shuō):“鉛筆比烤面包機重?!?/p>
但是Branwen指出,如果你在問(wèn)這個(gè)問(wèn)題之前給機器投喂某些提示,告訴它水壺比貓重,海洋比塵土重,它會(huì )給出正確的響應。
這可能是一個(gè)棘手的過(guò)程,但是它表明GPT-3可以擁有正確的答案,如果你知道怎么調教它。
Branwen認為,這種微調最終可能會(huì )最終成為一種編碼范例。就像編程語(yǔ)言使用專(zhuān)用語(yǔ)法的編碼更加流暢一樣,未來(lái)我們可能完全放棄這些編程語(yǔ)言,而僅使用自然語(yǔ)言編程。從業(yè)人員可以通過(guò)思考程序的弱點(diǎn)并相應地調整提示,來(lái)從程序中得出正確的響應。
GPT-3的錯誤引起了另一個(gè)問(wèn)題:該程序不可信的性質(zhì)是否會(huì )破壞其整體實(shí)用性?
現在人們已經(jīng)嘗試了GPT-3各種用途:從創(chuàng )建客服機器人,到自動(dòng)內容審核。但是答案內容的錯誤可能回給商業(yè)公司帶來(lái)嚴重后果。
沒(méi)有人原因創(chuàng )建一個(gè)偶爾侮辱客戶(hù)的客服機器人。如果沒(méi)有辦法知道答案是否可靠,我們也不敢拿GPT-3作為教育工具。
專(zhuān)業(yè)人士評價(jià)
一位匿名的在Google資深AI研究人員說(shuō),他們認為GPT-3僅能自動(dòng)完成一些瑣碎任務(wù),較小、更便宜的AI程序也可以做到,而且程序的絕對不可靠性最終會(huì )破壞其商用。
這位研究人員指出,如果沒(méi)有很多復雜的工程調試,GPT-3還不夠真正使用。
AI研究人員Julian Togelius說(shuō):“ GPT-3的表現常常像是一個(gè)聰明的學(xué)生,沒(méi)有讀完書(shū),試圖通過(guò)廢話(huà),比如一些眾所周知的事實(shí)和一些直率的謊言交織在一起,讓它看起來(lái)像是一種流暢的敘述?!?/p>
另一個(gè)嚴重的問(wèn)題是GPT-3的輸出存在偏見(jiàn)。英偉達的AI專(zhuān)家Anima Anandkumar教授指出,GPT-3在部分程度上接受了Reddit過(guò)濾后的數據的訓練,并且根據此數據構建的模型產(chǎn)生的文本有“令人震驚地偏向性”。
在GPT-2的輸出中,如果要求完成下列句子時(shí),模型會(huì )產(chǎn)生各種歧視性言論:“ 黑人(皮條客工作了15年)”、“ 那個(gè)女人(以Hariya為名做妓女)”。
評論