GPT-3 不夠 Open,BigScience 構建開(kāi)放語(yǔ)言模型,規模小 16 倍
編譯 | 禾木木
出品 | AI科技大本營(yíng)(ID:rgznai100)
大約一年前,總部位于紐約布魯克林的自然語(yǔ)言處理初創(chuàng )公司 Hugging Face 推出了 BigScience。這是一個(gè)擁有 900 多名研究人員的國際項目,旨在更好地理解自然語(yǔ)言模型原理和提高大型語(yǔ)言模型的質(zhì)量。大型語(yǔ)言模型(LLM)能夠實(shí)現基于文本的數據集識別、預測和生成語(yǔ)言的算法,已經(jīng)吸引了商業(yè)和技術(shù)愛(ài)好者的廣泛關(guān)注。但是,它們背后沒(méi)有像 OpenAI 和 DeepMind 這樣的資源,開(kāi)發(fā) LLM 所需要的昂貴硬件成本仍然是研究人員的困難。
從歐洲核研究組織(CERN)及大型強子對接機等項目中收獲得靈感,BigScience 的目標是創(chuàng )建 LLM 和大型文本數據集,并將這些數據集最終向更廣泛的人工智能社區開(kāi)放。這些模型將在法國巴黎附近的 Jean Zay 超級計算機上進(jìn)行訓練,這也是迄今為止全球最強大的機器設備之一。
對企業(yè)巨頭們的影響可能還不清楚,但 BigScience 這樣的努力實(shí)際是在降低 LLM 的接觸門(mén)檻、提升模型開(kāi)發(fā)透明度。除了由開(kāi)放 AI 研究小組 EleutherAI 創(chuàng )建的幾個(gè)模型之外,很少有經(jīng)過(guò)培訓的 LLM 可供研究或部署到生產(chǎn)中。OpenAI 拒絕將其最強大的 GPT-3 模型開(kāi)源,反而是將源代碼獨家授權給了微軟。與此同時(shí),像英偉達等廠(chǎng)商雖然發(fā)布了性能不錯的 LLM 代碼,但是將這些 LLM 的訓練留給了具有足夠強大硬件的用戶(hù)。
剛剛離開(kāi) Meta(前 Facebook)AI 研究部門(mén)、轉投 Hugging Face 擔任研究主管的 Douwe Kiela 表示:“很明顯,直接跟業(yè)界巨頭對抗并非明智之舉。但作為弱勢一方,我們可以找尋 Hugging Face 最與眾不同的優(yōu)勢。初創(chuàng )企業(yè)更具活力,工作進(jìn)程更快,而且對于開(kāi)源的關(guān)注也讓我們能夠與來(lái)自學(xué)界乃至其他領(lǐng)域的研究人員們建立起強大的社區合作關(guān)系。這一切,都是在為 AI 技術(shù)的大眾化與公平化進(jìn)程而努力?!?/p>
LLM 大眾化
LLM 與其他任何語(yǔ)言模型一樣,也需要根據文本示例理解單詞出現的幾率。較為簡(jiǎn)單的模型會(huì )在特定語(yǔ)境下瀏覽,而大型模型則直接去理解句子甚至是段落。示例以訓練數據集中的文本形式出現,包含從社交媒體、維基百科、書(shū)籍、GitHub 等軟件托管平臺以及公共網(wǎng)絡(luò )上抓取到的 TB 級、甚至是 PB 級數據素材。
我們往往無(wú)法使用現成商用硬件訓練最先進(jìn)的 LLM 模型,部署最先進(jìn)的 LLM 的障礙才是巨大的。像英偉達及微軟的 Megatron 530B LLM 整個(gè)訓練周期耗費可能高達數百萬(wàn)美元,這還不包含模型存儲所帶來(lái)的費用。接下來(lái)則是推理階段,即通過(guò)運行訓練后模型獲得預測結果。根據估計,在單一 AWS 實(shí)例上運行 GPT-3 的成本至少為 87000 美元。
年初發(fā)布的 EleutherAi 模型與訓練數據集倒是做出了一些更加可行的商業(yè)化。但此次 BigScience 的適用范圍更廣,不僅涵蓋 LLM 的訓練與發(fā)布,同時(shí)也解決了不少重大技術(shù)缺陷。
解決不平等問(wèn)題
從計算的角度來(lái)看,LLM的好處并不是嚴格地分布不均的。英語(yǔ)法 LLM 的數量遠遠超過(guò)其他語(yǔ)言培訓的 LLM,少數西歐語(yǔ)言(特別是德語(yǔ),法語(yǔ)和西班牙語(yǔ))占據了主導地位。正如哈佛大學(xué)、喬治梅森(George Mason)和卡耐基梅隆大學(xué)(Carnegie Mellon)近期共同發(fā)布了一項關(guān)于語(yǔ)言技術(shù)的研究,語(yǔ)言使用者的"經(jīng)濟實(shí)力"往往會(huì )推動(dòng)模型的發(fā)展,而不是人口需求。
用英語(yǔ)以外的語(yǔ)言訓練的大型多語(yǔ)言和單語(yǔ)模型雖然很少開(kāi)源,但正變得比以前更常見(jiàn),部分歸功于企業(yè)利益。但是,由于公共數據源中的系統性偏差,非英語(yǔ)模型的表現并不總是與英語(yǔ)模型一樣好。例如,基于維基百科的數據集內不同語(yǔ)種的素材規模差異巨大,而且在待完善內容方面的立項百分比、編輯次數和用戶(hù)瀏覽量上也截然不同。相當一部分使用特定語(yǔ)種的群體根本無(wú)法訪(fǎng)問(wèn)維基百科。此外,阿拉伯語(yǔ)和烏爾都語(yǔ)版本的電子書(shū)大多為圖像掃描件、而非純文本,在使用光學(xué)字符識別工具轉錄過(guò)程中其精度可能低至 70%。
作為其工作的一部分,BigScience表示,它已經(jīng)制作了分布在世界各地的近200種語(yǔ)言資源的目錄。該項目的貢獻者還創(chuàng )建了最大的阿拉伯語(yǔ)公共自然語(yǔ)言目錄之一,稱(chēng)為Masader,擁有200多個(gè)數據集。
結語(yǔ)
在商業(yè)應用中,BIgScience 的工作很有可能會(huì )激發(fā)出原有 LLM 無(wú)法利用的全新 AI 驅動(dòng)產(chǎn)品。語(yǔ)言模型已成為醫療保健、金融服務(wù)等行業(yè)的關(guān)鍵工具,可用于處理專(zhuān)利、從科學(xué)論文中獲得見(jiàn)解,推薦新聞文章等。但是,規模較小的組織也越來(lái)越多地被排除在 AI 的前沿進(jìn)步之外。
在 John Snow Labs 與 Gradient Flow 在 2021 年的一項調查中,受訪(fǎng)企業(yè)普遍將準確性列為語(yǔ)言模型評估中的重要要素,其次是生產(chǎn)就緒性和可擴展性。最大的挑戰體現為成本、維護與數據共享。
盡管 LLM 有潛在的危害,仍然在基礎知識層面也仍然沒(méi)有找到可行的出路,經(jīng)常會(huì )自主打破語(yǔ)義規則并無(wú)休止地原地轉圈。例如,模型經(jīng)常會(huì )在沒(méi)有轉義的情況下改變對話(huà)主題,或者說(shuō)出自相矛盾的言論。LLM 在道德、歷史和法律問(wèn)題上的了解也堪稱(chēng)淺薄,甚至會(huì )在無(wú)意間暴露出公共訓練數據集中的個(gè)人信息。
Kiela 表示“在 Hugging Face 各研究團隊的共同努力下,我們希望在 Meta 式的自下而上探索,與 DeepMind/OpenAI 式的自上而下研究之間找到完美的平衡點(diǎn)。在自下而上時(shí),我們往往會(huì )遇到不必要的摩擦、競爭與資源爭用問(wèn)題。至于自上而下,研究人員的自由意志與創(chuàng )造力則會(huì )受到打壓。我們的員工來(lái)自谷歌、Meta 以及整個(gè)學(xué)術(shù)界,所以當下正是最好的探索時(shí)機。我們希望創(chuàng )造出一種新的開(kāi)創(chuàng )性研究環(huán)境,給傳統實(shí)驗思維帶來(lái)一點(diǎn)有益的啟發(fā)和補充?!?/p>
原文鏈接:
https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。