AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟
作者 | 施方圓
編輯 | 陳彩嫻
自人類(lèi)邁入信息時(shí)代開(kāi)始,信息資源總量越來(lái)越多,信息過(guò)載的現象非常嚴重。
英國學(xué)者帶姆·喬丹曾說(shuō):“擁有太多信息使信息的利用變得不可能?!?美國工程師 Vannever Bush 也觀(guān)察到信息過(guò)載的情況,在上個(gè)世紀就提出通過(guò)計算機來(lái)解決日益龐大的信息量問(wèn)題。
Meta AI 新近推出的語(yǔ)言大模型 Galactica,正是在這樣的背景下誕生。
由于語(yǔ)言模型可以潛在地儲存、組織和推理科學(xué)知識,所以語(yǔ)言模型可以作為一種工具幫人類(lèi)處理大量的信息。例如,語(yǔ)言模型可以在一個(gè)文獻訓練中發(fā)現不同研究中潛在的聯(lián)系,并讓這些見(jiàn)解浮出水面。Galactica 通過(guò)自動(dòng)生成二次內容來(lái)整合知識,將論文與代碼連接起來(lái),為科學(xué)研究提供動(dòng)力。
目前,Meta AI 已開(kāi)放了 Galactica 所有模型的源代碼。

精心設計的語(yǔ)料庫
近年來(lái),大型語(yǔ)言模型在 NLP 任務(wù)上取得了突破性的進(jìn)展。這些模型在大型通用語(yǔ)料庫上進(jìn)行自我監督訓練,并在數百個(gè)任務(wù)中表現良好。
但自監督的一個(gè)缺點(diǎn)是傾向使用未經(jīng)整理的數據,模型可能反映語(yǔ)料庫中的錯誤信息、刻板印象和偏見(jiàn)等。對于重視真理的科學(xué)任務(wù)來(lái)說(shuō),這是不可取的,未經(jīng)整理的數據也意味著(zhù)會(huì )浪費更多算力預算。
Galactica 用一個(gè)大型科學(xué)語(yǔ)料庫訓練一個(gè)單一的神經(jīng)網(wǎng)絡(luò ),以學(xué)習不同的科學(xué)語(yǔ)言。Galactica 的語(yǔ)料庫包括了論文、參考資料、百科全書(shū)和其他學(xué)科資源的 1060 億個(gè) token 組成,集合了自然語(yǔ)言來(lái)源,如論文、教科書(shū)和自然序列,如蛋白質(zhì)序列和化學(xué)公式,能夠捕捉到 LATEX 并對其進(jìn)行處理,同時(shí)還用學(xué)術(shù)代碼捕捉計算科學(xué)。
與其他規模更大、未經(jīng)策劃的大型語(yǔ)言模型項目相比,Galactica 使用的數據集規模更小,而且是經(jīng)過(guò)精心策劃的,這很關(guān)鍵,即我們能否在一個(gè)經(jīng)過(guò)策劃和規范的語(yǔ)料庫上制造一個(gè)好的大型語(yǔ)言模型。如果可以,我們就能通過(guò)設置語(yǔ)料庫的內容,更有目的性地設計出大型語(yǔ)言模型。
研發(fā)者們主要通過(guò)專(zhuān)業(yè)化標記來(lái)設計數據集,這會(huì )形成不同的模態(tài),例如:蛋白質(zhì)序列是根據氨基酸殘基來(lái)寫(xiě)的。研發(fā)團隊還對不同模態(tài)進(jìn)行了專(zhuān)門(mén)的標簽化。在處理好了數據集后,研發(fā)者們在 Galactic 的****設置中使用了 Transformer 架構,并進(jìn)行了以下修改:
GeLU 激活——對所有模型的尺寸都使用了 GeLU 激活;
上下文窗口——對所有的模型尺寸都使用了 2048 長(cháng)度的上下文窗口;
無(wú)偏差——遵循 PaLM ,不在任何密集核或層規范中使用偏差;
學(xué)習的位置嵌入——對模型使用學(xué)習的位置嵌入,在較小的尺度上試驗了 ALi Bi ,但沒(méi)有觀(guān)察到大的收益,所以研發(fā)者們沒(méi)有使用它;
詞語(yǔ)——使用 BPE 構建了一個(gè)包含 50k 個(gè)標記組成的詞匯表,詞匯量是由隨機選擇的 2% 的訓練數據子集中產(chǎn)生的。
實(shí)驗效果
研發(fā)者們還對大型語(yǔ)言模型作為科學(xué)模式和自然語(yǔ)言之間的橋梁的潛力進(jìn)行了初步調查,展示了 Galactica 可以通過(guò)自監督來(lái)學(xué)習 IUPAC 命名等任務(wù)。他們發(fā)現,增加連接自然語(yǔ)言和自然序列的數據及數量和大小可能進(jìn)一步提高模型的性能。
研發(fā)者們認為語(yǔ)言模型有更多潛力承擔目前人類(lèi)所擅長(cháng)的事情。
而且為了考察 Galactica 吸收知識的情況,研發(fā)者們還建立了幾個(gè)知識探針的基準,并用于確定語(yǔ)料庫內的知識差距,并告知如何確定語(yǔ)料庫內的知識差距和迭代語(yǔ)料庫。
另外,Galactica 在推理方面表現十分出色,在數學(xué) MMLU 上的表現優(yōu)于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分別為 20.4% 和 8.8%。
在經(jīng)過(guò)四個(gè) epoch 的訓練之后,最大的 120B 參數模型從第五個(gè) epoch 才開(kāi)始過(guò)度擬合。
盡管沒(méi)有接受過(guò)一般語(yǔ)料庫的訓練,但 Galactica 在 BIG-bench 上的表現優(yōu)于 BLOOM 和 OPT-175B。根據評估,Galactica 的毒性也明顯低于其他語(yǔ)言模型。
Galactica 猶如自動(dòng)駕駛
Meta AI 發(fā)布 Galactica 后,在 AI 領(lǐng)域引起廣泛注意,并收獲了一眾好評。
Yann LeCun 評論:這個(gè)工具( Galactica )于論文寫(xiě)作而言,就像輔助駕駛之于駕駛一樣,它不會(huì )幫你自動(dòng)寫(xiě)論文,但它會(huì )在你寫(xiě)論文的時(shí)候大大減輕你的認知負擔。
其他研究者則評論:
太神奇了!Galactica 甚至可以針對某個(gè)領(lǐng)域寫(xiě)評論,推導 SVM ,告訴我什么是線(xiàn)性回歸算法!只是生產(chǎn)內容的長(cháng)度好像有限制?50 多年來(lái),人類(lèi)獲取科學(xué)知識的主要方式一直是通過(guò)存儲和檢索,信息的推理、組合、組織無(wú)法依靠機器,只能通過(guò)人的努力完成,這導致知識吞吐量存在瓶頸。在 Galactica 的實(shí)踐中,研發(fā)者們探討了語(yǔ)言模型可能如何破壞這種舊的形式,帶來(lái)人與知識的新接口。
從長(cháng)遠來(lái)看,語(yǔ)言模型的上下文關(guān)聯(lián)能力可能會(huì )給搜索引擎帶來(lái)顯著(zhù)優(yōu)勢。在 Galactica 的實(shí)踐中,研發(fā)者們還證明語(yǔ)言模型可以是一個(gè)精心策劃的知識庫,執行知識密集型的問(wèn)答任務(wù)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
led顯示器相關(guān)文章:led顯示器原理