開(kāi)源引擎GTS乾坤鼎:自動(dòng)生產(chǎn)模型拿下FewCLUE榜單冠軍
在自然語(yǔ)言處理(NLP)領(lǐng)域,基于 Transformer 結構的預訓練語(yǔ)言模型展示出了強大的語(yǔ)言理解能力,在各類(lèi) NLP 任務(wù)上都取得了巨大突破。
然而,在眾多真實(shí)的業(yè)務(wù)場(chǎng)景中,有標注的數據是往往是嚴重稀缺的,而相關(guān)數據的獲取和標注需要大量的人力和專(zhuān)家知識的投入。因此,小樣本學(xué)習的研究已經(jīng)成為業(yè)界的熱點(diǎn)之一。
針對這一問(wèn)題,IDEA 研究院認知計算與自然語(yǔ)言研究中心(下面簡(jiǎn)稱(chēng) IDEA CCNL)研發(fā)了模型生產(chǎn)工具 GTS 乾坤鼎引擎以及 GTSfactory 模型自動(dòng)生產(chǎn)平臺,其基于封神榜開(kāi)源模型體系,提出了首創(chuàng )的 GTS(Generator-Teacher-Student)訓練體系,通過(guò)「用 AI 生產(chǎn) AI」的方式,以自動(dòng)化生產(chǎn)的模型在中文語(yǔ)言理解權威評測基準 FewCLUE 榜單上分別取得了第一名及第三名的好成績(jì)。
FewCLUE 是中文語(yǔ)言理解權威評測 CLUE 的子榜,旨在探索小樣本學(xué)習的最佳實(shí)踐,先后吸引了包括百度、騰訊微信、美團、網(wǎng)易、奇點(diǎn)智源和浪潮人工智能研究院等工業(yè)界和學(xué)術(shù)界頂尖機構的參與。GTS 系列產(chǎn)品的這一次登頂,也預示著(zhù)其模型自動(dòng)化生產(chǎn)技術(shù)已經(jīng)達到了頂尖的算法專(zhuān)家水平。
其中,GTS 乾坤鼎在 EPRSTMT(電商評論情感二分類(lèi))任務(wù)中超過(guò)了其他算法專(zhuān)家生產(chǎn)的模型,同時(shí)也刷新了 BUSTM(句子對相似度判斷)任務(wù)的記錄;而 GTSfactory 自動(dòng)生產(chǎn)出的 1.1 億參數的小模型在總分和單項任務(wù)中均接近算法專(zhuān)家的最好水平,這也是 FewCLUE 榜單中 TOP10 里模型參數最小的模型。
IDEA CCNL 目前已經(jīng)開(kāi)源 GTS 乾坤鼎(https://github.com/IDEA-CCNL/GTS-Engine),也將逐步開(kāi)源 GTSfactory,讓更多的人可以參與到 GTS 訓練體系中來(lái),將 IDEA-CCNL 堅持的「用 AI 生產(chǎn) AI」的理念傳播開(kāi)來(lái)。
GTS 乾坤鼎登頂 fewCLUE,GTSfactory 達到算法專(zhuān)家水平
GTS 系列產(chǎn)品專(zhuān)注于研究在不同模型參數規模下的小樣本 NLU 任務(wù)模型自動(dòng)生產(chǎn),其中,GTS 乾坤鼎引擎利用 13 億參數規模的 Erlangshen-BERT 進(jìn)行訓練,而 GTSfactory 模型自動(dòng)生產(chǎn)平臺則搭建了 Generator(參數量幾十億及以上的生成模型)、Teacher(參數量 10 億以上的大模型)及 Student(參數量 1 億小模型)協(xié)同訓練的體系,最終生產(chǎn)出可以落地部署的輕量級小模型。
在「GTS」訓練體系的加持下,GTS 乾坤鼎通過(guò)自動(dòng)化訓練的方式,在沒(méi)有模型集成的情況下,憑借單一模型登頂 FewCLUE,真的有點(diǎn)「鼎」。其中,EPRSTMT(電商評論情感二分類(lèi)) 任務(wù)中取得了 90.04 分,超過(guò)曾經(jīng)的第一 90.0 分,并刷新了該項任務(wù)的最高記錄;BUSTM(句子相似度判斷)任務(wù)中取得了 84.4 分,大幅度刷新了該項任務(wù)的最好成績(jì),其他幾項任務(wù)也與 SOTA 接近,可以想象一下,如果在離線(xiàn)數據處理場(chǎng)景中使用 GTS 乾坤鼎自動(dòng)化訓練出的模型,那對于數據處理效率上的提升該有多么「鼎」。
GTS 乾坤鼎引擎致力于提供開(kāi)箱即用的自然語(yǔ)言任務(wù)的處理能力,讓你僅僅調用不到十行代碼,即可低成本地訓練出效果強大的模型。據介紹,GTS-Engine 未來(lái)將逐步開(kāi)源全部的訓練能力。
Github:https://github.com/IDEA-CCNL/GTS-Engine
如果說(shuō) GTS 乾坤鼎生產(chǎn)的 13 億參數的大模型代表了小樣本下的性能巔峰,那么 GTSfactory 生產(chǎn)的 1.1 億參數的小模型則可能在開(kāi)創(chuàng )小樣本下的應用巔峰。在沒(méi)有模型集成的情況下,GTSfactory 產(chǎn)出的單一小模型以 1.1 億參數量取得了 FewCLUE 榜單第三名的成績(jì),超越一眾參數量 10 億、幾十億的重量級大模型,這說(shuō)明在 Few-shot 場(chǎng)景下,GTS 訓練體系產(chǎn)出的小模型可以兼具高性能及快速推理的能力。
傳統的 AI 模型開(kāi)發(fā)模式,一般是「一人負責一個(gè)模型」,一個(gè)算法工程師負責數據標注、算法嘗試和調優(yōu)、模型評估整個(gè)鏈路的工作,不但耗時(shí)耗力,生產(chǎn)的 AI 模型的效果還因算法工程師的水平而異。GTSfactory 平臺的出現打破了這一桎梏,設想一下,當你需要進(jìn)行實(shí)時(shí)意圖識別時(shí),你只需要提供幾十條標注數據 + 幾小時(shí)的訓練等待時(shí)間,便可以在平臺上獲取一個(gè)性能相當優(yōu)異的小參數量 AI 模型,業(yè)務(wù)的生產(chǎn)力將得到極大的釋放。正如汽車(chē)工業(yè)中流水線(xiàn)的進(jìn)步一樣,GTS 打造了 AI 行業(yè)的模型自動(dòng)化生產(chǎn)線(xiàn),AI 生產(chǎn)工業(yè)化時(shí)代即將到來(lái)。
GTSfactory(gtsfactory.com)當前處于「免費公測」階段,還有什么問(wèn)題是免費 GPU 算力解決不了的呢?GTSfactory 背后的 GTS 八卦爐引擎,也將逐步開(kāi)源所有的訓練能力,這樣本地也可以一鍵啟動(dòng)「煉丹」啦~
如何理解 GTS 訓練體系?GTS 又如何實(shí)現「用 AI 生產(chǎn) AI」?
首創(chuàng )的「GTS 訓練體系」以模型間能力的傳遞為核心,依托于大模型的強大 NLU 能力,相較于傳統基于 NAS 的自動(dòng)化訓練模式,可以極大地減少算力的消耗同時(shí)保持模型的性能。
具體的,GTS 訓練體系在訓練過(guò)程中會(huì )用到幾十億參數的生成模型 Generator,13 億參數量及以上的 NLU 大模型 Teacher,最終將 Generator 及 Teacher 的大模型能力轉化到 1 億參數的小模型 Student 中。
在大模型能力的轉化過(guò)程中,GTS 訓練體系融合了「Collaborative Learning」、「Meta Learning」、「Self-Training」、「Prompt」等多種學(xué)習范式,開(kāi)發(fā)者將 GTS 訓練體系管道化、模塊化,實(shí)現「N 個(gè)算法工程師」共建一個(gè)訓練體系的算法開(kāi)發(fā)模式,真正的構筑成了一種物理意義上的訓練系統。因此,GTS 訓練體系,從系統的角度去解讀 G、T、S,又可以變?yōu)椤窯eneral Training as a System」。
GTS 訓練體系下,Generator 扮演了「存儲 + 計算」一體的知識庫這樣的角色,源源不斷地輸出下游任務(wù)需要的數據,而 Teacher 則是扮演「數據校驗」的角色,輔助 Generator 對生成數據進(jìn)行校驗;最終,Student 進(jìn)一步整合來(lái)自 Generator 和 Teacher 的大模型能力。在整個(gè)能力傳遞的過(guò)程中,本質(zhì)上是一個(gè) AI 模型將能力傳遞到另一個(gè) AI 模型,因此也類(lèi)似于 AI 模型間的「教學(xué)」,這也即是 GTS 訓練體系「用 AI 生產(chǎn) AI」理念的由來(lái)。
GTS 乾坤鼎引擎技術(shù)揭秘
在 13 億參數規模的大模型上進(jìn)行訓練,關(guān)鍵在于如何提升模型在小樣本數據下的泛化能力。GTS-Engine 主要使用了以下幾種關(guān)鍵的技術(shù):
1.有監督預訓練
它收集了百萬(wàn)級別帶有標簽的文本數據,并通過(guò)開(kāi)源的中文概念圖譜進(jìn)行多標簽層級的擴充,構造了一個(gè)涵蓋所有主題的有監督分類(lèi)數據集,利用這一規模龐大的數據集進(jìn)行了有監督預訓練,主要用于解決主題分類(lèi)的任務(wù)。IDEA 研究院已經(jīng)在 huggingface 上開(kāi)源了模型。
2.新的學(xué)習范式
GTS-Engine 使用 UniMC(https://arxiv.org/abs/2210.08590)作為學(xué)習范式。UniMC 同樣也是 IDEA-CNNL 提出的統一 NLU 學(xué)習范式,發(fā)表在了 EMNLP2022 會(huì )議上。它不僅在零樣本 NLU 任務(wù)上表現優(yōu)異,在小樣本任務(wù)上同樣效果卓越,在自然語(yǔ)言蘊含和句子對相似任務(wù)上,它使用這一范式進(jìn)行微調。
3.檢索增強
GTS-Engine 利用訓練數據集構造了一個(gè)索引,通過(guò)編碼器獲得的句子向量作為索引的 key,標簽作為索引的 value。通過(guò) kNN 的方式對索引進(jìn)行檢索,把 kNN 預測的概率和分類(lèi)器預測的概率進(jìn)行插值作為最后的分類(lèi)概率輸出。同時(shí),它也可以利用 TCBert 對句子編碼器和分類(lèi)器進(jìn)行同時(shí)訓練,進(jìn)一步提高性能。
4.數據增強
GTS-Engine 使用 Masking、Dropout、Mixup 等方式進(jìn)行數據增強,其中 Mixup 通過(guò)對輸入數據進(jìn)行簡(jiǎn)單的線(xiàn)性變換,構造新的組合樣本和組合標簽,可以增強模型的泛化能力。同時(shí),它也引入了 R-Drop 對同一個(gè)句子做兩次 Dropout,并且強制由 Dropout 生成的不同子模型的輸出概率保持一致,使得模型更具有泛化性。
5.對比學(xué)習
GTS-Engine 使用 batch 內樣本構造正負例,加入對比損失來(lái)訓練模型。更進(jìn)一步地,它也引入了 kNN 對同一個(gè) batch 內的樣本進(jìn)行正負例的擴充,讓對比學(xué)習能看到更多更豐富的語(yǔ)義,這也進(jìn)一步提升了效果。
6. 系統化
最后,作者將上述提到的技術(shù),通過(guò)訓練流水線(xiàn)的方式有機地結合在一起,并加入 Self Training 驅動(dòng)各個(gè)技術(shù)間的訓練和融合,最終產(chǎn)出一個(gè) 13 億級別參數的大模型。
IDEA 研究院已將部分訓練細節進(jìn)行了開(kāi)源,GTS 乾坤鼎引擎后續將會(huì )逐步更新,將全部的模型生產(chǎn)能力全部開(kāi)源,讓你僅編寫(xiě)不到十行 Python 即可生產(chǎn)最好的 NLU 模型。
GTSfactory 技術(shù)揭秘
GTSfactory 的目標是生產(chǎn)出輕量化、可自由部署、高性能的小模型,從算法角度,可以分成離線(xiàn)算法和在線(xiàn)算法。
1.模型離線(xiàn)預訓練技術(shù):
A.基于 Meta Learning 的線(xiàn)下大規模有監督數據預訓練
B.基于全詞 MLM 的線(xiàn)下特定領(lǐng)域數據的無(wú)監督預訓練 Domain Adaptive Pretraining
2.模型在線(xiàn)訓練技術(shù):
A.基于文本檢索系統的任務(wù)相關(guān)預訓練 Task Adaptive Pretraining
B.基于 3D 信息對齊的多模型協(xié)同訓練
C.深度改造的 Prompt Learning
D.Self-Training / 偽標簽等半監督技術(shù)的運用
E.RDrop、KNN、多任務(wù)學(xué)習、自適應模型驗證等眾多 Trick 的整合
小結
GTS 訓練體系瞄準當前 AI 產(chǎn)業(yè)界的兩大痛點(diǎn):1)數據少、2)人力貴,類(lèi)似于福特 1913 年發(fā)明的汽車(chē)生產(chǎn)流水線(xiàn),IDEA CCNL 希望 GTS 訓練體系成為「用 AI 生產(chǎn) AI」的模型生產(chǎn)線(xiàn),后續 GTS 訓練體系還會(huì )納入更多的 NLP 及多模態(tài)任務(wù),如信息抽取、摘要、AIGC 等,為 AI 產(chǎn)業(yè)化貢獻力量。GTS 系列產(chǎn)品面向更廣泛的使用者,能夠更快地接入業(yè)務(wù)軌道,節省硬件、軟件、人力等成本,在激烈的市場(chǎng)競爭中,為千百萬(wàn)個(gè)尚在萌芽階段的 ideas 搶救出更多的成長(cháng)時(shí)間。
「讓機器擁有與人一樣的認知能力」,是一個(gè)非常高遠的目標,等到它實(shí)現并掀起下一次人工智能浪潮,也許時(shí)間已經(jīng)過(guò)去了許久。但正是每一次小小的進(jìn)步,每一次手舞足蹈著(zhù)宣布的「idea」,堅定地牽引著(zhù)那一天的到來(lái)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。