微軟多語(yǔ)言預訓練模型T-ULRv2登頂XTREME排行榜
編者按:為進(jìn)一步實(shí)現用 AI 賦能用戶(hù)體驗,微軟正在不斷拓展多語(yǔ)言模型的邊界。近日,由微軟圖靈團隊與微軟亞洲研究院聯(lián)合探索的最新跨語(yǔ)言研究成果——多語(yǔ)言預訓練模型 T-ULRv2,登頂 XTREME 排行榜,T-ULRv2 可以在相同向量空間表示和理解94種語(yǔ)言,提升所有語(yǔ)言的產(chǎn)品體驗。本文編譯自微軟亞洲研究院副院長(cháng)周明和微軟副總裁、杰出工程師 Saurabh Tiwary 共同發(fā)表的微軟研究院博客文章 “Microsoft Turing Universal Language Representation model, T-ULRv2, tops XTREME leaderboard”。
近日,由微軟圖靈團隊與微軟亞洲研究院聯(lián)合開(kāi)發(fā)的圖靈多語(yǔ)言預訓練模型 T-ULRv2 榮膺 XTREME 公共排行榜冠軍,該模型比之前最好的模型 VECO 有了3.5的平均分提升。在此次突破中,除了預訓練的模型外,微軟的研究員們還提出了一種基于穩定性訓練的新型多語(yǔ)言微調技術(shù) StableTune。入圍本次排行榜的其他模型還包括:XLM-R、mBERT 和 XLM 等。此前的最好模型 FILTER 也是由微軟團隊提交的。
多語(yǔ)言預訓練模型T-ULRv2:支持94種語(yǔ)言
長(cháng)期以來(lái),微軟圖靈團隊堅信文本的語(yǔ)義表示是語(yǔ)言無(wú)關(guān)的。在2018年發(fā)表的論文 Towards Language Agnostic Universal Representations中(https://www.microsoft.com/en-us/research/publication/towards-language-agnostic-universal-representations/),微軟的研究員們提出了一種方法,以無(wú)監督方式訓練語(yǔ)言無(wú)關(guān)的語(yǔ)義表示。此方法可以讓經(jīng)過(guò)訓練的模型在針對某一個(gè)語(yǔ)言加以微調后,立即應用于另一個(gè)語(yǔ)言。以往針對每個(gè)語(yǔ)言進(jìn)行模型訓練都要求具備該語(yǔ)言的標注數據,而此方法有效地解決了這一難題。無(wú)監督的預訓練語(yǔ)言模型已成為所有 NLP 模型的基礎,基于 Transformer 的模型則是所有此類(lèi)創(chuàng )新的核心。
作為微軟 AI at Scale(AI 規?;┭邪l(fā)的重要組成部分之一,圖靈系列的 NLP 模型一直在為微軟產(chǎn)品的下一代 AI 體驗提供原動(dòng)力。T-ULRv2 是跨語(yǔ)言研究的最新成果,它融合了微軟亞洲研究院近期在 InfoXLM 論文(點(diǎn)擊閱讀原文,了解論文詳情)中的創(chuàng )新,其所開(kāi)發(fā)的多語(yǔ)言預訓練模型可以用于94種語(yǔ)言的文本的自然語(yǔ)言理解任務(wù)。通過(guò) T-ULR 可以將微軟必應的智能問(wèn)題解答服務(wù)擴展到所有受支持的語(yǔ)言和地區。而且這個(gè)模型還被用于將 Word 語(yǔ)義搜索功能擴展到英語(yǔ)之外的語(yǔ)言,并且實(shí)現對微軟 Outlook 和微軟 Teams 中“建議答復”功能地普遍支持。這些功能的體驗將會(huì )很快與用戶(hù)見(jiàn)面。
由 T-ULR 驅動(dòng)的西班牙文及阿拉伯文版微軟必應智能問(wèn)題解答示例
由 T-ULR 驅動(dòng)的法文版微軟 Word 語(yǔ)義搜索示例
這些真實(shí)的產(chǎn)品場(chǎng)景對算法質(zhì)量的要求極高,因此也為研究員們的 AI 模型提供了理想的測試平臺。根據結果顯示,T-ULR 在多語(yǔ)言 NLP 任務(wù)中的準確率和性能都達到了非??捎^(guān)的效果。
XTREME基準數據集
多語(yǔ)言編碼器的跨語(yǔ)言遷移能力評估 XTREME 基準涵蓋了橫跨12個(gè)語(yǔ)系的40種語(yǔ)言,其中包含的9項任務(wù)都需要對不同層級的語(yǔ)法或語(yǔ)義進(jìn)行推理。XTREME 中的語(yǔ)言選擇旨在最大程度地提高語(yǔ)言多樣性、覆蓋現有的任務(wù)范圍,并考慮到訓練數據的可用性。
XTREME 中包含的任務(wù)涵蓋了包括語(yǔ)句文本分類(lèi)、結構化預測、語(yǔ)句檢索和跨語(yǔ)言問(wèn)答等自然語(yǔ)言處理任務(wù)。因此,為了成功完成 XTREME 基準測試,模型必須學(xué)會(huì )可以跨語(yǔ)言遷移的表示。
有關(guān)基準測試和任務(wù)的完整說(shuō)明,請參見(jiàn)《XTREME:A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》(https://arxiv.org/abs/2003.11080) 。
T-ULRv2預訓練的“鐵人三項”:MMLM、TLM和XLCo
T-ULRv2 采用的是24層的 Transformer 架構,參數總量多達5.5億個(gè)。T-ULRv2 預訓練要完成三項不同的任務(wù):多語(yǔ)言掩碼語(yǔ)言模型(MMLM)、翻譯語(yǔ)言模型(TLM)和微軟研究團隊提出的跨語(yǔ)言對比學(xué)習(XLCo)。MMLM 任務(wù)(也稱(chēng)為完形填空任務(wù))的目標是根據輸入的不同語(yǔ)言信息預測出被遮蔽的字符。T-ULRv2 使用了來(lái)自網(wǎng)絡(luò )的多語(yǔ)言數據語(yǔ)料庫,該語(yǔ)料庫由94種語(yǔ)言組成,用于 MMLM 任務(wù)訓練。
與 MMLM 相似,TLM 任務(wù)也是預測被遮蔽的字符,但該預測是針對拼接在一起的的平行句對。例如,給定一對英語(yǔ)和法語(yǔ)的平行句子,模型可以通過(guò)觀(guān)察被遮蔽英語(yǔ)字符周邊的英語(yǔ)字符或者它的法語(yǔ)翻譯版來(lái)預測這個(gè)被遮蔽的英語(yǔ)字符。它能夠幫助模型“對齊”不同語(yǔ)言的表示。
遮蔽語(yǔ)言建模(MLM)的跨語(yǔ)言預訓練以及 TLM 任務(wù)(來(lái)源:XLM)
XLCo 任務(wù)則可以使用平行訓練數據,其目的是讓平行句子表示之間的互信息最大化。MMLM 和 TLM 的目標是使字符-序列互信息最大化,而 XLCo 的目標是序列級別的跨語(yǔ)言互信息最大化。對于 TLM 和 XLCo 任務(wù),T-ULRv2 會(huì )用到含有14個(gè)語(yǔ)言對的平行數據。XLCo 的損失函數如下:
隨后,它將計入 MMLM 和 TLM 的損失,得出跨語(yǔ)言預訓練的總體損失:
有關(guān) T-ULRv2 的更多信息,請參見(jiàn)論文《InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training》(https://arxiv.org/abs/2007.07834) 。
構建定制化應用:T-ULRv2將發(fā)揮重要作用
在微軟 Ignite 2020 大會(huì )上,微軟宣布圖靈模型將作為私人預覽的一部分,用于構建定制化應用,而 T-ULRv2 也將成為該計劃的一部分。目前,研究團隊正在與微軟 Azure 認知服務(wù)部門(mén)緊密合作,為當前及未來(lái)帶有圖靈模型的語(yǔ)言服務(wù)提供支持。微軟 Azure 認知服務(wù)的現有客戶(hù)將通過(guò) API 自動(dòng)享受這些升級服務(wù)。
AI體驗普及化:以改善所有語(yǔ)言的產(chǎn)品體驗為先
微軟認為,全球化發(fā)展不僅僅是個(gè)研究課題,也是一項必須直面的挑戰。目前 Windows 在全世界范圍內被使用,微軟 Office 和微軟必應也已在200個(gè)地區使用,且提供了超過(guò)100個(gè)語(yǔ)言版本。微軟的客戶(hù)遍及全球每個(gè)角落,他們都在以各自的母語(yǔ)使用著(zhù)微軟的產(chǎn)品。當下,微軟的研究員們正在積極地拓展多語(yǔ)言模型的邊界,像類(lèi)似于 T-ULRv2 這樣無(wú)語(yǔ)言差異的表示便是拓展之路上的又一次突破。它將可以提升所有語(yǔ)言的產(chǎn)品體驗,賦能所有用戶(hù),真正實(shí)現 AI 體驗的普及化。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。