微軟翻譯突破百種語(yǔ)言和方言大關(guān)
編者按:“ ??????? ???、?? ????、???????????? 、?????????”,你知道這句話(huà)里有幾種語(yǔ)言,它們又是什么意思么?其實(shí)這只是我國少數民族語(yǔ)言的一部分,依次為維吾爾語(yǔ)、蒙古語(yǔ)、哈薩克語(yǔ)和藏語(yǔ)的“你好”之意。這類(lèi)文字我們在旅行中也時(shí)常能見(jiàn)到,比如,故宮里就有不少牌匾上有漢文、滿(mǎn)文和蒙文,只因大家看不懂,而常常被忽略。近日,微軟翻譯再添12種新語(yǔ)言和方言,其中就包括由微軟亞洲研究院提供技術(shù)支持的維語(yǔ)、 蒙語(yǔ)、藏語(yǔ)、土庫曼語(yǔ)、烏茲別克語(yǔ)等。目前,微軟翻譯共支持103種語(yǔ)言,讓你輕松實(shí)現跨國、跨地區交流無(wú)障礙。
近日,微軟 Azure 認知服務(wù)翻譯的語(yǔ)言列表又添加了12種全新的語(yǔ)種和方言,微軟翻譯可以提供翻譯支持的語(yǔ)言總數已達103種!
新增語(yǔ)言的母語(yǔ)使用者合計達8,460萬(wàn)人,包括巴什基爾語(yǔ)、迪維希語(yǔ)、格魯吉亞語(yǔ)、吉爾吉斯語(yǔ)、馬其頓語(yǔ)、蒙古語(yǔ)(西里爾文字)、蒙古語(yǔ)(傳統文字)、韃靼語(yǔ)、藏語(yǔ)、土庫曼語(yǔ)、維吾爾語(yǔ)和烏茲別克語(yǔ)(拉丁文字)。微軟亞洲研究院為其中的七種語(yǔ)言和方言——迪維希語(yǔ)、蒙古語(yǔ)(西里爾文字)、蒙古語(yǔ)(傳統文字)、藏語(yǔ)、土庫曼語(yǔ)、維吾爾語(yǔ)和烏茲別克語(yǔ)(拉丁文字),提供了核心技術(shù)支持。目前最新版的微軟翻譯可以在全球56.6億人所使用的不同母語(yǔ)之間實(shí)現文本文檔的互譯。
打破語(yǔ)言障礙:實(shí)現100+語(yǔ)言翻譯的自由
微軟翻譯的核心使命是打破人與人之間的文化和語(yǔ)言障礙。為實(shí)現這一目標,微軟的研究員們不斷為這項服務(wù)增添新的語(yǔ)種和方言,同時(shí)確保所支持語(yǔ)言的機器翻譯達到并超過(guò)我們設置的高質(zhì)量標準。
微軟研究院在20多年前首次開(kāi)發(fā)出了機器翻譯系統。2003年,該機器翻譯系統將整個(gè)微軟知識庫(Microsoft Knowledge Base)從英文翻譯成了西班牙文、法文、德文、日文,并在微軟網(wǎng)站上發(fā)布了譯文版,使之成為當時(shí)互聯(lián)網(wǎng)上規模最大、面向公眾開(kāi)放的初始機器翻譯應用。
此后,微軟以統計機器翻譯(SMT)模型為基礎,對系統做了進(jìn)一步改良,并通過(guò) Windows Live Translator、Translator API 以及作為微軟 Office 應用程序的內置功能,向用戶(hù)提供翻譯服務(wù)。
多年來(lái),微軟已將世界上諸多常用的語(yǔ)言和方言添加到了微軟翻譯的系統中。而隨著(zhù)人工智能技術(shù)的發(fā)展,微軟研究院開(kāi)始采用神經(jīng)機器翻譯(NMT)技術(shù),將所有機器翻譯系統遷移到了基于 Transformer 架構的神經(jīng)模型上,因此翻譯的流暢度和準確性獲得了大幅提升。
引入 Transformer 架構的 NMT 技術(shù),不僅可以利用包括單語(yǔ)語(yǔ)料數據在內的更多數據來(lái)訓練超大模型,提升翻譯的整體質(zhì)量,也為構建機器翻譯模型開(kāi)辟了新的路徑,讓模型可以借助比先前更少的數據來(lái)進(jìn)行訓練。多語(yǔ)言的 Transformer 架構可以利用來(lái)自其他語(yǔ)言(通常屬于相同或相關(guān)的語(yǔ)系)的資料擴充訓練數據,為低資源語(yǔ)言構建翻譯模型。
當全部技術(shù)都已準備就緒的同時(shí),機器翻譯系統還必須要有一套數字化的并行文檔,其中包括目標語(yǔ)言版本的文檔,以及另一種已納入翻譯服務(wù)的語(yǔ)言的翻譯版文檔。但對于很多小語(yǔ)種來(lái)說(shuō),這些并行文檔中的平行語(yǔ)料很難獲得。幸運的是,微軟通過(guò)與語(yǔ)言社區的合作伙伴展開(kāi)合作,可以獲取人工翻譯的文本,收集低資源語(yǔ)言的數據。這些社區伙伴通常是在各自社區任職的志愿者,他們通過(guò)咨詢(xún)社區成員和長(cháng)者,不辭勞苦地收集雙語(yǔ)詞句。與社區合作伙伴的接觸始于2010年,當時(shí)微軟與社區負責災難響應的人員合作,在海地發(fā)生毀滅性地震后短短10天內,就為海地克里奧爾語(yǔ)構建了一個(gè)翻譯系統。從那時(shí)起,越來(lái)越多的社區伙伴加入了社群,幫助微軟創(chuàng )建了多個(gè)語(yǔ)言系統,例如苗族語(yǔ)、烏爾都語(yǔ)、瑪雅語(yǔ)、毛利語(yǔ)和因紐特語(yǔ)等等。
盡管如此,缺少足夠的平行語(yǔ)料依然是小語(yǔ)種語(yǔ)言翻譯的最大難點(diǎn)。多年來(lái),微軟亞洲研究院承擔了多個(gè)小語(yǔ)種語(yǔ)言和方言的模型構建工作,將新技術(shù)融入其中,幫助解決語(yǔ)料問(wèn)題。微軟亞洲研究院首席研究員秦濤表示,“基于源語(yǔ)言和目標語(yǔ)言的平行語(yǔ)料及單語(yǔ)語(yǔ)料,我們在訓練階段將多語(yǔ)言模型與 MASS 預訓練模型相結合,同時(shí)再利用相關(guān)大語(yǔ)種的豐富語(yǔ)料及單語(yǔ)語(yǔ)料來(lái)提升模型的翻譯質(zhì)量?!?/p>
圖 1:2016年,微軟利用神經(jīng)機器翻譯(NMT)技術(shù)提高了翻譯質(zhì)量,2019年,微軟采用 Transformer 架構為低資源語(yǔ)言構建了模型
Azure 認知服務(wù)翻譯工具的技術(shù)能力
Azure 認知服務(wù)中的翻譯工具由微軟翻譯提供支持,旨在幫助企業(yè)擴大其全球影響力,讓他們能夠快速、可靠并以合理的成本跨越語(yǔ)言障礙,用客戶(hù)的母語(yǔ)與之進(jìn)行合作、交流并提供內容服務(wù)。當然,這項服務(wù)還能幫助企業(yè)內部來(lái)自不同國家的員工在溝通時(shí)打破語(yǔ)言障礙。
Azure 認知服務(wù)翻譯工具將 NMT 模型納入微軟產(chǎn)品中,通過(guò)文本翻譯和文檔翻譯 API,為用戶(hù)提供服務(wù),將純文本和復雜的文檔從一種語(yǔ)言翻譯成另一種語(yǔ)言。Azure 認知服務(wù)翻譯工具還包含自定義翻譯服務(wù),該服務(wù)允許用戶(hù)使用自備翻譯存儲器構建自定義的機器翻譯模型,用于翻譯他們在各自業(yè)務(wù)及相關(guān)領(lǐng)域中所使用的特定術(shù)語(yǔ)。用戶(hù)可以通過(guò)文本和文檔翻譯 API 使用這些自定義機器翻譯模型。為了實(shí)現音頻或語(yǔ)音內容的翻譯,Azure 認知服務(wù)的翻譯工具和語(yǔ)音工具緊密集成,并通過(guò) Azure 語(yǔ)音 SDK 為語(yǔ)音翻譯和多設備對話(huà)提供支持。
Azure 認知服務(wù)翻譯工具及其支持的產(chǎn)品被用戶(hù)廣泛采用,用于網(wǎng)站內容和 App 的本地化、為業(yè)務(wù)分析的對話(huà)和內容及法證調查的內容提供翻譯等諸多應用場(chǎng)景。該服務(wù)還無(wú)縫集成到微軟的許多產(chǎn)品中,每個(gè)人都可以隨時(shí)通過(guò)他們所選擇的語(yǔ)言來(lái)使用和創(chuàng )建內容。集成了翻譯服務(wù)的微軟產(chǎn)品包括 Microsoft 365 中的文本和文檔翻譯、微軟 Edge 瀏覽器中的網(wǎng)頁(yè)翻譯、SwiftKey 中的消息翻譯、LinkedIn 中的用戶(hù)提交內容翻譯、微軟翻譯 App 中的多語(yǔ)言對話(huà)翻譯等等。
消除語(yǔ)言障礙是承諾,但仍任重道遠
如果一個(gè)人并不能掌握承載特定信息的語(yǔ)言,那么技術(shù)如何才能幫助他獲取信息呢?在一個(gè)不斷縮小的世界中,人們又將如何更了解和欣賞彼此的文化?語(yǔ)言障礙阻礙了人們獲取某些重要信息,而這也是促使微軟致力于打破這些障礙的動(dòng)因之一。將文本、文檔、語(yǔ)音和圖像從一種語(yǔ)言翻譯成另一種語(yǔ)言,將為實(shí)現這一目標發(fā)揮重要作用。
微軟亞洲研究院高級研究員張冬冬認為,“語(yǔ)言作為文化的載體,其翻譯任務(wù)一方面促進(jìn)了各種文化的交流,另一方面也在保護、復原那些正在消失或已經(jīng)消失的語(yǔ)言中所蘊含的人類(lèi)知識、智慧文明。我們除了不斷提升主流語(yǔ)言機器翻譯質(zhì)量讓其接近人工翻譯水平外,同時(shí)也在考慮低資源和零資源語(yǔ)言的翻譯問(wèn)題。機器翻譯技術(shù)是解決跨國家、跨地區、跨民族無(wú)障礙交流、文化傳承等問(wèn)題的重要手段?!?/p>
事實(shí)上,當翻譯語(yǔ)言覆蓋面達到世界語(yǔ)言總數的百分之一時(shí),微軟就已經(jīng)為全球72%的人口打破了語(yǔ)言障礙。微軟的科研和技術(shù)人員在感到自豪的同時(shí),也將以謙卑的態(tài)度繼續語(yǔ)言翻譯的探索與研究。未來(lái),微軟將繼續滿(mǎn)懷激情地改進(jìn)服務(wù)和解決方案,提升質(zhì)量,讓每個(gè)人都能獲取來(lái)自世界各地的內容,消除語(yǔ)言差異帶來(lái)的分歧,同時(shí)保持對文化、傳統和歸屬感的尊重。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。