Facebook宣布全面轉為神經(jīng)網(wǎng)絡(luò )人工智能翻譯
語(yǔ)言翻譯是一股能夠讓人們組建群體和使世界更加緊密的力量。它可以幫助人們與在海外居住的家庭成員聯(lián)系起來(lái),或者可以更好地了解講不同語(yǔ)言的人們的觀(guān)點(diǎn)。通過(guò)使用機器翻譯,自動(dòng)翻譯文章和評論,以打破語(yǔ)言障礙,使得世界各地的人們可以相互溝通。
本文引用地址:http://dyxdggzs.com/article/201708/362718.htm

即便體量大如Facebook,想要為20億使用的用戶(hù)創(chuàng )造無(wú)縫、高精確的翻譯體驗也是很困難的,這需要同時(shí)考慮上下文、俚語(yǔ)、打字錯誤、縮寫(xiě)和語(yǔ)意。為了繼續提高翻譯質(zhì)量,Facebook團隊最近宣布從基于短語(yǔ)的機器翻譯模型切換到基于神經(jīng)網(wǎng)絡(luò )的翻譯模型,來(lái)支持所有的后端翻譯系統。每個(gè)翻譯系統每天翻譯超過(guò)2000個(gè)翻譯方向和45億個(gè)翻譯。這些新模型能夠提供更準確和更流暢的翻譯體驗,改善了人們在使用Facebook時(shí),閱讀由非常用語(yǔ)言撰寫(xiě)的內容時(shí)的閱讀體驗。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論根據Facebook文章對相關(guān)情況編譯介紹如下。
使用上下文
Facebook以前使用的基于短語(yǔ)的統計技術(shù)確實(shí)有效,但它們也有局限性?;诙陶Z(yǔ)的翻譯系統的一個(gè)主要缺點(diǎn)是它們將句子分解成單個(gè)單詞或短語(yǔ),因此在生成翻譯時(shí),他們每次只能考慮幾個(gè)單詞。這種方法導致當翻譯具有明顯不同字詞排序的語(yǔ)言時(shí)會(huì )出現翻譯困難的情況。為了彌補這個(gè)問(wèn)題并構建神經(jīng)網(wǎng)絡(luò )系統,Facebook開(kāi)始使用一種被稱(chēng)為序列到序列LSTM(longshort-termmemory)的循環(huán)神經(jīng)網(wǎng)絡(luò )。這種網(wǎng)絡(luò )可以考慮源語(yǔ)句的整個(gè)上下文以及到目前為止生成的一切內容,以創(chuàng )建更準確和流暢的翻譯。這樣當遇到例如在英語(yǔ)和土耳其語(yǔ)之間翻譯字詞排列不同時(shí),可以重新排序。當采用基于短語(yǔ)的翻譯模型從土耳其語(yǔ)翻譯到英語(yǔ)時(shí),獲得以下翻譯:

與基于神經(jīng)網(wǎng)絡(luò )的從土耳其語(yǔ)到英語(yǔ)的翻譯相比較:

當使用新系統時(shí),與基于短語(yǔ)的系統相比,BLEU平均相對增長(cháng)了11%-BLEU是廣泛使用的用于判斷所有語(yǔ)言的機器翻譯準確性的度量標準。
處理未知詞
在許多情況下,源語(yǔ)句中的單詞在目標詞匯表中并沒(méi)有直接對應的翻譯。當發(fā)生這種情況時(shí),神經(jīng)系統將為未知詞生成占位符。在這種情況下,可以利用注意機制在源詞和目標詞之間產(chǎn)生的軟校準,以便將原始的源詞傳遞到目標句子。然后,從培訓數據中構建的雙語(yǔ)詞典中查找該詞的翻譯,并替換目標語(yǔ)句中的未知詞。這種方法比使用傳統字典更加強大,特別是對于嘈雜的輸入。例如,在從英語(yǔ)到西班牙語(yǔ)的翻譯中,可以將“tmrw”(明天)翻譯成“ma?ana”。雖然增加了一個(gè)詞典,BLEU得分只有小幅的改善,但是對于使用Facebook的人而言評分更高了?! ≡~匯量減少
典型的神經(jīng)機器翻譯模型會(huì )計算目標詞匯中所有單詞的概率分布。在這個(gè)分布中包含的字數越多,計算所用的時(shí)間越多。通過(guò)使用一種稱(chēng)為詞匯減少的建模技術(shù),可以在訓練和推理時(shí)間上彌補這個(gè)問(wèn)題。通過(guò)詞匯減少,可以將目標詞匯中最常出現的單詞與給定句子的單個(gè)單詞的一組翻譯候選相結合,以減少目標詞匯的大小。過(guò)濾目標詞匯會(huì )減少輸出投影層的大小,這有助于更快的計算,而且不會(huì )使過(guò)大的降低質(zhì)量。
調整模型參數
神經(jīng)網(wǎng)絡(luò )幾乎通常具有可調參數,可以通過(guò)這些參數調節和控制模型的學(xué)習速度。選擇超參數的最佳集合對于性能是非常有幫助的。然而,這對于大規模的機器翻譯提出了重大的挑戰,因為每個(gè)翻譯方向是由其自己的一組超參數的唯一模型表示。由于每個(gè)模型的最優(yōu)值可能不同,因此必須分別對每個(gè)系統進(jìn)行調整。Facebook團隊在數月內進(jìn)行了數千次端對端翻譯實(shí)驗,利用FBLearnerFlow平臺對超參數進(jìn)行微調,如學(xué)習率,注意力類(lèi)型和總體大小。這些超參數對一些系統有重大影響。例如,僅基于調優(yōu)模型超參數,就可以看到從英語(yǔ)到西班牙語(yǔ)系統的BLEU相對值提高了3.7%。
用Caffe2縮放神經(jīng)機器翻譯
過(guò)渡到神經(jīng)系統的挑戰之一是讓模型以Facebook上的信息規模所需的速度和效率運行。因此Facebook團隊在深入學(xué)習框架Caffe2中實(shí)現了翻譯系統。由于它的靈活性,因此能夠在GPU和CPU平臺上進(jìn)行訓練和推理,來(lái)調整翻譯模型的性能。
關(guān)于培訓,該團隊實(shí)施了內存優(yōu)化,如blob回收和blob重新計算,這有助于更大批量的培訓,并更快地完成培訓。關(guān)于推理,該團隊使用專(zhuān)門(mén)的向量數學(xué)庫和權重量化來(lái)提高計算效率?,F有模式的早期基準表明,支持2000多個(gè)翻譯方向的計算資源將會(huì )非常高。然而,Caffe2的靈活性和該團隊使用的優(yōu)化模型使計算提高了2.5倍的效率,因而能夠將神經(jīng)機器翻譯模型應用到實(shí)際中去。
該團隊還遵循在機器翻譯中常用的在解碼時(shí)使用波束搜索的做法,以根據模型改進(jìn)對最可能輸出的句子的估計。利用Caffe2中的循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN)抽象的一般性來(lái)實(shí)現波束搜索,直接作為單個(gè)前向網(wǎng)絡(luò )計算,這樣就實(shí)現了快速有效的推理。
在這項工作的過(guò)程中,該團隊還開(kāi)發(fā)了RNN構建塊,如LSTM,乘法集成LSTM和注意。這項技術(shù)將作為Caffe2的一部分分享出來(lái),并為研究和開(kāi)源社區提供學(xué)習素材。
正在進(jìn)行的工作
Facebook人工智能研究(FAIR)團隊最近發(fā)表了使用卷積神經(jīng)網(wǎng)絡(luò )(CNN)進(jìn)行機器翻譯的研究。Facebook代碼團隊與FAIR密切合作,在不到三個(gè)月的時(shí)間里,完成了將這項技術(shù)從研究到首次投入生產(chǎn)系統中使用的流程。他們推出了從英文到法文和從英文到德文翻譯的CNN模型,與以前的系統相比,BLEU的質(zhì)量提升分別提高了12.0%(+4.3)和14.4%(+3.4)。這些質(zhì)量改進(jìn)讓該團隊看到CNN將成為一個(gè)令人興奮的新發(fā)展道路,后面他們還將將繼續努力,利用CNN推出更多的翻譯系統。
目前機器翻譯剛剛開(kāi)始使用更多的翻譯語(yǔ)境。神經(jīng)網(wǎng)絡(luò )開(kāi)辟了許多與添加更多上下文相關(guān)的發(fā)展方向,以創(chuàng )建更好的翻譯,例如伴隨文章文本的照片。
該團隊也開(kāi)始同時(shí)探索可以翻譯許多不同語(yǔ)言方向的多語(yǔ)種模式。這將有助于解決與特定語(yǔ)言對相關(guān)的每個(gè)系統的微調的挑戰,并且還可以通過(guò)共享培訓數據為某些翻譯方向帶來(lái)質(zhì)量提高。
對Facebook而言,完成從短語(yǔ)到神經(jīng)機器翻譯的過(guò)渡,是一個(gè)里程碑,代表了為所有人提供他們常用語(yǔ)言下的更優(yōu)質(zhì)的Facebook體驗。他們還將繼續推進(jìn)神經(jīng)機器翻譯技術(shù),目的是為Facebook上的每個(gè)人提供人性化的翻譯。
評論