Meta公布AI語(yǔ)音模型 支持4000種語(yǔ)言
世界上許多語(yǔ)言正面臨消失的危機,而現有的語(yǔ)言辨識與生成技術(shù)上的限制更加快此趨勢。Meta今天發(fā)布新聞稿指出,Meta發(fā)表一系列的AI模型,希望幫助用戶(hù)以自己習慣的語(yǔ)言,更輕松獲取信息及使用電子裝置。
本文引用地址:http://dyxdggzs.com/article/202305/446999.htmMeta表示,公司研發(fā)的大規模多語(yǔ)言語(yǔ)音(Massively Multilingual Speech,簡(jiǎn)稱(chēng)MMS)模型,擴展文字轉語(yǔ)音及語(yǔ)音轉文字技術(shù)的應用范圍,從最初的100種語(yǔ)言,至今已可轉換超過(guò)1100種語(yǔ)言,超越過(guò)去的10倍。還能辨識超過(guò)4000種口語(yǔ)語(yǔ)言,是過(guò)去的40倍。
應用案例方面,從VR(虛擬現實(shí))、AR(擴增實(shí)境)至訊息服務(wù),不僅能使用偏好語(yǔ)言操作,更可理解每個(gè)人的聲音。
Meta指出,將開(kāi)源這項技術(shù)的原始碼及模型,讓研究社群能夠以現有的工作成果為基礎繼續開(kāi)發(fā),一同保存全球的語(yǔ)言,并拉近人們間的距離。
過(guò)去最大型的語(yǔ)音數據庫最多僅涵蓋100種語(yǔ)言,因此開(kāi)發(fā)此技術(shù)所面臨的第一個(gè)挑戰即為「搜集數千種語(yǔ)言的語(yǔ)音訓練數據」。為了克服這項挑戰,Meta使用已翻譯成多種語(yǔ)言、譯文已被廣泛閱讀及研究的宗教經(jīng)典,例如「圣經(jīng)」,作為語(yǔ)言的文字訓練數據。
Meta表示,圣經(jīng)譯文有多種語(yǔ)言的公開(kāi)錄音文件,作為大型多語(yǔ)言語(yǔ)音模型計劃的一部分,Meta創(chuàng )造的數據集,搜集超過(guò)1100種語(yǔ)言的「新約圣經(jīng)」有聲讀物數據集,平均為每種語(yǔ)言提供32小時(shí)的語(yǔ)音訓練數據,后續又加入其他未標注的基督教有聲讀物后,可用的語(yǔ)言訓練數據已涵蓋超過(guò)4000種語(yǔ)言。
Meta強調,將持續擴增大規模多語(yǔ)言語(yǔ)音模型的涵蓋范圍,以支持更多語(yǔ)言的轉換及辨識,并努力克服現有語(yǔ)音技術(shù)難以處理方言的挑戰。
評論