阿里公布新語(yǔ)音合成技術(shù) 錄音10分鐘定制AI語(yǔ)音
近日,阿里巴巴發(fā)布新一代語(yǔ)音合成技術(shù)KAN-TTS,稱(chēng)可大幅提高合成語(yǔ)音與真人發(fā)聲的相似度,并將語(yǔ)音合成定制成本降低10倍以上。該技術(shù)由達摩院機器智能實(shí)驗室自主研發(fā)。
本文引用地址:http://dyxdggzs.com/article/201907/402617.htm阿里方面稱(chēng),當前業(yè)界商用系統的合成語(yǔ)音與原始音頻錄音的接近程度通常在85%到90%之間,而基于KAN-TTS技術(shù)的合成語(yǔ)音可將該數據提高到97%以上。
據悉,KAN-TTS由達摩院機器智能實(shí)驗室自主研發(fā),深度融合了目前主流的端到端TTS技術(shù)和傳統TTS技術(shù),從多個(gè)方面改進(jìn)了語(yǔ)音合成。傳統語(yǔ)音合成定制需要10小時(shí)以上的數據錄制和標注,對錄音人和錄音環(huán)境要求很高。從啟動(dòng)定制到最終交付,項目周期長(cháng)成本高。
阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法,將語(yǔ)音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說(shuō),用1小時(shí)有效錄音數據和不到兩個(gè)月制作周期,就能完成一次標準TTS定制。
此外,這使得普通用戶(hù)定制“AI聲音”的門(mén)檻更低。只需手機錄音十分鐘,就能獲得與錄制聲音高度相似的合成語(yǔ)音。
評論