<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰和創(chuàng )新解決方案

克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰和創(chuàng )新解決方案

發(fā)布人:ygtu 時(shí)間:2023-08-15 來(lái)源:工程師 發(fā)布文章
推薦:使用NSDT場(chǎng)景編輯器助你快速搭建可二次編輯器的3D應用場(chǎng)景
介紹

在用西班牙語(yǔ)(您的首選語(yǔ)言)向語(yǔ)音助手詢(xún)問(wèn)某些內容后,您有多少次不得不暫停,然后用語(yǔ)音助手理解的語(yǔ)言(可能是英語(yǔ))重述您的問(wèn)題,因為語(yǔ)音助手無(wú)法理解您的西班牙語(yǔ)請求?或者,當你要求你的語(yǔ)音助手播放他們的音樂(lè )時(shí),你有多少次不得不故意念錯你最喜歡的藝術(shù)家A. R. Rahman的名字,因為你知道如果你說(shuō)出他們的名字是正確的,語(yǔ)音助手根本聽(tīng)不懂,但如果你說(shuō)A.R.拉面,語(yǔ)音助手會(huì )明白嗎?此外,當語(yǔ)音助手用他們舒緩、無(wú)所不知的聲音,屠宰你最喜歡的音樂(lè )劇《悲慘世界》的名字并明確地將其發(fā)音為“Les Miz-er-ables”時(shí),你有多少次畏縮?

盡管語(yǔ)音助手在大約十年前已成為主流,但它們仍然保持簡(jiǎn)單化,特別是在理解多語(yǔ)言環(huán)境中的用戶(hù)請求方面。在一個(gè)多語(yǔ)言家庭正在崛起,現有和潛在用戶(hù)群變得越來(lái)越全球化和多樣化的世界中,語(yǔ)音助手在理解用戶(hù)請求時(shí)變得無(wú)縫至關(guān)重要,無(wú)論他們的語(yǔ)言、方言、口音、語(yǔ)氣、調制和其他語(yǔ)音特征如何。然而,語(yǔ)音助手在能夠以人類(lèi)彼此的方式與用戶(hù)順利交談方面繼續嚴重滯后。在本文中,我們將深入探討使語(yǔ)音助手多語(yǔ)言運行的最大挑戰是什么,以及緩解這些挑戰的一些策略可能是什么。在本文中,我們將使用假設的語(yǔ)音助手 Nova,用于說(shuō)明目的。

語(yǔ)音助手的工作原理

在深入探討使語(yǔ)音助手用戶(hù)體驗多語(yǔ)言的挑戰和機遇之前,讓我們大致了解一下語(yǔ)音助手的工作原理。使用 Nova 作為假設的語(yǔ)音助手,我們看看請求音樂(lè )曲目的端到端流程是什么樣的(參考)。

克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰和創(chuàng  )新解決方案


1. 假設語(yǔ)音助手Nova的端到端概述

如圖所示。1.當用戶(hù)要求Nova播放流行樂(lè )隊酷玩樂(lè )隊的原聲音樂(lè )時(shí),用戶(hù)的這個(gè)聲音信號首先被轉換為一串文本令牌,作為人-語(yǔ)音助手交互的第一步。此階段稱(chēng)為自動(dòng)語(yǔ)音識別 (ASR) 或語(yǔ)音轉文本 (STT)。一旦令牌字符串可用,它就會(huì )傳遞到自然語(yǔ)言理解步驟,語(yǔ)音助手將嘗試理解用戶(hù)意圖的語(yǔ)義和句法含義。在這種情況下,語(yǔ)音助手的NLU解釋用戶(hù)正在尋找酷玩樂(lè )隊的歌曲(即解釋酷玩樂(lè )隊是一個(gè)樂(lè )隊),這些歌曲本質(zhì)上是原聲的(即在該樂(lè )隊的唱片中查找歌曲的元數據,并且只選擇版本=原聲的歌曲)。然后,此用戶(hù)意圖理解用于查詢(xún)后端以查找用戶(hù)要查找的內容。最后,用戶(hù)正在尋找的實(shí)際內容以及向用戶(hù)呈現此輸出所需的任何其他附加信息將轉到下一步。在此步驟中,響應和任何其他可用信息用于修飾用戶(hù)的體驗,并令人滿(mǎn)意地響應用戶(hù)查詢(xún)。在這種情況下,它將是文本到語(yǔ)音轉換 (TTS) 輸出(“這是酷玩樂(lè )隊的一些原聲音樂(lè )”),然后播放為此用戶(hù)查詢(xún)選擇的實(shí)際歌曲。

構建多語(yǔ)言語(yǔ)音助手的挑戰

多語(yǔ)言語(yǔ)音助手 (VA) 意味著(zhù)能夠理解和響應多種語(yǔ)言的 VA,無(wú)論它們是由同一個(gè)人或多人說(shuō)的,還是由同一個(gè)人用與另一種語(yǔ)言混合的同一個(gè)句子說(shuō)的(例如“Nova,arrêt!玩別的東西“)。以下是語(yǔ)音助手在多模式環(huán)境中無(wú)縫操作時(shí)面臨的主要挑戰。

語(yǔ)言資源的數量和數量不足

為了使語(yǔ)音助手能夠很好地解析和理解查詢(xún),需要對該語(yǔ)言的大量訓練數據進(jìn)行訓練。這些數據包括來(lái)自人類(lèi)的語(yǔ)音數據、地面真相注釋、大量文本語(yǔ)料庫、用于改進(jìn) TTS 發(fā)音的資源(例如發(fā)音詞典)和語(yǔ)言模型。雖然這些資源很容易用于英語(yǔ)、西班牙語(yǔ)和德語(yǔ)等流行語(yǔ)言,但對于斯瓦希里語(yǔ)、普什圖語(yǔ)或捷克語(yǔ)等語(yǔ)言,它們的可用性有限甚至不存在。即使有足夠多的人使用這些語(yǔ)言,也沒(méi)有結構化的資源可用于這些語(yǔ)言。為多種語(yǔ)言創(chuàng )建這些資源可能很昂貴、復雜且需要大量人力,從而為進(jìn)展帶來(lái)阻力。

語(yǔ)言變化

語(yǔ)言有不同的方言、口音、變體和區域適應。處理這些變化對于語(yǔ)音助手來(lái)說(shuō)具有挑戰性。除非語(yǔ)音助手適應這些語(yǔ)言上的細微差別,否則很難正確理解用戶(hù)請求或能夠以相同的語(yǔ)言語(yǔ)氣做出響應,以提供自然的聲音和更像人類(lèi)的體驗。例如,僅英國就有40多種英語(yǔ)口音。另一個(gè)例子是墨西哥使用的西班牙語(yǔ)與西班牙使用的西班牙語(yǔ)不同。

語(yǔ)言識別和適應

多語(yǔ)言用戶(hù)在與其他人的交互過(guò)程中切換語(yǔ)言是很常見(jiàn)的,他們可能期望與語(yǔ)音助手進(jìn)行相同的自然交互。例如,“Hinglish”是一個(gè)常用術(shù)語(yǔ),用于描述在說(shuō)話(huà)時(shí)使用印地語(yǔ)和英語(yǔ)單詞的人的語(yǔ)言。能夠識別用戶(hù)與語(yǔ)音助手交互的語(yǔ)言并相應地調整響應是一項艱巨的挑戰,這是當今主流語(yǔ)音助手無(wú)法做到的艱巨挑戰。

語(yǔ)言翻譯

將語(yǔ)音助手擴展到多種語(yǔ)言的一種方法是將 ASR 輸出從盧森堡語(yǔ)等非主流語(yǔ)言翻譯成 NLU 層可以更準確地解釋的語(yǔ)言,例如英語(yǔ)。常用的翻譯技術(shù)包括使用一種或多種技術(shù),如神經(jīng)機器翻譯 (NMT)、統計機器翻譯 (SMT)、基于規則的機器翻譯 (RBMT) 等。但是,這些算法可能無(wú)法很好地針對不同的語(yǔ)言集進(jìn)行擴展,并且可能還需要大量的訓練數據。此外,語(yǔ)言特定的細微差別經(jīng)常丟失,翻譯版本往往顯得尷尬和不自然。在能夠擴展多語(yǔ)言語(yǔ)音助手方面,翻譯質(zhì)量仍然是一個(gè)持續的挑戰。翻譯步驟中的另一個(gè)挑戰是它引入的延遲,降低了人與語(yǔ)音助手交互的體驗。

真正的語(yǔ)言理解

語(yǔ)言通常具有獨特的語(yǔ)法結構。例如,英語(yǔ)有單數和復數的概念,梵語(yǔ)有3(單數,對偶,復數)。也可能有不同的習語(yǔ)不能很好地翻譯成其他語(yǔ)言。最后,可能還有文化細微差別和文化參考,除非翻譯技術(shù)具有高質(zhì)量的語(yǔ)義理解,否則翻譯可能很差。開(kāi)發(fā)特定于語(yǔ)言的 NLU 模型是昂貴的。

克服構建多語(yǔ)言語(yǔ)音助手的挑戰

上面提到的挑戰是難以解決的問(wèn)題。但是,有一些方法可以立即部分(如果不是完全)緩解這些挑戰。以下是一些可以解決上述一個(gè)或多個(gè)挑戰的技術(shù)。

利用深度學(xué)習檢測語(yǔ)言

解釋句子含義的第一步是知道句子屬于哪種語(yǔ)言。這就是深度學(xué)習的用武之地。深度學(xué)習使用人工神經(jīng)網(wǎng)絡(luò )和大量數據來(lái)創(chuàng )建看起來(lái)像人類(lèi)的輸出?;谵D換器的架構(例如BERT)在語(yǔ)言檢測方面已經(jīng)證明是成功的,即使在資源匱乏的語(yǔ)言中也是如此?;谵D換器的語(yǔ)言檢測模型的替代方法是遞歸神經(jīng)網(wǎng)絡(luò ) (RNN)。這些模型應用的一個(gè)例子是,如果一個(gè)平時(shí)用英語(yǔ)說(shuō)話(huà)的用戶(hù)有一天突然用西班牙語(yǔ)與語(yǔ)音助手交談,語(yǔ)音助手可以正確檢測和識別西班牙語(yǔ)。

使用上下文機器翻譯來(lái)“理解”請求

一旦檢測到語(yǔ)言,解釋句子的下一步是獲取 ASR 階段的輸出,即標記字符串,并將該字符串(不僅從字面上而且在語(yǔ)義上)轉換為可以處理以生成響應的語(yǔ)言。而不是使用翻譯 API,這些 API 可能并不總是知道語(yǔ)音界面的上下文和特性,并且由于高延遲而在響應中引入次優(yōu)延遲,從而降低用戶(hù)體驗。但是,如果將上下文感知機器翻譯模型集成到語(yǔ)音助手中,則由于特定于域或會(huì )話(huà)上下文,翻譯可以具有更高的質(zhì)量和準確性。例如,如果語(yǔ)音助手主要用于娛樂(lè ),它可以利用上下文機器翻譯來(lái)正確理解和回答有關(guān)音樂(lè )流派和子流派、樂(lè )器和音符、某些曲目的文化相關(guān)性等問(wèn)題。

利用多語(yǔ)言預訓練模型

由于每種語(yǔ)言都有獨特的結構和語(yǔ)法、文化參考、短語(yǔ)、習語(yǔ)和表達方式以及其他細微差別,因此處理不同的語(yǔ)言具有挑戰性。鑒于特定于語(yǔ)言的模型很昂貴,預先訓練的多語(yǔ)言模型可以幫助捕獲特定于語(yǔ)言的細微差別。像BERT和XLM-R這樣的模型是預先訓練模型的很好的例子,可以捕獲語(yǔ)言特定的細微差別。最后,這些模型可以微調到一個(gè)領(lǐng)域,以進(jìn)一步提高其準確性。例如,對于在音樂(lè )領(lǐng)域訓練的模型,可能不僅能夠理解查詢(xún),還可以通過(guò)語(yǔ)音助手返回豐富的響應。如果這個(gè)語(yǔ)音助手被問(wèn)到一首歌歌詞背后的含義是什么,語(yǔ)音助手將能夠以比簡(jiǎn)單解釋單詞更豐富的方式回答問(wèn)題。

使用代碼切換模型

實(shí)現代碼切換模型以便能夠處理混合使用不同語(yǔ)言的語(yǔ)言輸入,可以在用戶(hù)與語(yǔ)音助手的交互中使用多種語(yǔ)言的情況下提供幫助。例如,如果語(yǔ)音助手是專(zhuān)門(mén)為加拿大用戶(hù)經(jīng)?;煜ㄕZ(yǔ)和英語(yǔ)的地區設計的,則可以使用代碼切換模型來(lái)理解指向語(yǔ)音助手的句子,這些句子是兩種語(yǔ)言的混合,語(yǔ)音助手將能夠處理它。

利用遷移學(xué)習和零鏡頭學(xué)習來(lái)開(kāi)發(fā)低資源語(yǔ)言

遷移學(xué)習是 ML 中的一種技術(shù),其中模型在一項任務(wù)上訓練,但用作第二個(gè)任務(wù)的模型的起點(diǎn)。它利用從第一個(gè)任務(wù)中學(xué)習來(lái)提高第二個(gè)任務(wù)的性能,從而在一定程度上克服了冷啟動(dòng)問(wèn)題。零鏡頭學(xué)習是指使用預先訓練的模型來(lái)處理以前從未見(jiàn)過(guò)的數據。遷移學(xué)習和零鏡頭學(xué)習都可以用于將知識從高資源語(yǔ)言轉移到低資源語(yǔ)言。例如,如果語(yǔ)音助手已經(jīng)接受了世界上最常用的 10 種語(yǔ)言的培訓,則可以利用它來(lái)理解斯瓦希里語(yǔ)等低資源語(yǔ)言的查詢(xún)。

結論

總之,在語(yǔ)音助手上構建和實(shí)現多語(yǔ)言體驗具有挑戰性,但也有一些方法可以緩解其中一些挑戰。通過(guò)解決上述挑戰,語(yǔ)音助手將能夠為用戶(hù)提供無(wú)縫體驗,無(wú)論其語(yǔ)言如何。

原文鏈接:克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰和創(chuàng )新解決方案 (mvrlink.com)


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI 人工智能

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>