淺析智能電視語(yǔ)音中控解決方案
摘?要:我們正處在以智能制造為主導的第四次工業(yè)革命的浪潮中,隨著(zhù)人工智能、信息技術(shù)、生物技術(shù)等新興技術(shù)的興起,制造業(yè)進(jìn)入到了全面智能化轉型時(shí)期。如何讓機器設備變得更加智能,為人類(lèi)提供更舒適便捷的服務(wù),就成為人們不斷探索的課題。語(yǔ)言交流是人與人溝通的基礎,自然而然地,智能語(yǔ)音就成為人與機器交互的一個(gè)重要載體。在智能電視領(lǐng)域,隨著(zhù)技術(shù)升級和應用場(chǎng)景的不斷拓展,智能語(yǔ)音已經(jīng)成為智能電視的核心能力之一,在人機交互中占據了越來(lái)越重要的地位。為了提升語(yǔ)音整體性能及業(yè)務(wù)能力,各大廠(chǎng)家不再滿(mǎn)足于第三方語(yǔ)音技術(shù)方案提供的整套服務(wù),開(kāi)始加大對智能語(yǔ)音全鏈路的研發(fā)投入,以便對語(yǔ)音功能有更多優(yōu)化和選擇的空間。而在智能語(yǔ)音的整個(gè)鏈路中,云端控制和決策能力又是至關(guān)重要的一環(huán),所以搭建私有化中控平臺,成為各大廠(chǎng)家優(yōu)先選擇的方案。
本文引用地址:http://dyxdggzs.com/article/202210/439473.htm關(guān)鍵詞:智能語(yǔ)音;中控平臺;自動(dòng)語(yǔ)音識別;自然語(yǔ)言理解;文本轉換
1 前言
隨著(zhù)智能電視技術(shù)的迭代升級和應用場(chǎng)景的不斷拓展,智能語(yǔ)音已經(jīng)成為智能電視的核心能力之一。通過(guò)智能語(yǔ)音可以更便捷地完成人與電視的交互,所以智能語(yǔ)音能力的高低,成為評判電視智能化水平的一個(gè)重要標準。隨著(zhù)語(yǔ)音技術(shù)的進(jìn)步和市場(chǎng)的發(fā)展,通過(guò)語(yǔ)音完成簡(jiǎn)單的控制指令已不能滿(mǎn)足用戶(hù)需求,人們希望可以通過(guò)語(yǔ)音實(shí)現更多的功能,而依靠終端設備軟件升級的方式增加或變更服務(wù)又相對困難。在這種大背景下,各大廠(chǎng)家紛紛建立起私有化語(yǔ)音中控平臺,希望通過(guò)自有中控平臺持續優(yōu)化語(yǔ)音技能,靈活地配置語(yǔ)音業(yè)務(wù)。下面就帶大家了解一下智能語(yǔ)音全鏈路處理過(guò)程,簡(jiǎn)單介紹語(yǔ)音中控平臺如何搭建以及各模塊的基本作用,最后再講一下語(yǔ)音中控軟件的基本架構。
2 語(yǔ)音全鏈路解析
智能語(yǔ)音全鏈路包括端側能力和云端能力兩個(gè)部分,端側指智能電視終端,主要負責聲音采集并對聲音信號進(jìn)行處理,將音頻信號、文字信息通過(guò)云端協(xié)議送至云端處理,并執行云端返回的指令或播報生成的結果。云端能力包括語(yǔ)音識別、語(yǔ)義理解、對話(huà)管理、資源調用、回復生成和語(yǔ)音合成幾個(gè)模塊,負責把一句話(huà)轉成文字,并理解這句話(huà)的意圖,完成對應的指令并返回相應的結果。語(yǔ)音解析是否智能,能不能準確理解使用者的意圖,關(guān)鍵就在于云端能力的高低。語(yǔ)音全鏈路結構如圖 1 所 示,語(yǔ)音信號被聲音采集模塊收集后,經(jīng)過(guò)信號處理模塊的限幅、降噪處理,給到語(yǔ)音喚醒模塊做喚醒詞匹配,匹配成功后把語(yǔ)音送給語(yǔ)音識別模塊,將聲音信號轉成文字信息,再由語(yǔ)義理解模塊解析出關(guān)鍵詞,由對話(huà)管理模塊根據上下文輸入理解用戶(hù)意圖,再通過(guò)應用程序編程接口(application programming interface, API)調用外部資源,并生成回復內容,返回終端執行相關(guān)指令的同時(shí),播報由語(yǔ)音合成模塊合成的語(yǔ)音回復。至此,一個(gè)完整的語(yǔ)音處理鏈路就完成了,當有新的語(yǔ)音輸入時(shí) 再重復以上過(guò)程。
2.1 語(yǔ)音識別
自動(dòng)語(yǔ)音識別(automatic speech recognition,ASR)是將語(yǔ)音信號轉換成文字信息的服務(wù)。語(yǔ)音識別根據實(shí)際應用場(chǎng)景,選擇合適的聲學(xué)和語(yǔ)言模型,將接收到的語(yǔ)音信號經(jīng)過(guò)特征提取、多路解碼、模型計算、權重比較后,得到一段置信度較高的文字輸出。通過(guò)對聲音信號的分析,也可以獲取使用者的聲紋、情緒狀態(tài)、年齡段等信息;根據這些數據可以對用戶(hù)群體進(jìn)行細分及精細化運營(yíng),為用戶(hù)提供個(gè)性化服務(wù)的同時(shí),也能夠提升運營(yíng)質(zhì)量。
2.2 語(yǔ)義理解
在進(jìn)行語(yǔ)音交互的時(shí)候,僅僅把聲音轉換成文字是遠遠不夠的,必須理解用戶(hù)說(shuō)的是什么意思,因此語(yǔ)義理解服務(wù)是語(yǔ)音交互鏈路中非常重要的一環(huán)。對于用戶(hù)的應用場(chǎng)景,首先要定義出場(chǎng)景的語(yǔ)義空間,識別用戶(hù)有哪些意圖,然后采集數據進(jìn)行意圖識別和參數抽取,將輸入的文字進(jìn)行模型處理,輸出文字中的關(guān)鍵信息。這一步就是把人的語(yǔ)言形式轉化為機器可理解的、結構化的、完整的語(yǔ)義表示。
2.3 對話(huà)管理
對話(huà)管理控制著(zhù)人機對話(huà)交互的過(guò)程,依據對話(huà)歷史信息和當前用戶(hù)輸入,決定系統對用戶(hù)輸入的反應,這也是多輪對話(huà)的基礎。在復雜任務(wù)完成的過(guò)程中,當用戶(hù)的輸入不夠具體或明確時(shí),系統通過(guò)對話(huà)管理對用戶(hù)的需求進(jìn)行詢(xún)問(wèn)、澄清或確認來(lái)明確用戶(hù)的真實(shí)意圖,完成用戶(hù)的請求。對話(huà)管理包含對話(huà)狀態(tài)跟蹤、響應決策、語(yǔ)義槽填充、上下文管理、指代消歧等功能。
2.4 回復生成
根據上下文語(yǔ)境,結合用戶(hù)實(shí)際使用場(chǎng)景進(jìn)行定義,對執行用戶(hù)輸入結果給出反饋文字或動(dòng)作?;貜蜕砂镜孛?、控件定義、對話(huà)回復、默認播報、錯誤播報、對話(huà)控制等功能。
2.5 語(yǔ)音合成
語(yǔ)音合成是把文字信息轉成標準語(yǔ)音輸出的過(guò)程,相當于給設備裝上了“嘴巴”。語(yǔ)音是否流暢、音色是否優(yōu)美動(dòng)聽(tīng),就是由這個(gè)模塊決定的。通過(guò)一定的數據輸入和模型訓練,可以合成特定人物的聲音,讓人和設備的互動(dòng)更和諧。
3 語(yǔ)音中控平臺搭建
3.1 企業(yè)中控平臺構建
在講語(yǔ)音中控平臺之前,先要看一下企業(yè)中控平臺的基本架構,因為語(yǔ)音中控隸屬于企業(yè)中控,是云端大平臺的一部分。一般企業(yè)云端控制平臺會(huì )兼容多種業(yè)務(wù)需求,除了語(yǔ)音業(yè)務(wù)需求外,大多還要滿(mǎn)足圖像識別、AIoT(AI IOT,人工智能物聯(lián)網(wǎng))等其他智能業(yè)務(wù)需求。企業(yè)云端控制平臺可以根據業(yè)務(wù)需求靈活定制,如圖 2 所示,展示了一種云端中控平臺的基本架構和與外部模塊之間的關(guān)系。企業(yè)中控平臺包括鑒權網(wǎng)關(guān)、控制引擎、決策引擎等控制模塊,以及只為具體業(yè)務(wù)服務(wù)的單元模 塊,如圖 2 中自動(dòng)語(yǔ)音識別和語(yǔ)義處理平臺、圖像識別平臺、AIoT 平臺,分別為語(yǔ)音業(yè)務(wù)、圖像識別業(yè)務(wù)和AIoT 業(yè)務(wù)服務(wù)。通過(guò)自有企業(yè)云端中控平臺的整體控制,不僅可以很方便地實(shí)現對各個(gè)業(yè)務(wù)單元的靈活配置,還可以促進(jìn)各種技術(shù)的融合和復用,推動(dòng)終端產(chǎn)品性能和用戶(hù)體驗的提升。
圖2 企業(yè)中控平臺內外部模塊關(guān)系
3.2 語(yǔ)音中控平臺架構
在語(yǔ)音全鏈路的處理過(guò)程中,云端的能力非常重要,決定著(zhù)語(yǔ)音處理結果是否智能,所以云端又被稱(chēng)為智能語(yǔ)音的大腦。我們所說(shuō)的企業(yè)自有語(yǔ)音中控平臺建設,主要是指建立云端語(yǔ)音處理和控制平臺。按功能實(shí)現可以把語(yǔ)音中控平臺劃分成四個(gè)大模塊,分別是語(yǔ)音識別、語(yǔ)義理解、意圖決策和技能分發(fā) / 決策模塊,各個(gè)模塊之間的關(guān)系如圖 3 所示,遠場(chǎng)拾音模塊拾音后給到信號處理模塊對語(yǔ)音信號進(jìn)行處理,然后把語(yǔ)音信號送給語(yǔ)音識別模塊,將聲音信號轉換成文本信息。這里遠近場(chǎng)處理方式略有不同,近場(chǎng)語(yǔ)音拾音后直接輸出給語(yǔ)音識別模塊。轉換出來(lái)的文本信息通過(guò)語(yǔ)義理解模塊的解析、意圖決策和技能分發(fā)模塊的處理,把處理結果返回給終端設備,呈現具體信息或者執行相關(guān)動(dòng)作。
在語(yǔ)音中控平臺的四個(gè)模塊中,自動(dòng)語(yǔ)音識別模塊負責將音頻信號轉換成文本信息,功能相對比較單一,前文也有介紹,這里不再贅述。語(yǔ)義理解、意圖決策、技能分發(fā) / 決策模塊功能相對復雜,也是語(yǔ)音中控的核心能力,各模塊細分功能如圖 4 所示。語(yǔ)義理解模塊包括 Query 分析、場(chǎng)景分類(lèi)、意圖識別、上下文識別、模板干預和槽位提取功能,一段語(yǔ)音信息通過(guò)槽位提取關(guān)鍵詞后,根據不同的場(chǎng)景對意圖進(jìn)行分類(lèi),并結合上下文理解調整意圖,從而準確判定一句話(huà)的真實(shí)意圖。具備了槽位提取能力以后,在新業(yè)務(wù)拓展時(shí)可以脫離對第三方技能語(yǔ)言理解能力的依賴(lài),實(shí)現靈活對接第三方業(yè)務(wù),也可以根據業(yè)務(wù)需求自行訓練對應槽位,方便新業(yè)務(wù)的開(kāi)展。同時(shí),根據場(chǎng)景對槽位進(jìn)行細分后,可以實(shí)現對特定人群和使用場(chǎng)景的定制,提高服務(wù)的精準度以及運營(yíng)轉化率。意圖決策模塊包括多意圖決策、上下文決策、個(gè)性化干預和用戶(hù)畫(huà)像生成幾部分,主要是根據用戶(hù)使用習慣,結合上下文對意圖進(jìn)行干預,從多個(gè)意圖中選出最能匹配用戶(hù)場(chǎng)景的意圖,提高意圖的準確度。技能分發(fā) / 決策模塊通過(guò)數據模型或人工干預的方式對決策結果進(jìn)行選擇,從而控制意圖的分發(fā),實(shí)現對第三方內容資源的靈活對接。
圖4 語(yǔ)音中控核心模塊
4 語(yǔ)音中控平臺軟件架構
語(yǔ)音中控平臺軟件在架構上主要分為三層,分別是底層技術(shù)層、核心能力層和需要二次開(kāi)發(fā)的對接層,層級結構如圖 5 所示。底層技術(shù)包括深度學(xué)習算法、語(yǔ)音識別技術(shù)、自然語(yǔ)言處理和基礎數據模型,這部分是智能語(yǔ)音的基礎技術(shù),專(zhuān)業(yè)性較強,一般不需要特殊定制,可以借助第三方成熟的技術(shù)方案。核心能力層包括場(chǎng)景分類(lèi)、意圖識別、槽位提取、上下文判定、決策和技能分發(fā)、用戶(hù)畫(huà)像及個(gè)性化推薦模塊,囊括了語(yǔ)音云端處理所有核心功能,語(yǔ)音處理上的性能優(yōu)化和差異化功能的定制開(kāi)發(fā),都需要在這一層實(shí)現。在核心能力層之上的服務(wù)對接、模型訓練、決策配置和數據分析模塊,用來(lái)對接具體業(yè)務(wù)和服務(wù),需要根據具體業(yè)務(wù)需求做二次開(kāi)發(fā)。這一層要實(shí)現多種服務(wù)的靈活對接,對業(yè)務(wù)數據進(jìn)行分析及模型訓練,并根據業(yè)務(wù)類(lèi)型和用戶(hù)使用場(chǎng)景制定適當的決策機制,完成復雜或者具有多重語(yǔ)義語(yǔ)句的功能匹配。
5 結語(yǔ)
本文給出了一種搭建企業(yè)私有化語(yǔ)音中控平臺的方案,在整個(gè)語(yǔ)音鏈路中,語(yǔ)音中控占據了舉足輕重的位置。通過(guò)搭建自有語(yǔ)音中控平臺,可以在不打擾用戶(hù)的情況下通過(guò)云端靈活配置第三方服務(wù)和技能,提升智能語(yǔ)音優(yōu)化迭代的速度,還可以根據具體業(yè)務(wù)和用戶(hù)使用場(chǎng)景定制語(yǔ)音技能,為用戶(hù)打造具有特色的語(yǔ)音服務(wù)。另外,使用私有語(yǔ)音中控平臺,能夠更加方便地管理用戶(hù)數據,并保障語(yǔ)音數據的安全。所以,不管從資源整合、性能提升還是業(yè)務(wù)拓展等方面考慮,建立私有化中控平臺都是大企業(yè)的未來(lái)趨勢。
參考文獻:
[1]?郭晶晶.語(yǔ)音識別技術(shù)發(fā)展對推廣普通話(huà)的意義[J].傳播力研究,2020(18).
[2]?杜靈君,武曉島.語(yǔ)音識別技術(shù)全球專(zhuān)利布局趨勢[J].科技中國,2021(12).
[3]?張大林,任萱,徐藝敏,等.企業(yè)內網(wǎng)系統語(yǔ)音識別技術(shù)的設計與實(shí)現[J].數字技術(shù)與應用,2021(12).
[4]?袁冰清,于淦,周霞.淺說(shuō)語(yǔ)音識別技術(shù)[J].數字通信世界,2020(02).
[5]?張昱,高凌燕,胡虎安,等.智能語(yǔ)音識別技術(shù)在郵政快遞柜中的應用研究[J].電子世界,2020(04).
[6]?李博麗.傳統計算機語(yǔ)音識別技術(shù)中的數學(xué)[J].花炮科技與市場(chǎng),2020(02).
[7]?郝歐亞,吳璇,劉榮凱.智能語(yǔ)音識別技術(shù)的發(fā)展現狀與應用前景[J].電聲技術(shù),2020(03).
[8]?彭洪松,李洪斌,李莉,等.人工智能中遠場(chǎng)語(yǔ)音識別技術(shù)的研究[J].數字通信世界,2020(05).
[9]?于曉明.語(yǔ)音識別技術(shù)的發(fā)展及應用[J].計算機時(shí)代,2019(11).
[10]?田建勇,劉松,李洲越,等.智能語(yǔ)音提醒系統的設計分析[J].電腦知識與技術(shù),2020(20).
[11?]?李亞銘,李陽(yáng).智媒體時(shí)代人工智能在電視行業(yè)的應用研究[J].出版廣角,2019(03).
[12]?詹紅艷.人工智能在電視人機交互中的實(shí)踐[J].數字技術(shù)與應用,2019(03).
[13]?張藍姍,黃高原.人工智能技術(shù)給電視媒介帶來(lái)的機遇和挑戰[J].中國電視,2018(07).
[14]?侯光敏.人工智能在電視人機交互中的應用[J].有線(xiàn)電視技術(shù),2017(11).
(注:本文轉載自《電子產(chǎn)品世界》雜志2022年10月期)
評論