<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 設計應用 > 人工智能電視遠場(chǎng)語(yǔ)音設計

人工智能電視遠場(chǎng)語(yǔ)音設計

作者:郭斌 林敏強 劉澤民 時(shí)間:2018-09-27 來(lái)源:電子產(chǎn)品世界 收藏
編者按:本文介紹一種服務(wù)于人工智能電視,實(shí)現遠場(chǎng)語(yǔ)音應用的麥克風(fēng)陣列設計方案,闡述系統框架和硬件設計,同時(shí)介紹軟件設計的部分要點(diǎn)。通過(guò)麥克風(fēng)陣列,協(xié)助語(yǔ)音增強算法的實(shí)現,達到遠距離拾音、回聲消除、聲源定位,滿(mǎn)足當前智能語(yǔ)音應用的需求。

作者 / 郭斌 林敏強 劉澤民 康佳集團(廣東 深圳 518053)

本文引用地址:http://dyxdggzs.com/article/201809/392393.htm

  郭斌(1980— ),男,康佳集團多媒體研發(fā)中心新技術(shù)所所長(cháng),主研電視前沿技術(shù),無(wú)線(xiàn)通信方向。

  林敏強(1990— ),男,康佳集團多媒體研發(fā)中心硬件工程師,主研智能前沿技術(shù),人機交互方向。

  劉澤民(1994— ),男,康佳集團多媒體研發(fā)中心硬件工程師,主研無(wú)線(xiàn)智能產(chǎn)品方向。

摘要:本文介紹一種服務(wù)于電視,實(shí)現遠場(chǎng)語(yǔ)音應用的設計方案,闡述系統框架和硬件設計,同時(shí)介紹軟件設計的部分要點(diǎn)。通過(guò),協(xié)助算法的實(shí)現,達到、回聲消除、聲源定位,滿(mǎn)足當前智能語(yǔ)音應用的需求。

0 引言

  是20世紀新興的一門(mén)學(xué)科,從發(fā)展之初就受到業(yè)界的廣泛關(guān)注。從廣義上定義是指具備語(yǔ)音感知、圖像感知以及其他信息感知,具備邏輯運算能力,以仿人類(lèi)的思維方式工作的智能系統。目前已經(jīng)取得了不俗的成果,人工智能產(chǎn)品也覆蓋到了人們生活的方方面面。人工智能科學(xué)具有廣闊的發(fā)展前景和巨大的發(fā)展潛力,正確引導和規范人工智能科學(xué)的技術(shù)性發(fā)展和應用,必將會(huì )給人類(lèi)帶來(lái)巨大的財富[1]。

  隨著(zhù)大數據、云計算、深度學(xué)習技術(shù)的不斷普及,語(yǔ)音技術(shù)的不斷優(yōu)化,人工智能越來(lái)越具備從"感知"到"認知"的能力,產(chǎn)品形態(tài)的智能化程度越來(lái)越高[2]。人工智能技術(shù)在電視上的應用,將內容和交互結合,聽(tīng)歌、看劇、查詢(xún)...用戶(hù)都只需要開(kāi)口就行,結合大數據后臺,便會(huì )根據用戶(hù)的喜好推送個(gè)性化歌曲推薦;接入智能家居系統,即可語(yǔ)音操控各種設備,十分便捷。

  本文圍繞人工智能電視的遠場(chǎng)語(yǔ)音設計展開(kāi),介紹功能實(shí)現的框架和原理。

1 硬件設計

  基礎功能硬件實(shí)現架構如圖1,采用4麥克風(fēng)條形線(xiàn)性陣列,模擬麥克風(fēng)經(jīng)ADC傳輸音頻信號給MCU處理。MCU采用ST的STM32F401CDU6作為主控方案,STM32F401CDU6是一顆32位 ARM核芯片,內置512 KB Flash/96 KB RAM,低延遲,工作頻率高達84 MHz,支持寬電壓1.7 V~3.6 V。模塊方案通過(guò)ADC將A-MIC模擬信號轉成I2S傳輸給MCU,MCU通過(guò)USB2.0和TV SOC傳輸音頻數據。通過(guò)模塊搭配算法有效實(shí)現聲源定位、波束成形、去混響、降噪、增益調節、回聲消除等功能(下文結合軟件模塊展開(kāi)闡述)。

  1.1 麥克風(fēng)選料

  麥克風(fēng)選用靈敏度-25 dB,信噪比74 dB的A-MIC,同時(shí)采用接線(xiàn)外拉的形式,有效避免生產(chǎn)過(guò)程中因高溫焊接導致的麥克風(fēng)靈敏度下降或損壞等問(wèn)題,保證陣列麥克風(fēng)靈敏度的一致性,對整體算法的精確度有比較好的控制和要求。不過(guò)相應的會(huì )對整機生產(chǎn)裝配造成難度以及增加人工成本,設計之初需要做好防呆設計,提高安裝可靠性和效率。

  1.2 供電設計

  模塊采用獨立的供電,電視待機時(shí),可支持通過(guò)模塊待機喚醒操作。模塊需要區分電視待機和開(kāi)機狀態(tài),開(kāi)機狀態(tài)下,喚醒詞拉起語(yǔ)音應用。待機狀態(tài)下,喚醒詞本地處理通過(guò)I/O口發(fā)起開(kāi)機信號。因此待機時(shí),供電關(guān)閉500 ms后重啟,模塊重新讀取USB數據信號是否為空,以此來(lái)判斷主機狀態(tài)。

  1.3 參考信號設計

  參考信號指的是主機端提供給模塊的音頻參考,作為回聲消除算法的依據。參考音頻由功放輸出信號,經(jīng)過(guò)分壓、濾波后傳輸給模塊。根據芯片取值范圍要求,確保輸入到模塊的參考信號幅值≤1 Vrms,即圖2中從AMP+/-經(jīng)分壓后到SPK+/-的信號≤1 Vrms。

  這里提到另外一種分壓方式,如圖3,由于R36、R38阻值存在誤差以及喇叭的寄生電容等影響,改變了差分信號走線(xiàn)的阻抗,使得其對于共模干擾抑制能力減弱,且容易在參考信號中引入雜音、破音。實(shí)際測試對比兩者播放1 kHz測試音頻時(shí),該分壓方式產(chǎn)生明顯的失真,如圖4對比。

2 軟件設計

  軟件分本地處理和云端處理兩部分。如圖6,淺灰色部分為本地處理,深灰色部分為云端處理。本地算法包括回聲消除AEC、聲源定位DOA、波束形成BF、去混響DER、降噪NS、自動(dòng)增益調節AGC、頻域均衡EQ,最終編碼傳輸。云端主要負責對接收到的音頻進(jìn)行文本識別、自然語(yǔ)言處理NLP、最終經(jīng)過(guò)業(yè)務(wù)邏輯和技能處理,將結果經(jīng)TTS服務(wù)器反饋給用戶(hù)。其中,在識別處理的同時(shí),音頻信號經(jīng)VPR服務(wù)器進(jìn)行讀取,對音頻分析特征值,也就是聲紋識別。聲紋識別的結果也提供給業(yè)務(wù)單元處理。

  2.1 回聲消除

  自適應回聲抵消的基本思想是估計回聲路徑的特征參數,產(chǎn)生一個(gè)模擬的回音路徑,得出模擬回聲信號,從接收信號中減去該信號,實(shí)現回聲抵消。圖5給出了單向傳輸的聲學(xué)消回聲器AEC的原理圖。圖5中,x(n)代表麥克風(fēng)拾音的信號,包含了本地聲音和目標人聲;y(n)是經(jīng)過(guò)回聲通道而產(chǎn)生的不期望的回聲;r(n)是經(jīng)算法抵消后的目標人聲;A口的信號x(n)疊加有不期望的回聲[3]。

  2.2 聲源定位及波束形成

  麥克風(fēng)拾音在實(shí)際應用環(huán)境中不僅僅有直接到達的目標語(yǔ)音,還有目標語(yǔ)音經(jīng)過(guò)墻面反射、衍射等其他路徑到達的部分及混響,以及環(huán)境噪音及本地噪音的干擾。聲源定位即依靠分布式麥克風(fēng)陣列,對接收到的信號進(jìn)行函數運算,根據計算的信號時(shí)延差獲取目標音源的角度方向。波束形成的原理利用麥克風(fēng)陣列的特性,將噪聲進(jìn)行抑制或進(jìn)行非常大的衰減以提高接受目標信號的質(zhì)量[4]。

  2.3

  的過(guò)程主要由遠場(chǎng)或近場(chǎng)方式進(jìn)行拾音,由服務(wù)器(ASR)和語(yǔ)義理解服務(wù)器(NLP)完成錄音文件識別和結果轉換。識別結果經(jīng)語(yǔ)音合成服務(wù)器(TTS)合成人聲將結果反饋給用戶(hù)。

  語(yǔ)音識別服務(wù)器(ASR)主要將電視端錄入的音頻文件進(jìn)行識別,將識別結果的文本直接發(fā)送給語(yǔ)義理解服務(wù)器進(jìn)行解析,可以分為遠場(chǎng)/近場(chǎng)以及不同方言進(jìn)行處理。

  語(yǔ)義理解服務(wù)器(NLP),目前使用主服務(wù)器加輔助服務(wù)器的模式進(jìn)行語(yǔ)義理解處理,在語(yǔ)音識別服務(wù)將文字傳給語(yǔ)義理解服務(wù)器后,使用第三方提供的主服務(wù)器進(jìn)行優(yōu)先解析,識別結果進(jìn)行權重值計算,權重值高的識別結果直接返回客戶(hù)端進(jìn)行處理;權重值低的識別結果返回給康佳語(yǔ)義理解服務(wù)器,由康佳語(yǔ)義理解服務(wù)器進(jìn)行二次處理和轉發(fā),如果主服務(wù)器不能識別的語(yǔ)句則由康佳語(yǔ)義理解服務(wù)器進(jìn)行識別,然后根據識別結果的領(lǐng)域分發(fā)給其他對應在該領(lǐng)域處理比較好的其它服務(wù)器進(jìn)行語(yǔ)義理解處理,識別之后返回康佳服務(wù)器再統一返回客戶(hù)端進(jìn)行處理。

  語(yǔ)音合成服務(wù)器,主要將識別結果和理解處理結果的文本進(jìn)行語(yǔ)音合成和人聲播報,可以定義不同的人聲播報達到不同的效果,處理結果為生成一個(gè)音頻文件返回給客戶(hù)端。

3 小結

  隨著(zhù)人工智能技術(shù)的發(fā)展,語(yǔ)音成為了不可或缺的主要交互手段。麥克風(fēng)陣列在智能音箱、智能電視甚至智能空調、冰箱、抽油煙機等家電上都逐漸開(kāi)始應用,市場(chǎng)一度出現了人工智能熱。麥克風(fēng)陣列的設計及應用是AI智能服務(wù)落地的基礎,本文提出人工智能電視遠場(chǎng)語(yǔ)音麥克風(fēng)陣列的設計,從硬件系統、軟件模塊、性能原理、以及器件選型等多方面進(jìn)行了原理分析研究和設計方案闡述,配合云端后臺,實(shí)現電視人工智能對話(huà)的場(chǎng)景。

  參考文獻:

  [1]王太忠,呂葉. 人工智能淺析[J]. 科教文匯(上旬刊). 2012(09):70-71

  [2]陳長(cháng)偉. 人工智能+內容開(kāi)啟廣電智媒體時(shí)代[J]. 有線(xiàn)電視技術(shù). 2017(11):26-29

  [3]王慶輝,李永哲. VoIP聲學(xué)回聲消除算法研究[J] , 現代電子技術(shù), 2009 (07).

  [4]杜軍,桑勝舉. 基于麥克風(fēng)陣列的技術(shù)及應用[J]. 計算機應用與軟件. 2009(10)

  本文來(lái)源于《電子產(chǎn)品世界》2018年第10期第50頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>