<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 深度丨解析硬件之智能語(yǔ)音領(lǐng)域

深度丨解析硬件之智能語(yǔ)音領(lǐng)域

作者：時(shí)間：2017-03-17 來(lái)源：電子產(chǎn)業(yè)說(shuō)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

編者按：本文深入分析了目前智能語(yǔ)音領(lǐng)域的格局與未來(lái)發(fā)展的趨勢。同時(shí)從產(chǎn)品本身，產(chǎn)品硬件、軟件、算法、系統、云管端等方面，分析在總體的競爭格局下，智能語(yǔ)音領(lǐng)域可能存在的機會(huì )。

　　亞馬遜Echo

本文引用地址：http://dyxdggzs.com/article/201703/345354.htm

　　Echo的售價(jià)為179.99美元，采用6+1的麥克風(fēng)陣列，主芯片采用德州儀器的數字多媒體芯片，同時(shí)采用高通Atheros的WiFi和藍牙。此數字多媒體芯片與OMAP3架構兼容，最高可以到1GHZ，ARM Coretex A8架構，具有較高的音視頻編解碼能力，內嵌TI的DSP Core，下圖是該芯片的架構圖。在軟件上，該產(chǎn)品使用Alexa系統，能支持各種應用，上面已有說(shuō)明。

　　Google Home

　　Google Home售價(jià)為129美元。采用雙麥克風(fēng)陣列，兩顆InvenSense INMP621 MEMS收音芯片。由于Google與Marvell在GoogleTV以及電視棒Chromecast上的良好合作，所以此次也采用Marvell 88DE3006 Armada雙核ARM Cortex-A7多媒體專(zhuān)用處理器，該芯片也是電視棒的主芯片。以及Marvell Avastar 88W8897 WLAN/BT/NFC SoC通訊芯片。未找到該顆主芯片的硬件架構圖，下圖是ARMADA 1500同系列高配芯片架構圖，帶Audio DSP。在軟件上，該產(chǎn)品使用Google Assistant系統。

　　亞馬遜Echo和Google Home在硬件上最大的區別，還是在于亞馬遜使用環(huán)形6+1麥克風(fēng)陣列，而Google是采用雙麥克風(fēng)陣列。麥克風(fēng)陣列是利用一定數目，一定空間構型的聲學(xué)傳感器(一般是麥克風(fēng))組成，用來(lái)對聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統。麥克風(fēng)陣列能做很多事情，對于環(huán)境噪聲，它可以采用自適應波束形成做語(yǔ)音增強，從含噪語(yǔ)音信號中提取純凈語(yǔ)音;對于說(shuō)話(huà)人說(shuō)話(huà)位置的不確性，它可以通過(guò)聲源定位技術(shù)來(lái)計算目標說(shuō)話(huà)人的角度，來(lái)跟蹤說(shuō)話(huà)人以及后續的語(yǔ)音定向拾取;對于室內聲音反射，導致語(yǔ)音音素交疊，識別率較低的問(wèn)題，它可以通過(guò)去混響技術(shù)，減小混響，提高識別率。

　　按照業(yè)內人的觀(guān)點(diǎn)，在家庭的環(huán)境內，如果優(yōu)化的好，雙麥克風(fēng)陣列可以做到與多麥克風(fēng)差不多的語(yǔ)音增強和降噪效果。雙麥克風(fēng)陣列只能定位180°內的范圍，而多麥克風(fēng)則可以做到360°的定位。但是這要依硬件設備的使用場(chǎng)景而定，比如在機器人領(lǐng)域，對聲源定位的要求很高，如Rokid機器人使用8麥克風(fēng)陣列。但是在有些應用場(chǎng)景，如靠墻的冰箱等，只需要180°的定位。在汽車(chē)領(lǐng)域，則最好是選用其他結構形式的麥克風(fēng)陣列，比如分布式陣列。目前國內主流的智能語(yǔ)音企業(yè)在雙麥克風(fēng)方案上都有布局，僅云知聲目前搭載雙麥克的芯片模組每月的出貨量就超過(guò)幾萬(wàn)片。

　　最近的發(fā)展趨勢在遠場(chǎng)識音方面，即5米以上的語(yǔ)音交互。為了實(shí)現更好的效果，多麥克風(fēng)方案是必須的，麥克風(fēng)個(gè)數越多，對說(shuō)話(huà)人的定位精度越高，但這個(gè)精度體現在距離上，如果說(shuō)話(huà)人的距離不是很遠，則差異未必能夠體現。

　　因此要綜合考慮實(shí)際的應用場(chǎng)景，選擇不同的麥克風(fēng)個(gè)數和陣型。在這方面出了亞馬遜的Echo是采用6+1陣型，國內科大訊飛是4麥和6+0麥方案，思必馳的6+1麥方案，以及聲智科技的4(+1)麥陣列、6(+1)麥陣列和8(+1)麥陣列方案。

　　值得一提的是麥克風(fēng)陣列最好和前端算法和云端識別相結合，麥克風(fēng)陣列只是起到了拾取聲音，但語(yǔ)音的識別率還要考慮算法的模型的計算，只有終端硬件和前端算法、云端識別相結合，才能使識別率達到最佳，這也是亞馬遜、谷歌甚至微軟這類(lèi)企業(yè)不得不做硬件的根本原因。比如聲智科技，就非常重視麥克風(fēng)陣列與算法的軟硬件結合的遠場(chǎng)識音技術(shù)，這也是大家很看好的原因。目前的技術(shù)還是以單人識別的模式，未來(lái)在某些應用場(chǎng)景下需要多人識別的技術(shù)，這也是創(chuàng )業(yè)的機會(huì )所在。

　　從硬件本身來(lái)說(shuō)，麥克風(fēng)的小型化、低功耗、低成本也是重要的發(fā)展方向。在小型化方面，MEMS的麥克風(fēng)技術(shù)迎合了這種發(fā)展趨勢，目前樓氏占據了全球MEMS麥克風(fēng)市場(chǎng)的最大市場(chǎng)份額。

　　據樓氏透露，其2015年全年的出貨量接近16億顆。但IHS分析指出，由于Goertek、意法半導體與瑞聲科技都在快速增長(cháng)。除了麥克風(fēng)本身的小型化，麥克風(fēng)陣列的小型化也是重要的方向，麥克風(fēng)陣列受制于半波長(cháng)理論的限制，現在的口徑還是較大，聲智科技現在可以做到2cm-8cm的間距，但是結構布局仍然還是限制了ID設計的自由性。

　　很多產(chǎn)品采用2個(gè)麥克風(fēng)其實(shí)并非成本問(wèn)題，而是ID設計的考慮。在低功耗方面，據樓氏智能語(yǔ)音硬件負責人介紹，他們將聲學(xué)活動(dòng)檢測(Acoustic Activity Detector，AAD)單元放到了麥克風(fēng)里面，實(shí)現一個(gè)自適應的實(shí)時(shí)監聽(tīng)模式，這種方式能夠使整個(gè)系統節能70%。而另一家聲學(xué)傳感器開(kāi)發(fā)商Vesper，近日推出了首款商用靜態(tài)傳感MEMS器件，使聲學(xué)事件監測器件實(shí)現幾乎零功耗。當處于監聽(tīng)模式時(shí)，Vesper最新的壓電式MEMS麥克風(fēng)VM1010所需功耗僅為3?A。當然這是與芯片的DSP模塊、語(yǔ)音接口和關(guān)鍵詞檢測算法等相結合，才實(shí)現了最低功耗的遠場(chǎng)監聽(tīng)效果。

　　就麥克風(fēng)陣列的低成本而言，除了芯片本身降低成本之外，還需要從麥克風(fēng)陣列整個(gè)結構和系統去考慮，包括器件、芯片、算法和云端。在這方面還有很多的改進(jìn)空間，也是機會(huì )所在。

　　就處理芯片來(lái)說(shuō)，亞馬遜和Google都是采用常規的多媒體處理芯片，里面有audio codec的DSP IP。這里需要提到的是喚醒技術(shù)，即主芯片在大部分時(shí)間里保持休眠狀態(tài)，當聽(tīng)到特定詞，如“OkWatch”后觸發(fā)CPU及后臺系統的開(kāi)啟。在這方面做得比較好的是Sensory，這一塊也是比較好的創(chuàng )業(yè)方向。新的趨勢可能是在處理芯片里面嵌入深度神經(jīng)網(wǎng)絡(luò )，如去年樓氏并購了語(yǔ)音解決方案供應商Audience后，為樓氏帶來(lái)幾項重要的技術(shù)，其中就包括通過(guò)深度神經(jīng)網(wǎng)絡(luò )(DNN)的基于機器學(xué)習的語(yǔ)音識別，我們希望早日看到這類(lèi)芯片的出貨。

　　當然對于芯片而言還有一個(gè)方面是做更高的集成度，包括集成WiFi/BT、DSP、audio Codec的SoC單芯片，我們也看到基于WiFi/BT的Combo芯片，帶Corex M3/M4，若再加上audio Codec，就是單芯片的方案。當然這里的前提是有足夠的量做為支撐。

　　就算法而言，語(yǔ)音識別在2010年卷積神經(jīng)網(wǎng)絡(luò )(CNN)應用之后，準確率大幅提升，已經(jīng)在C端、B端得到了廣泛應用。當前語(yǔ)音識別技術(shù)的主流算法，主要有基于參數模型的隱馬爾可夫模型(HMM)模型和混合高斯模型(HMM-GMM)的方法、基于HMM和深度網(wǎng)絡(luò )(HMM-DNN)和長(cháng)短時(shí)記憶網(wǎng)絡(luò )LSTM等語(yǔ)音建模方法。語(yǔ)音識別整個(gè)過(guò)程包含語(yǔ)音信號增強、靜音檢測、聲學(xué)特征提取、聲學(xué)和語(yǔ)音模型計算、解碼等多個(gè)環(huán)節。由于語(yǔ)音信號的多樣性和復雜性，系統只能在一定限制條件下才能獲得滿(mǎn)意效果。在真實(shí)使用場(chǎng)景中，考慮到遠場(chǎng)、方言、噪音、斷句等問(wèn)題，準確率會(huì )大打折扣。

　　目前業(yè)內普遍宣稱(chēng)的97%識別準確率，更多的是人工測評結果，只在安靜室內的進(jìn)場(chǎng)識別中才能實(shí)現。按照微軟首席研究員俞棟的看法，需要在幾個(gè)方面做改進(jìn)，包括進(jìn)一步提升在遠場(chǎng)識別尤其是有人聲干擾情況下的識別率;提供更好的識別算法，一個(gè)方面是能不能更簡(jiǎn)單，另一方面尋找一些特殊的網(wǎng)絡(luò )結構放到模型里面，以提升性能;還有一個(gè)方向是快速自適應的方法，快速的不需要人工干預的自適應方法(unsupervised adaptation)。但我始終覺(jué)得，單靠算法不足以形成足夠持續的競爭力，特別是越來(lái)越多的算法會(huì )走向開(kāi)源，需要與數據、硬件以及好的商業(yè)模式相結合。

　　剛才提到的都是基于某個(gè)點(diǎn)的優(yōu)化，無(wú)論是麥克風(fēng)陣列、芯片化還是算法，都是需要很高的技術(shù)作為支撐。但作為創(chuàng )業(yè)公司來(lái)說(shuō)，都是根據自己的資源，結合當前產(chǎn)業(yè)鏈的現狀以及趨勢，找到自己能立足的地方。針對當前很多巨頭都在關(guān)注智能語(yǔ)音領(lǐng)域，他們必定花費大量的資源投入其中，作為創(chuàng )業(yè)企業(yè)，如果能借助這些資源，找到自己在細分市場(chǎng)的發(fā)展空間，也是不錯的選擇。

　　如Linkplay在推廣Alexa業(yè)務(wù)中扮演第三方中間商的角色，為硬件廠(chǎng)商提供Alexa接入語(yǔ)音服務(wù)與授權渠道，幫助廠(chǎng)商快速實(shí)現Alexa相關(guān)功能;篩選品牌，協(xié)助亞馬遜做好認證工作，保證用戶(hù)體驗Alexa服務(wù)的一致性和標準化，這是基于中國有大量的硬件廠(chǎng)商，而最終客戶(hù)往往都是海外的考慮，公司找到了這樣的機會(huì )。雖然這涉及到過(guò)渡依賴(lài)的問(wèn)題，但是有其存在的意義和發(fā)展的空間的，企業(yè)也可以在服務(wù)方面打造自己持續的競爭力。

　　還有一種創(chuàng )業(yè)模式是平臺型的模式，這里說(shuō)的模式不是只是基于語(yǔ)音的云管端模式，而是把語(yǔ)音作為其中的一部分，甚至語(yǔ)音不是最重要的部分，同時(shí)服務(wù)于不同的客戶(hù)。

　　一個(gè)例子如迪韻科技，可以在物聯(lián)網(wǎng)音視頻領(lǐng)域提供一站式解決方案，其Mediawin平臺為傳統行業(yè)以及硬件企業(yè)提供“耳朵”和“眼鏡”方案。Mediawin方案平臺整合了多方面的資源，比如與多家聲學(xué)器件廠(chǎng)商合作定制了麥克風(fēng)、喇叭等聲學(xué)器件;與專(zhuān)業(yè)芯片廠(chǎng)商合作開(kāi)發(fā)了深度優(yōu)化的音頻處理算法;與語(yǔ)音識別方案商合作提升語(yǔ)音識別的準確率;接入第三方的平臺提供更多的音視頻應用功能等。

　　根據客戶(hù)的不同需求，比如白牌企業(yè)可能需要完整的音視頻解決方案、大企業(yè)可能僅需要底層處理算法支持、方案商需要整合專(zhuān)業(yè)的處理算法+云平臺資源等，提供定制化的軟硬件方案服務(wù)。在設備端，Mediawin平臺針對各種嵌入式產(chǎn)品，擁有完善的硬件解決方案，比如專(zhuān)業(yè)的音腔設計、音視頻器件選型、聲學(xué)場(chǎng)景優(yōu)化、音視頻模組等，能幫助企業(yè)簡(jiǎn)化6大音視頻開(kāi)發(fā)難題。相對于亞馬遜Alexa以及Linkplay的組合，迪韻提供了更完整和多樣化的方案路徑。當然這種模式能做多大尚需考證。

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 智能語(yǔ)音

評論

相關(guān)推薦

百度宣布全資收購智能語(yǔ)音創(chuàng )業(yè)公司KITT.AI

智能計算百度智能語(yǔ)音 | 2017-07-06

智能語(yǔ)音播報電子秤設計

renazan2000 | 2014-03-06

聽(tīng)懂”人話(huà) 智能語(yǔ)音爭奪人工智能皇冠上的“明珠”

智能計算智能語(yǔ)音人工智能 | 2019-03-04

智能語(yǔ)音技術(shù)解決方案

設計方案智能語(yǔ)音智能家電多媒體芯片 | 2016-06-11

基于紅外光的工業(yè)及汽車(chē)應用設計案例集錦

設計方案紅外光智能語(yǔ)音超聲波數據處理 | 2015-06-24

深度丨解析硬件之智能語(yǔ)音領(lǐng)域

智能語(yǔ)音 | 2017-03-17

智能語(yǔ)音技術(shù)中麥克風(fēng)陣列的原理

智能語(yǔ)音麥克風(fēng)陣列 | 2018-07-10

語(yǔ)音識別面臨三大挑戰智能語(yǔ)音快速發(fā)展需跨越三座大山

智能計算語(yǔ)音識別智能語(yǔ)音 | 2017-09-26

CEVA：第二波智能語(yǔ)音浪潮來(lái)襲

智能計算 CEVA 智能語(yǔ)音 | 2017-09-13

淺析智能電視語(yǔ)音中控解決方案

消費電子 202210 智能語(yǔ)音中控平臺自動(dòng)語(yǔ)音識別自然語(yǔ)言理解文本轉換 | 2022-10-24

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

直擊智能語(yǔ)音行業(yè)痛點(diǎn) 騰訊云小微云函數助力AI語(yǔ)音落地

智能計算智能語(yǔ)音騰訊云 AI語(yǔ)音 | 2019-11-11

擬人感官智能語(yǔ)音交互型機器人頭部設計

視頻信息技術(shù)大賽單片機 STC15F2K61S2 智能語(yǔ)音機器人 | 2013-01-04

智能語(yǔ)音科技簡(jiǎn)史（2018版），這場(chǎng)技術(shù)革命從哪開(kāi)始？

智能計算智能語(yǔ)音 | 2018-04-20

云知聲 “疫情防控機器人”、 “智能語(yǔ)音電子病歷系統”在廣西來(lái)賓上線(xiàn)

智能計算云知聲疫情防控智能語(yǔ)音 | 2020-02-18

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>