<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 語(yǔ)音識別結合應用場(chǎng)景:未來(lái)可期

語(yǔ)音識別結合應用場(chǎng)景:未來(lái)可期

作者: 時(shí)間:2017-04-21 來(lái)源:Xteacher 收藏

  近二十年來(lái),技術(shù)取得顯著(zhù)進(jìn)步,開(kāi)始從實(shí)驗室走向市場(chǎng)。人們預計,未來(lái)10年內,技術(shù)走進(jìn)了工業(yè)、家電、通信、汽車(chē)電子、消費電子產(chǎn)品等各個(gè)領(lǐng)域。作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù),近幾年來(lái)隨著(zhù)深度學(xué)習技術(shù)的突破,識別準確率大幅提升,帶動(dòng)了一波產(chǎn)業(yè)熱潮。對語(yǔ)音識別未來(lái)發(fā)展,各位大咖也有一些精彩論點(diǎn)。

本文引用地址:http://dyxdggzs.com/article/201704/358275.htm

  研究院副院長(cháng)——王士進(jìn)

  王士進(jìn)表示,語(yǔ)音識別是人機交互里很重要的模塊,從PC時(shí)代到現在的移動(dòng)互聯(lián)時(shí)代,人機交互由鼠標鍵盤(pán)走向智能手機、Pad等的多點(diǎn)觸摸。到了智能硬件時(shí)代,交互則更加多元,不僅有觸摸,還有基于語(yǔ)音、視覺(jué)的交互。原本是以機器為中心的人機交互,逐漸走向以人為中心的自然交互。

  他認為,在將來(lái)萬(wàn)物互聯(lián)的浪潮下,以語(yǔ)音為主,鍵盤(pán)、觸摸、視覺(jué)、手勢為輔的交互時(shí)代很快會(huì )到來(lái)。

  提到傳統的語(yǔ)音交互,王士進(jìn)列舉了幾個(gè)缺點(diǎn):第一,交互距離要近;第二,發(fā)音必須標準;第三,環(huán)境必須安靜;第四,人機不能持續對話(huà)。

  在2015年提出AIUI,旨在解決上述問(wèn)題同時(shí)期望在人工智能時(shí)代提供一種智能的人機交互界面。AIUI提供遠場(chǎng)喚醒和識別降噪方案,兼容全國近17種方言,可以進(jìn)行全雙工交互和基于業(yè)務(wù)場(chǎng)景的多輪對話(huà),同時(shí)結合訊飛超腦的認知智能使得機器進(jìn)行更智能的交互。

  AIUI實(shí)現了軟硬一體化、云端一體化、技術(shù)服務(wù)一體化,通過(guò)三個(gè)一體化提供人機智能交互整體解決方案,使得用戶(hù)可以快速切換到新的業(yè)務(wù)場(chǎng)景。

  在提到基于A(yíng)IUI交互技術(shù)的一些商業(yè)化嘗試時(shí),王士進(jìn)列舉了幾種:

  在交流方面,在05年推出了聽(tīng)見(jiàn)智能會(huì )議這款產(chǎn)品。一般來(lái)說(shuō),會(huì )議場(chǎng)景的同傳準確率為80%左右,而智能會(huì )議轉寫(xiě)準確率則能達到90%以上,之后,其在醫療和司法系統進(jìn)行了應用。另外,科大訊飛還推出了便攜翻譯機,易于隨身攜帶,方便遠程實(shí)時(shí)交流。

  在電視方面,最早的電視是用數字加上下左右按鍵控制僅有的十幾個(gè)臺,而現在的智能電視后臺對接海量資源,通過(guò)訊飛智能電視助手可以進(jìn)行方便的語(yǔ)音交互,節省時(shí)間。

  在汽車(chē)方面,由于人在駕駛時(shí)候手不能離開(kāi)方向盤(pán),故把語(yǔ)音引入代替手進(jìn)行交互會(huì )方便許多。實(shí)際上相比其他應用場(chǎng)景,語(yǔ)音識別由于汽車(chē)場(chǎng)景的噪音更強,面臨更大挑戰,而科大訊飛也在基于車(chē)載的語(yǔ)音識別做了許多優(yōu)化,更在寶馬、奔馳、通用舉行的全球車(chē)載語(yǔ)音識別比賽取得第一名,有效的支撐了車(chē)載場(chǎng)景的交互。

  在機器人方面,機器人與人的語(yǔ)音交互滿(mǎn)足自然交互、個(gè)性化服務(wù)以及基于業(yè)務(wù)場(chǎng)景的整合服務(wù),可以方便的任意打斷,在理解用戶(hù)的需求下進(jìn)行精準的內容推薦和服務(wù)。

  語(yǔ)音識別和自然語(yǔ)言理解都是基于統計和概率體系,所以商業(yè)化過(guò)程建議選擇人受到一定限制(如車(chē)載)或者很難做百分之百正確(如會(huì )議同傳)的場(chǎng)景,然后隨著(zhù)技術(shù)的進(jìn)一步成熟,可以進(jìn)入到更多的場(chǎng)景。

  最后,王士進(jìn)總結道,“語(yǔ)音識別和人機交互技術(shù)在進(jìn)行技術(shù)優(yōu)化的同時(shí)更要結合應用場(chǎng)景,最終可使得技術(shù)完善,產(chǎn)業(yè)更好的發(fā)展。”

  百度語(yǔ)音技術(shù)部聲學(xué)技術(shù)負責人——李先剛

  提到這些年對手機百度語(yǔ)音搜索的不斷優(yōu)化過(guò)程,李先剛認為要做好這樣一個(gè)產(chǎn)品,先要收集相關(guān)數據,然后將語(yǔ)音識別應用推廣到相關(guān)產(chǎn)品線(xiàn)上供用戶(hù)使用,用戶(hù)使用后反饋回來(lái)數據形成完整鏈條,最終達到非常完美的狀態(tài)。

  他把輸入法在語(yǔ)音識別中的作用表述為:輸入法這一場(chǎng)景對語(yǔ)音識別性能提升有非常大的幫助。

  而今年,百度在語(yǔ)音技術(shù)方面的進(jìn)展包括基于GramCTC的端對端語(yǔ)音識別系統以及端對端說(shuō)話(huà)人識別技術(shù)。

  基于CTC的端對端語(yǔ)音識別系統是目前主流的工業(yè)系統,在2015年底,百度實(shí)現了CTC端對端語(yǔ)音識別系統的上線(xiàn)。而今年,百度進(jìn)一步提出了GramCTC算法。

  主流的說(shuō)話(huà)人識別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù),其框架基于統計模型,并將DNN引入此框架去學(xué)習。

  可以看到的是,語(yǔ)音識別已走向大數據和端對端的道路,百度也將把說(shuō)話(huà)人識別技術(shù)向此發(fā)展,進(jìn)一步提升相關(guān)性能。

  李先剛表示,人臉識別與說(shuō)話(huà)人識別有技術(shù)共性,二者之間的差異僅僅只是人臉識別對象可以是固定尺寸的圖片,而語(yǔ)音的時(shí)長(cháng)會(huì )有很多變化。因此,百度說(shuō)話(huà)人識別技術(shù)借鑒了目前人臉識別最好的方法——度量學(xué)習,搭建了端對端度量學(xué)習的說(shuō)話(huà)人識別系統。百度內部的實(shí)驗顯示,基于端對端的說(shuō)話(huà)人技術(shù)顯著(zhù)提升了說(shuō)話(huà)人識別的性能。

  從商業(yè)化的角度分析語(yǔ)音識別,可將其應用分為兩個(gè)維度,第一個(gè)是近場(chǎng)和遠場(chǎng),第二個(gè)是人配合機器說(shuō)話(huà)和人對人說(shuō)話(huà)的不同說(shuō)話(huà)風(fēng)格。經(jīng)過(guò)這樣劃分會(huì )發(fā)現很多語(yǔ)音場(chǎng)景其實(shí)是處在不同的語(yǔ)音象限里面,目前業(yè)界所做的近場(chǎng)人對機器說(shuō)話(huà)的識別準確率可達90%以上,但另外幾個(gè)場(chǎng)景所做不盡人意。

  在李先剛看來(lái),隨著(zhù)語(yǔ)音技術(shù)的推進(jìn),輔之商業(yè)化情景必將推動(dòng)產(chǎn)品和技術(shù)的發(fā)展。

  搜狗語(yǔ)音交互技術(shù)中心研發(fā)總監——陳偉

  從2012年到現在,隨著(zhù)數據和算法的提升,搜狗的語(yǔ)音識別的識別錯誤率是逐年下降的。陳偉分享了一組數據:到目前為止,搜狗輸入法每天的語(yǔ)音識別請求量高達2億次,每天產(chǎn)生語(yǔ)料達到18萬(wàn)小時(shí)。

  陳偉表示,搜狗在2016年發(fā)布知音引擎,對外輸出完整的語(yǔ)音交互解決方案,也一直在探索語(yǔ)音識別和交互的不同場(chǎng)景和經(jīng)驗。語(yǔ)音識別可以更好提升輸入、記錄、交流的效率,其可分為聽(tīng)寫(xiě)和轉寫(xiě),聽(tīng)寫(xiě)更多要求實(shí)時(shí)性,轉寫(xiě)則面向客服數據,不要求實(shí)時(shí)。另外,語(yǔ)音識別技術(shù)面向不同客戶(hù),除了直接提供給消費者,還有一些公司、企業(yè)如法院、醫院等,語(yǔ)音識別的應用場(chǎng)合則更多是在演講、直播、語(yǔ)音分析中。

  語(yǔ)音識別不是一個(gè)單獨的技術(shù),其需要同其他技術(shù)進(jìn)行融合,比如機器同傳、語(yǔ)音交互,未來(lái)的產(chǎn)品將會(huì )是技術(shù)與技術(shù)的組合,產(chǎn)品與產(chǎn)品的組合。

  對如何做出一款好的語(yǔ)音交互產(chǎn)品,陳偉認為首先是要重視場(chǎng)景和知識。只有技術(shù)(ASR、NLU等)與具體應用場(chǎng)景比如車(chē)載、智能家具、可穿設備結合在一起,才能得到穩定的產(chǎn)品。另外,僅僅有技術(shù)是不夠的,還需要技術(shù)創(chuàng )新。在得到良好的使用體驗之后用戶(hù)基數會(huì )擴大,帶來(lái)更多數據,這些累積的數據也是推動(dòng)技術(shù)提升的關(guān)鍵。只有有了產(chǎn)品的迭代、有了真實(shí)的數據才能更好的分析出用戶(hù)需求,更好的推動(dòng)產(chǎn)品發(fā)展。

  他表示,技術(shù)與產(chǎn)品缺一不可。

  “語(yǔ)音交互以技術(shù)為驅動(dòng),加之好的運算力帶來(lái)大量數據,以此進(jìn)行迭代,不斷通過(guò)技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品。”

  思必馳CMO——龍夢(mèng)竹

  “目前的語(yǔ)音產(chǎn)品識別率再高,也只是作為一個(gè)參考。”

  龍夢(mèng)竹提到,在識別率的數字背后,諸如降噪、遠場(chǎng)、回聲消除及聲源定位等也需要關(guān)注。

  那這幾個(gè)詞在整個(gè)語(yǔ)音技術(shù)里面有什么作用呢?

  其可以影響識別率和準確性以及是判斷語(yǔ)音交互產(chǎn)品是否實(shí)用的重要方向。

  目前,各個(gè)公司做的都是端到端的,非配合的私人交互系統,在這整個(gè)系統里基本分為三個(gè)層面:從感知、到認知、到抽象思維的智能。

  首先從感知的方向,要保障機器能夠聽(tīng)得清,在克服環(huán)境、降噪的方面有很大挑戰的。以思必馳為例,其依靠強大的數據庫,已經(jīng)把錯詞率降低到了7.19%,比業(yè)界普遍的10%有了非常大的效率提升。

  另外,聽(tīng)清以后需要讓機器快速反應。常常會(huì )有客戶(hù)好奇“你們的產(chǎn)品是本地還是云端?”實(shí)際上,現在業(yè)界包括思必馳所做的都是本地+云端,一些簡(jiǎn)單的喚醒詞、指令可能會(huì )放在本地。思必馳目前的本地識別指令最高支持三千條,當然,最高支持數目和產(chǎn)品的硬件配置、系統是相關(guān)的。而更多的需要交流的,需要機器思考的部分放到云端。

  最后,機器能夠聽(tīng)清并且能夠快速反應了,反應出來(lái)的效果如何?這個(gè)效果用專(zhuān)業(yè)術(shù)語(yǔ)可以稱(chēng)為T(mén)TS,TTS的優(yōu)劣很大程度會(huì )決定產(chǎn)品體驗的優(yōu)劣。許多人理解的TTS可能是明星的合成音,而這些合成音不能適用于所有場(chǎng)景。

  目前業(yè)界提出的97%、98%、99%的識別率這只是單獨針對語(yǔ)音識別而言,在不同的領(lǐng)域、場(chǎng)景下,針對不同業(yè)務(wù)方向的語(yǔ)音識別和語(yǔ)意理解其實(shí)是有層次不齊的,這個(gè)圖顯示了在家庭和車(chē)載環(huán)境下不同的準確率。

  龍夢(mèng)竹談到,無(wú)論在哪個(gè)領(lǐng)域做語(yǔ)音交互技術(shù),都必須要滿(mǎn)足幾個(gè)要求:

  第一要滿(mǎn)足用戶(hù)剛需;

  第二不一定是高頻使用,但在某一場(chǎng)景能讓用戶(hù)形成依賴(lài)性;

  第三,語(yǔ)音技術(shù)背后一定要有第三方的內容和服務(wù)作支持,因為它只是一種交互手段;

  “我們一再強調的是,語(yǔ)音只是一個(gè)交互的手段,而不是一種功能。”現在的語(yǔ)音還沒(méi)有達到全國人民普及的程度,但未來(lái)一定會(huì )實(shí)現。而這一手段,其背后第三方的內容和服務(wù)是比語(yǔ)音本身更重要的東西。

  最后,交互體驗一定要好。



關(guān)鍵詞: 語(yǔ)音識別 科大訊飛

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>