<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 消費電子 > 業(yè)界動(dòng)態(tài) > 人工智能助力科大訊飛語(yǔ)音轉寫(xiě)技術(shù)新突破

人工智能助力科大訊飛語(yǔ)音轉寫(xiě)技術(shù)新突破

作者: 時(shí)間:2016-02-05 來(lái)源:電子產(chǎn)品世界 收藏

  近年來(lái),隨著(zhù)“”逐漸成為新時(shí)代科技發(fā)展的方向,整個(gè)語(yǔ)音行業(yè)也迅速成長(cháng)。其中,尤以聽(tīng)寫(xiě)技術(shù)發(fā)展最為迅速,目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應用并日臻成熟。

本文引用地址:http://dyxdggzs.com/article/201602/286780.htm

  但語(yǔ)音技術(shù)并不因此止步,聽(tīng)寫(xiě)技術(shù)解決的是人機對話(huà)問(wèn)題,更多適用于朗讀式風(fēng)格說(shuō)話(huà)這類(lèi)很工整的語(yǔ)音,專(zhuān)為識別而生。而現實(shí)的場(chǎng)景卻復雜得多——會(huì )議、采訪(fǎng)、演講、交談等自然場(chǎng)景下的語(yǔ)音第一目的并非為了轉寫(xiě),因此不僅在質(zhì)量上有先天缺陷,而且是不注重發(fā)音、語(yǔ)速、環(huán)境等影響因素的隨意性非工整語(yǔ)音,對機器的敏感度是極大的挑戰。這就需要在音頻的轉寫(xiě)技術(shù)方面有所突破,就主流技術(shù)趨勢而言,解決會(huì )話(huà)風(fēng)格和錄音質(zhì)量?jì)蓚€(gè)問(wèn)題就成為技術(shù)突破的核心要求。

  國內語(yǔ)音產(chǎn)業(yè)龍頭在語(yǔ)音領(lǐng)域深耕多年,而日前年度發(fā)布會(huì )上亮相的最新成果恰恰包括語(yǔ)音轉寫(xiě)方面的技術(shù)突破,讓人喜出望外。

  兩大技術(shù)雙劍合璧 突圍人人對話(huà)

  解決人人對話(huà)轉寫(xiě)問(wèn)題的難點(diǎn)在于其場(chǎng)景的復雜性與影響因素的多樣性,不僅需要海量的人人交談數據,更核心的是需要在海量數據基礎上進(jìn)行建模。為突破這一技術(shù)難點(diǎn),經(jīng)過(guò)潛心研究,訊飛獨家推出兩大技術(shù)——篇章級處理技術(shù)和口語(yǔ)風(fēng)格處理技術(shù)。

  通過(guò)聲學(xué)模型建模技術(shù)和語(yǔ)言模型建模技術(shù)的創(chuàng )新提高了通用場(chǎng)景的識別率,在此基礎上利用篇章級處理技術(shù)(包括AM自適應、LM自適應、領(lǐng)域LM、語(yǔ)義LM等),使雜亂無(wú)章的數據變得有跡可循。值得一提的是,在提高通用識別率方面,訊飛掌握了近一兩年才成功應用于語(yǔ)音識別中的最新的雙向RNN技術(shù)和當下比較火的CTC建模技術(shù),使得識別率比DNN技術(shù)和雙向RNN技術(shù)分別相對提升了25%和10%。目前,說(shuō)話(huà)人自適應技術(shù)已申請專(zhuān)利。

  針對人人對話(huà)場(chǎng)景中出現的口語(yǔ)詞、猶豫詞、重復等情況,通過(guò)口語(yǔ)風(fēng)格處理技術(shù),讓機器自動(dòng)學(xué)習重復、會(huì )跳弧,解決口語(yǔ)場(chǎng)景下的識別問(wèn)題。

  混響技術(shù)新突破 成就高品質(zhì)識別

  混響降噪一直是語(yǔ)音轉寫(xiě)的一大難點(diǎn)。對于為了聽(tīng)感而錄制的有損失的語(yǔ)音,訊飛綜合利用DNN加混響技術(shù)和DNN去混響技術(shù),解決遠場(chǎng)錄音的混響問(wèn)題。所謂加混響,即在近場(chǎng)的清晰數據基礎上加上混響,仿造混響數據,形成遠場(chǎng)語(yǔ)音,再對機器進(jìn)行混合訓練,使模型的魯棒性更好。降噪的方式類(lèi)似。

  而如何從源頭上解決混響和降噪似乎才是問(wèn)題的關(guān)鍵,訊飛獨辟蹊徑,將技術(shù)創(chuàng )新與專(zhuān)為轉寫(xiě)而設計的硬件設備結合來(lái)解決這一問(wèn)題。在智能錄音設備上加上多麥克陣列,利用陣列解混響技術(shù)去混響。再與單麥克解混響技術(shù)結合,進(jìn)一步提高遠場(chǎng)環(huán)境下的識別率。目前,運用單麥克解混響技術(shù)識別率可達到90%以上。

  文本摘要技術(shù)嶄露頭角

  解決了人人對話(huà)場(chǎng)景的轉寫(xiě)問(wèn)題,大潮下,語(yǔ)音技術(shù)的下一步必然是繼續在更智能的方向朝前邁進(jìn)——文本摘要技術(shù)成為可預見(jiàn)的迫切需求。摘要本質(zhì)上是一種高層的語(yǔ)義理解,不僅國內尚屬空白,國際范圍內也鮮有成果。訊飛目前正在做的是先對文本進(jìn)行預處理,包括異常檢測、標點(diǎn)預測、內容順滑等,過(guò)濾掉識別錯誤、重復詞、預期詞,再通過(guò)Encoder-Decoder框架解決自動(dòng)摘要問(wèn)題,現已獲得專(zhuān)利,有望在明年投入使用。

  技術(shù)的進(jìn)步終將落腳于功能和產(chǎn)品,從而服務(wù)人們的工作生活。目前,語(yǔ)音轉寫(xiě)技術(shù)的最新發(fā)展成果已應用于科大訊飛旗下的音頻轉文字服務(wù)平臺——訊飛聽(tīng)見(jiàn)(www.iflyrec.com/)、手機APP錄音寶、訊飛聽(tīng)見(jiàn)錄音筆等產(chǎn)品上,涵蓋了多種終端,成為發(fā)展的重要推力。同時(shí),隨著(zhù)移動(dòng)互聯(lián)網(wǎng)、智能硬件浪潮的到來(lái),科大訊飛整合了各技術(shù)領(lǐng)域多年的研究成果,構建了全球首個(gè)智能人機交互平臺——“訊飛開(kāi)放平臺”:將以語(yǔ)音交互為核心的人工智能技術(shù)開(kāi)放給業(yè)界開(kāi)發(fā)者。未來(lái),通過(guò)科大訊飛的技術(shù)開(kāi)放,將有更多類(lèi)似“訊飛聽(tīng)見(jiàn)”的人工智能落地化產(chǎn)品能夠快速實(shí)現。



關(guān)鍵詞: 人工智能 科大訊飛

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>