<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

作者: 時(shí)間:2017-03-30 來(lái)源:雷鋒網(wǎng) 收藏

  Nikko Strom,現任亞馬遜首席科學(xué)家,是 Echo 和 項目的創(chuàng )始成員,在技術(shù)相關(guān)領(lǐng)域有著(zhù)資深的研究及從業(yè)經(jīng)驗:

本文引用地址:http://dyxdggzs.com/article/201703/345967.htm

  ● 1997 年于瑞典皇家理工學(xué)院語(yǔ)音通信實(shí)驗室獲得博士學(xué)位,后擔任MIT計算機科學(xué)實(shí)驗室研究員;

  ● 2000 年加入語(yǔ)音技術(shù)初創(chuàng )公司 Tellme Networks;

  ● 2007 年隨著(zhù) Tellme Networks 被微軟收購,加入微軟,推進(jìn)商業(yè)技術(shù)的前沿研究;

  ● 2011 年加入亞馬遜,擔任首席科學(xué)家,領(lǐng)導及相關(guān)領(lǐng)域的深度學(xué)習項目。

  以下是 Nikko Strom 在本次大會(huì )上的演講。

  先簡(jiǎn)單介紹下我們的產(chǎn)品。如果你買(mǎi)了 Amazon Echo,意味著(zhù)你可以通過(guò) 語(yǔ)音識別系統控制它,并與它對話(huà),而且不需要拿遙控器。左邊(下圖)是 Holiday Season,是我們新加入的白色Echo和Dot,相信在座應該有很多人比較偏愛(ài)白色的電子產(chǎn)品。

  Echo 還可以與沒(méi)有內置 系統的家電進(jìn)行連接,如燈具、咖啡機、恒溫器等,只需要喚醒Alexa,就可以讓這些家電設備執行一些命令。此外,開(kāi)發(fā)者還可以通過(guò)工具包 Alexa Skills Kit,打造個(gè)性化的功能。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  現如今,Echo已經(jīng)進(jìn)入了數百萬(wàn)用戶(hù)的家中,每天它都在被大量地使用著(zhù),也讓我們得到了無(wú)法想象的數據量。

  深度學(xué)習基礎框架

  事實(shí)上,人耳并非每時(shí)每刻都在搜集語(yǔ)音信息,真正在“聽(tīng)”的時(shí)間大約只占 10%,所以一個(gè)人成長(cháng)到 16歲時(shí),他/她所聽(tīng)到的語(yǔ)音訓練時(shí)間大概有 14016 個(gè)小時(shí)。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  回到 Alexa,我們把數千個(gè)小時(shí)的真實(shí)語(yǔ)音訓練數據存儲到 S3 中,使用 EC2 云上的分布式 GPU 集群來(lái)訓練深度學(xué)習模型。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  訓練模型的過(guò)程中發(fā)現,用 MapReduce 的方法效果并不理想,因為節點(diǎn)之間需要頻繁地保持同步更新,不能再通過(guò)增加更多的節點(diǎn)來(lái)加速運算。也可以這樣理解,就是GPU集群更新模型的計算速度非常之快,每秒都會(huì )更新幾次,每次的更新大約是模型本身的大小。也就是說(shuō),每一個(gè)線(xiàn)程(Worker)都要跟其它線(xiàn)程同步更新幾百兆的量,而這在一秒鐘的時(shí)間里要發(fā)生很多次。所以,MapReduce的方法效果并不是很好。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  我們在 Alexa 里的解決方法就是,使用幾個(gè)逼近算法(Approximations)來(lái)減少更新規模,將其壓縮 3個(gè)量級。這里是我們一篇 2015 年論文里的圖表,可以看到,隨著(zhù)GPU線(xiàn)程的增加,訓練速度加快。到 40 個(gè) GUP 線(xiàn)程時(shí),幾乎成直線(xiàn)上升,然后增速有點(diǎn)放緩。80 GPU 線(xiàn)程對應著(zhù)大約 55 萬(wàn)幀/秒的速度,每一秒的語(yǔ)音大約包含 100 幀,也就是說(shuō)這時(shí)的一秒鐘可以處理大約90分鐘的語(yǔ)音。前面我提到一個(gè)人要花 16 年的時(shí)間來(lái)學(xué)習 1.4 萬(wàn)小時(shí)的語(yǔ)音,而用我們的系統,大約 3 個(gè)小時(shí)就可以學(xué)習完成。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  這就是 Alexa 大致的深度學(xué)習基礎架構。

  聲學(xué)模型

  大家都知道,語(yǔ)音識別系統框架主要包括四大塊:信號處理、聲學(xué)模型、解碼器和后處理。

  

Nikko Strom揭秘語(yǔ)音識別技術(shù):Alexa是怎樣煉成的?

 

  首先我們會(huì )將從麥克風(fēng)收集來(lái)的聲音,進(jìn)行一些信號處理,將語(yǔ)音信號轉化到頻域,從每 10 毫秒的語(yǔ)音中提出一個(gè)特征向量,提供給后面的聲學(xué)模型。聲學(xué)模型負責把音頻分類(lèi)成不同的音素。接下來(lái)就是解碼器,可以得出概率最高一串詞串,最后一步是后處理,就是把單詞組合成容易讀取的文本。

  在這幾個(gè)步驟中,或多或少都會(huì )用到機器學(xué)習和深度學(xué)習的方法。我今天主要講一下聲學(xué)模型的部分。


上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞: Alexa 語(yǔ)音識別

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>