便宜芯片與簡(jiǎn)單AI,Google 打造拋棄式語(yǔ)音識別產(chǎn)品
Google工程師PeteWarden在英國ARM研究高峰論壇表示,他希望打造超便宜的語(yǔ)音識別產(chǎn)品,搭載只要50美分的超低價(jià)芯片,一個(gè)硬幣大小的電池,足以維持一年的電力,再搭配簡(jiǎn)單的人工智能算法,就可以讓語(yǔ)音識別產(chǎn)品快速普及。
本文引用地址:http://dyxdggzs.com/article/201709/364928.htm麻省理工科技評論(MITTechnologyReview)報導,這種超便宜的語(yǔ)音識別芯片可用來(lái)生產(chǎn)便宜的對話(huà)玩偶,或是簡(jiǎn)單的家用電器,如可被語(yǔ)音驅動(dòng)的燈。在工業(yè)環(huán)境應用,這種芯片可辨識不尋常的聲響,或是農田里的蟋蟀。
Warden為Google的云端人工智能工具開(kāi)發(fā)行動(dòng)和嵌入式應用,稱(chēng)為T(mén)ensorFlow,他在開(kāi)發(fā)過(guò)程中發(fā)現亞馬遜的AI助手Alexa透過(guò)電池供電的簡(jiǎn)單芯片運作,頻率只有幾百兆赫是不夠的,原因是Alexa必須辨識許多不同的聲音,而且因為大多數語(yǔ)音識別AI工具使用的神經(jīng)網(wǎng)絡(luò )資源匱乏,這就是為什么Alexa必須將處理任務(wù)交給云端的原因。
為改善上述問(wèn)題,Warden限制問(wèn)題的問(wèn)法,譬如只能使用開(kāi)、關(guān)、啟動(dòng)、停止等字眼,并舍棄一般語(yǔ)音識別算法,他拿一個(gè)音頻將其切成短片段,然后計算每個(gè)片段的頻率內容,接著(zhù)一個(gè)接一個(gè)排列每個(gè)頻率圖,以建立一個(gè)頻率內容與時(shí)間的二維圖像,并應用視覺(jué)辨識算法來(lái)辨識單詞的獨特記號。
第一次嘗試分析音頻的1秒鐘片段需要800萬(wàn)次計算,準確度為89%,這可用現代智能手機運作,并且互動(dòng)速度也夠快,這種方式比將運算過(guò)程送到云端更好,但是在低功耗芯片上性能不佳。
后來(lái)開(kāi)發(fā)團隊借鑒一些幫助Android手機辨識短語(yǔ)的算法技巧后,系統只需執行75萬(wàn)次計算,就能達到85%的分析準確率,研究團隊已經(jīng)在TensorFlow網(wǎng)站發(fā)表代碼供他人使用,他們打算應用在類(lèi)似單芯片微控制器Arduino搭載的更小芯片。
但英國劍橋大學(xué)前AI研究員TonyRobinson認為,低成本策略可能可以幫助語(yǔ)音識別產(chǎn)品普及,不過(guò)用戶(hù)不太可能按表操課,大多數人沒(méi)有耐心使用高度限制性的指令,認為功率稍微高一點(diǎn),可以處理更多語(yǔ)言能力的芯片,可能更適合消費者應用。
評論