國內外語(yǔ)音識別行業(yè)現狀
3、國內外巨頭布局語(yǔ)音識別的策略差異
本文引用地址:http://dyxdggzs.com/article/201608/295872.htm上面歷數了國內外各個(gè)巨頭陸續建立語(yǔ)音識別引擎的過(guò)程和優(yōu)勢技術(shù),有一點(diǎn)我們還是要特別留意一下:國外巨頭欲進(jìn)入語(yǔ)音識別行業(yè),首先想到的就是收購初創(chuàng )的團隊,這些團隊大都也在5-20人之間,掌握著(zhù)一定的優(yōu)勢技術(shù)。顯然收購一家初創(chuàng )團隊很難滿(mǎn)足其戰略發(fā)展,因此一旦技術(shù)與公司業(yè)務(wù)融合以后,這些巨頭都會(huì )頻繁出手再次收購以補齊短板,逐漸建立起適合自己公司發(fā)展的語(yǔ)音識別優(yōu)勢。
對于技術(shù)相對重要而且技術(shù)點(diǎn)又比較分散的科技型公司,國外巨頭一般不會(huì )采取收購商業(yè)模式公司的那種大手筆來(lái)收購,這也是導致Nuance最終無(wú)人問(wèn)津的重要因素。想想也是,巨頭自然不會(huì )用別人家引擎以免將來(lái)掣肘,何況收購技術(shù)類(lèi)的大型公司無(wú)疑也是給自己找了個(gè)麻煩。
國內的語(yǔ)音識別發(fā)展脈路沒(méi)有那么清晰,剛開(kāi)始各個(gè)巨頭也都是采用專(zhuān)用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來(lái)醒悟過(guò)來(lái),紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒(méi)有啥實(shí)質(zhì)性進(jìn)展。這一點(diǎn)從他們試圖低薪聘請語(yǔ)音識別相關(guān)人才的策略上,也可知道其戰略上沒(méi)什么可發(fā)展的。語(yǔ)音識別行業(yè)屬于聲學(xué)和計算機的交叉技術(shù),本來(lái)培養的人才就很稀缺,而從上述分析可以看出,國內外的技術(shù)源頭實(shí)際上大概集中,無(wú)非就是業(yè)界相關(guān)的研究機構和擁有研發(fā)實(shí)力的巨頭公司。
4、語(yǔ)音識別行業(yè)平衡之下的技術(shù)發(fā)展趨勢
語(yǔ)音識別行業(yè)現在似乎維持著(zhù)最大的平衡,因為國內外各家的引擎識別率都基本在同一個(gè)水平線(xiàn)上,差不多達到了當前語(yǔ)音識別技術(shù)的極限,彼此之間差距不是那么明顯。本來(lái)蘋(píng)果發(fā)布Siri被寄予厚望,這是將語(yǔ)音技術(shù)進(jìn)行大眾推廣的絕佳良機,但是Siri的表現卻與預期相差甚遠。即便國內非?;馃岬奈⑿?,其中又有幾人使用,甚至知道其中的語(yǔ)音識別技術(shù)呢?倒是同樣源自聲學(xué)技術(shù)的微信搖一搖功能非?;馃?。
這個(gè)技術(shù)相對語(yǔ)音識別來(lái)說(shuō),簡(jiǎn)直就是小巫見(jiàn)大巫,但是應用場(chǎng)景契合的很好。因此,傳統的語(yǔ)音識別行業(yè)公司都在謀求轉型發(fā)展,比如Nuance、科大訊飛等,轉型失敗或者技術(shù)儲備不足的,或許將來(lái)就是最早倒下的,而且這幾年也有不少家類(lèi)似公司倒下了。
未來(lái)的語(yǔ)音識別市場(chǎng),預計將會(huì )有越來(lái)越多的公司參與,以后語(yǔ)音識別的性能可能更多的體現在前端技術(shù)和語(yǔ)義理解上。機器要與人自然交流,當然就不能重復手機這套語(yǔ)音對話(huà)規則,必然就要考慮到用戶(hù)說(shuō)話(huà)的環(huán)境、周?chē)h(huán)境的噪音、用戶(hù)發(fā)音不準或者方言等等諸多因素,這就要求前端技術(shù)更加精準的模擬人體結構,仿真出機器人聽(tīng)覺(jué)系統,以實(shí)現解放雙手自由對話(huà)的目的。
另外,機器能不能與人自由的交流,不僅需要機器能將語(yǔ)音轉換成文字,更需要機器從文字中理解說(shuō)話(huà)人的含義,這一方面是基于大樣本的機器學(xué)習需要更進(jìn)一步,另外一方面也需要小樣本的自主學(xué)習,沒(méi)有舉一反三的功能,似乎語(yǔ)義理解也無(wú)法自主適應陌生的環(huán)境。這兩個(gè)新興的技術(shù)領(lǐng)域,或許又會(huì )孕育出幾家獨角獸企業(yè),將真正推動(dòng)語(yǔ)音從識別走向交互的自然體驗,從而向著(zhù)人工智能再次邁進(jìn)一步。
評論