聚焦2016:關(guān)于語(yǔ)音識別、圖像識別及大數據
圖像、語(yǔ)音成為近兩年最熱門(mén)的概念,所謂娛樂(lè )驅動(dòng)市場(chǎng),市場(chǎng)驅動(dòng)技術(shù)發(fā)展。在多元化的互聯(lián)網(wǎng)圈里“好玩”才能紅,而圖像與音像也從過(guò)去的美化處理往更高深的技術(shù)領(lǐng)域前進(jìn),在2016年,智能的語(yǔ)音識別和圖像識別將走進(jìn)普通人的生活中,它們會(huì )有哪些展望和動(dòng)作呢?讓我們所見(jiàn)所聽(tīng)的世界將變得生動(dòng)起來(lái)。
本文引用地址:http://dyxdggzs.com/article/201602/286964.htm
語(yǔ)音識別技術(shù)雖然起源于1952年,但真正進(jìn)入消費市場(chǎng)已經(jīng)是上世紀90年代的事了。目前語(yǔ)音識別有兩大發(fā)展方向,一個(gè)是純機械指令,基于產(chǎn)品定位而設計命令詞組,作為高效的輔助工具存在;一個(gè)是智能化理解語(yǔ)境,與人進(jìn)行互動(dòng)交流,并承擔部分處理工作。后者可能是語(yǔ)音識別未來(lái)的發(fā)展方向,但實(shí)際應用中兩者并不沖突。簡(jiǎn)單精準的機械指令讓工作更為純粹,沒(méi)必要做多余的計算動(dòng)作。而很多智能設備將語(yǔ)音作為“解放雙手”的第三類(lèi)互動(dòng)形態(tài),就需要對人的語(yǔ)境進(jìn)行“理解”,相信很多朋友都玩過(guò)siri、GoogleNow、Cortana,也同時(shí)體驗過(guò)這些語(yǔ)音助手“會(huì )錯意”的賣(mài)萌行為。老羅在去年堅果發(fā)布會(huì )上曾說(shuō)所有語(yǔ)音助手都是“偽”智能,雖然有點(diǎn)以偏概全,但目前語(yǔ)音對語(yǔ)境的識別確實(shí)還不夠智能,遠不如機械指令效率。不過(guò)這些問(wèn)題隨著(zhù)深度學(xué)習等AI領(lǐng)域技術(shù)的崛起將逐漸克服。

圖像識別從以圖搜圖到明星、物體識別,再到場(chǎng)景識別,甚至現在延伸到了視頻領(lǐng)域,給行業(yè)帶來(lái)了太多驚喜?,F在圖片內容的價(jià)值已經(jīng)超越圖片本身,并且建立了從圖片到電商的商業(yè)模式。圖像識別一般針對畫(huà)面中一個(gè)對象做識別,比如大眾熟知的人臉、明星臉等識別技術(shù)已經(jīng)很成熟了,基本識別率達到90%以上。近年、服飾品牌的同款識別和風(fēng)景識別大行其道,為旅游行業(yè)和服飾行業(yè)創(chuàng )造了商機。圖像識別在視頻領(lǐng)域涌現出強大的應用前景,新興起的互動(dòng)視頻技術(shù)video++已經(jīng)實(shí)現視頻中的人臉和服飾同款的識別,基于圖像識別技術(shù)發(fā)展視頻中的商業(yè)場(chǎng)景。另外瞳孔識別的研究已經(jīng)提上日程,不久的將來(lái),科幻片中所見(jiàn)即所得的情景不再是幻想。

評論