人工智能與語(yǔ)音識別技術(shù)
摘要:隨著(zhù)深度神經(jīng)網(wǎng)絡(luò )在大規模語(yǔ)音識別任務(wù)上獲得顯著(zhù)效果提升,大數據的不斷完善和漣漪效應的提出,在近十年,中國的人工智能也得到了快速發(fā)展。作為國內智能語(yǔ)音與人工智能產(chǎn)業(yè)領(lǐng)導者的科大訊飛率先將遞歸神經(jīng)網(wǎng)絡(luò )和卷積神經(jīng)網(wǎng)絡(luò )應用到真實(shí)在線(xiàn)系統中,并提出了全新的深度神經(jīng)網(wǎng)絡(luò )結構FSMN——訊飛構型。
本文引用地址:http://dyxdggzs.com/article/201603/288901.htm人工智能的三個(gè)層面
2014年8月20日,在國家會(huì )議中心,科大訊飛宣布其人工智能的整體戰略——訊飛超腦計劃,正式成立??拼笥嶏w超腦計劃的首次發(fā)布時(shí),科大訊飛就對人工智能做了一個(gè)清晰的分割和鑒定,它把人工智能劃分成三個(gè)層面。第一個(gè)層面是運算智能,讓機器具備了能存會(huì )算的能力;第二個(gè)層面是感知智能,讓機器能聽(tīng)會(huì )說(shuō)能看會(huì )認;但是最有挑戰性的,也是我們人區別于動(dòng)物的最大的能力,就是我們的認知智能。即認識和知道,能理解會(huì )思考,這樣一個(gè)能力。
人工智能發(fā)展三要素——深度神經(jīng)網(wǎng)絡(luò )、大數據和漣漪效應當
世界因為人工智能而改變的時(shí)候,我們開(kāi)始思考為什么人工智能可以在過(guò)去的十年取得如此大的進(jìn)步。胡郁先生認為,其實(shí),雖然在整個(gè)學(xué)術(shù)界眾說(shuō)紛紜,但是慢慢的大家越來(lái)越趨向于三個(gè)關(guān)鍵的因素。即,深度神經(jīng)網(wǎng)絡(luò )、大數據和漣漪效應。
深度神經(jīng)網(wǎng)絡(luò )其實(shí)只是統計模式識別的一個(gè)很小的分支。但是它卻和我們現在大的IT產(chǎn)業(yè)的發(fā)展背景很好地結合在一起。因為現在統計模式識別辦法想要發(fā)揮出人工智能的威力,就要有深度神經(jīng)網(wǎng)絡(luò )能夠更好的使用以及互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代得到越來(lái)越多的大數據為大基礎。
漣漪效應是科大訊飛提出的,是指互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),把每個(gè)用戶(hù)的經(jīng)驗和知識數據加入到我們核心技術(shù)研發(fā)過(guò)程中來(lái)的一種效應。像是一個(gè)水滴滴到水面的時(shí)候,這個(gè)水面相當于所有的用戶(hù)人群,而這個(gè)水滴所激發(fā)起來(lái)的這個(gè)漣漪,其實(shí)是這個(gè)核心技術(shù)一開(kāi)始的效果。一開(kāi)始水滴滴入水面振幅會(huì )很大,說(shuō)明它的效果并不好。就像大家今天看到科大訊飛的語(yǔ)音識別系統已經(jīng)非常準確,但是在2010年科大訊飛第一次發(fā)布會(huì )發(fā)布其語(yǔ)音輸入法的時(shí)候,識別率慘不忍睹。在實(shí)驗室里面90%的正確率的識別系統放到真實(shí)環(huán)境下一用,正確率只有55%。但是只要這個(gè)系統在上線(xiàn)運行中,就會(huì )不斷地有用戶(hù),他們會(huì )不斷的貢獻數據,從而為科大訊飛系統不斷改進(jìn)提供助力。當這個(gè)水波紋擴散出去的時(shí)候,有更多人用的時(shí)候,系統已經(jīng)是改進(jìn)過(guò)以后的系統。當這個(gè)水波紋已經(jīng)能覆蓋1000萬(wàn)人,系統改進(jìn)了以后,當一千萬(wàn)零一個(gè)人來(lái)使用這個(gè)系統的時(shí)候,對他來(lái)講是第一次,他會(huì )覺(jué)得:哇!怎么這么好。 有了這三點(diǎn)我們繼續可以在語(yǔ)音和圖像的道路上持續的尋找下去。
科大訊飛的發(fā)展歷程
發(fā)布會(huì )上,胡郁先生為我們展示了科大訊飛在人工神經(jīng)網(wǎng)絡(luò )方面的發(fā)展。其實(shí)真正將神經(jīng)網(wǎng)絡(luò )應用在語(yǔ)音識別和圖像識別方面并取得成功應該是在2010年的7月份。而在2011年9月份,科大訊飛的研究人員在中國科學(xué)技術(shù)大學(xué),就跟鄧力研究員進(jìn)行了探討。在2011年的年底,科大訊飛就將深度神經(jīng)網(wǎng)絡(luò )用于語(yǔ)音識別上,用于中文語(yǔ)音識別上第一個(gè)系統上線(xiàn)使用。在2012年4月份,在日本召開(kāi)的,由微軟研究院的移動(dòng)研究院做的報告中,將谷歌、微軟和訊飛,列為當時(shí)世界上,最先將深度神經(jīng)網(wǎng)絡(luò )推薦使用的幾個(gè)公司和研究機構。此后,他們在2012年將深度神經(jīng)網(wǎng)絡(luò )用于參數語(yǔ)音合成。利用了深度神經(jīng)網(wǎng)絡(luò )的參數語(yǔ)音合成系統,比我們原來(lái)使用的也是當時(shí)世界上最先進(jìn)的,基于隱馬爾可夫模型的語(yǔ)音合成系統效果提升30%?,F在已經(jīng)成為整個(gè)業(yè)界的標配。而在2013年,科大訊飛在語(yǔ)種識別方面,第一次提出了一種新型構型的深度神經(jīng)網(wǎng)絡(luò )的構型。他們將當時(shí)的語(yǔ)種識別技術(shù),在nist測試的最先進(jìn)的系統的基礎上,又提高了30%?,F在也是整個(gè)業(yè)界標準的語(yǔ)種識別構型系統。2014年科大訊飛超腦技術(shù)發(fā)布,在超腦計劃里面他們又將深度神經(jīng)網(wǎng)絡(luò )應用在更多方面。進(jìn)入2015年后,我們看到了越來(lái)越多的成果。
科大訊飛的最新進(jìn)展——不一樣的遞歸神經(jīng)網(wǎng)絡(luò )和卷積神經(jīng)網(wǎng)絡(luò )卷積神經(jīng)網(wǎng)絡(luò )
我們聽(tīng)了很長(cháng)一段聲音之后,就能夠記憶起原來(lái)的東西,這是人腦的一個(gè)非常特別的功能叫做記憶能力。人腦的這個(gè)記憶能力非常特別,它包括瞬時(shí)記憶、短時(shí)記憶和長(cháng)時(shí)記憶。深度神經(jīng)網(wǎng)絡(luò )能夠比較好地模仿人類(lèi)的大腦,但是深度神經(jīng)網(wǎng)絡(luò )對于短時(shí)記憶的處理其實(shí)比較弱。最近國際上有一個(gè)新的名詞叫做RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò )),也是我們講的回歸神經(jīng)網(wǎng)絡(luò )或遞歸神經(jīng)網(wǎng)絡(luò )。那么它相對傳統神經(jīng)網(wǎng)絡(luò )的唯一改進(jìn)就是他可以用前一個(gè)時(shí)刻的信息輸入到當前時(shí)刻,進(jìn)而把原來(lái)的一些歷史信息能夠輸入到當前來(lái)提高它的記憶能力。
一個(gè)真正的回歸神經(jīng)網(wǎng)絡(luò )里面的工作系統是非常復雜的。它可能包括LSTM。這是一個(gè)長(cháng)短時(shí)記憶系統,它里面還包括一個(gè)雙向語(yǔ)音識別系統。這個(gè)回歸神經(jīng)網(wǎng)絡(luò ),它會(huì )從正向識別一遍,還會(huì )從反向識別一遍。而如果想要得到更好的效果,他還需要加一個(gè)叫做CTC(Connectionist Temporal Classification)的系統。那么這個(gè)ctc的系統,可以保證在整個(gè)句子層面上的成功率是最高的。其實(shí)在這過(guò)程中我們會(huì )遇到很多的難題,比如說(shuō)這些疊加起來(lái),它的效果可能不是那么好。第二個(gè)是,如果我們剛才要利用未來(lái)的信息來(lái)識別的話(huà),它的響應時(shí)間會(huì )受到影響。更加重要的是,它是這么復雜的一個(gè)網(wǎng)絡(luò ),如果你要去訓練它,例如,訓練1萬(wàn)小時(shí)可能要一個(gè)星期。沒(méi)有人能夠忍受得了這種訓練時(shí)間。
對此,科大訊飛提出了自己的構型——FSMN(Feed-forward Sequential Memory Network,前饋型序列記憶網(wǎng)絡(luò )),即前饋序列記憶網(wǎng)絡(luò )。利用這種神經(jīng)網(wǎng)絡(luò ),可以很好地有效地處理剛才碰到的各種問(wèn)題。它可以把剛才的幾個(gè)優(yōu)點(diǎn)綜合在一起,它可以非常好的縮短響應時(shí)間,它還可以非常好的提升我們的訓練效果?,F在我們1萬(wàn)小時(shí)從原來(lái)的一個(gè)星期現在已經(jīng)縮短到了一天。
卷積網(wǎng)絡(luò )是仿照人類(lèi)視覺(jué)機理,借鑒人類(lèi)在大腦上處理的一些優(yōu)勢,形成一個(gè)自下而上逐步細化,從逐步地處理一些線(xiàn)條,局部輪廓到最后整個(gè)人臉。這樣的系統很好地仿照了人類(lèi)大腦里面的結構。但是僅有這些還是遠遠不夠的,它在分析文字的時(shí)候還是會(huì )有一定誤差,處理圖像的時(shí)候,也略顯模糊。
現在科大訊飛的卷積神經(jīng)網(wǎng)絡(luò )將整個(gè)圖片處理、版面分析、文字分割和最后的處理完全集中在一起。它綜合性地使用了卷積神經(jīng)網(wǎng)絡(luò ),延遲性神經(jīng)網(wǎng)絡(luò )和我們的HMM的系統。當把這些系統綜合在一起的時(shí)候,能夠更好地分析圖文任務(wù)的一些具體的情況,這將使我們得到一個(gè)最好的效果。
Neural Thinking Machine技術(shù)框架
利用深度神經(jīng)網(wǎng)絡(luò )可以把語(yǔ)音識別和圖像識別都提升到一個(gè)非常高的層次,但是人類(lèi)最重要的是認知。
人腦的大腦皮層是人區別于動(dòng)物最顯著(zhù)的一個(gè)腦結構變化,如果把人類(lèi)的大腦皮層完全攤開(kāi)的話(huà),大概相當于一個(gè)桌布那么大。但是科學(xué)家研究表明這個(gè)桌布上的不同區域的功能是完全不一樣的。中間有一部分是專(zhuān)門(mén)管視覺(jué)的,它會(huì )把你臉的各個(gè)細節處理的非常好。還有一部分是管聽(tīng)覺(jué)的,還有一部分是用來(lái)管觸覺(jué)的。但是這些在感知層面上的各種信息都會(huì )匯聚到認知層面。就是概念語(yǔ)言與概念表達和理解。
當我們看到一只貓臉的時(shí)候,其實(shí)我們馬上腦袋里面就會(huì )形成一個(gè)貓的概念,這個(gè)時(shí)候我們腦袋里面會(huì )同時(shí)知道貓的叫聲,我們知道摸貓會(huì )是一種什么樣的感覺(jué)。多種不同感知內容最后會(huì )匯聚到我們的認知層面上。根據這種啟發(fā),科大訊飛在訊飛超腦里面建立了感知和認知的綜合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它們分別會(huì )主管看到的東西、閱讀和聽(tīng)覺(jué)。當這些東西感知到很多的信息以后,它會(huì )被送到上面的一個(gè)叫做Neural Thinking Machine的地方,在這個(gè)地方所有概念會(huì )進(jìn)行匯聚,這些概念會(huì )進(jìn)行推理,得出結論,從而幫助我們進(jìn)行決策。而決策以后的結果會(huì )通過(guò)一個(gè)叫做Neural Experssing Machine的結果返回來(lái)。從而形成整個(gè)的,包括交互,包括人類(lèi)所有智能問(wèn)題的完整閉環(huán)。其實(shí)Neural Thinking Machine是科大訊飛認知的實(shí)現核心。在這個(gè)核心實(shí)現過(guò)程中,它主要實(shí)現包括我們講的語(yǔ)言的理解、知識的表達、邏輯的推理和最后的決策功能。為了實(shí)現這樣一個(gè)系統,我們整個(gè)Neural Thinking Machine技術(shù)框架被定義成,在自然語(yǔ)言表述下的語(yǔ)言理解與生成以及知識表達與推理。(注:本文改編自2015年12月科大訊飛年度發(fā)布會(huì )的講話(huà))
本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2016年第3期第23頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論