<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 設計應用 > 語(yǔ)音識別系統中增加圖像識別技術(shù)的設計

語(yǔ)音識別系統中增加圖像識別技術(shù)的設計

作者: 時(shí)間:2007-03-09 來(lái)源:網(wǎng)絡(luò ) 收藏
摘要:采用機器視覺(jué)對語(yǔ)音對象進(jìn)行跟蹤,利用說(shuō)話(huà)人正常發(fā)音時(shí),嘴部的開(kāi)合狀況提取語(yǔ)速信息,實(shí)時(shí)調整語(yǔ)音識別的工作速度,匹配語(yǔ)音韻律,將有效提高語(yǔ)音識別準確性。討論了系統的設計原理和實(shí)現技術(shù),著(zhù)重介紹了對應輔助圖像識別的設計分析。 關(guān)鍵詞:語(yǔ)音識別 機器視覺(jué) 圖像識別 語(yǔ)音識別是機器自動(dòng)語(yǔ)音識別(automatic speech recognition by machine)的簡(jiǎn)稱(chēng)。 語(yǔ)音識別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域中的研究成果都對語(yǔ)音識別的發(fā)展作出了貢獻。讓機器識別語(yǔ)音的困難在某種程度上就像一個(gè)外語(yǔ)不好的人聽(tīng)外圍人講話(huà)一樣,它與說(shuō)話(huà)人、說(shuō)話(huà)速度、說(shuō)話(huà)內容、環(huán)境條件有關(guān)。語(yǔ)音信號本身的特點(diǎn)造成了語(yǔ)音識別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續性等。 計算機語(yǔ)音識別的過(guò)程與人對語(yǔ)音識別處理過(guò)程基本上是一致的。目前主流的語(yǔ)音識別技術(shù)是基于統計模式識別的基本理論。一個(gè)完整的語(yǔ)音識別系統可大致分為三部分: (1)語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。 (2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習算法產(chǎn)生。在識別時(shí)將輸入的語(yǔ)音特征與聲學(xué)模型(模式)進(jìn)行匹配、比較,得到最佳的識別結果。 (3)語(yǔ)言模型與語(yǔ)言處理:語(yǔ)言模型包括由識別語(yǔ)音命令構成的語(yǔ)法網(wǎng)絡(luò )或由統計方法構成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對小詞表語(yǔ)音識別系統,通常不需要語(yǔ)言處理部分。聲學(xué)模型是識別系統的底層模型,并且是語(yǔ)音識別系統中最關(guān)系的一部分。聲學(xué)模型的目的是提供一種有效的方法,計算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設計與語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音字模型或音素模型)對語(yǔ)音訓練數據量大小、系統識別率以及靈活性有較大的影響。必須根據不同的語(yǔ)言的特點(diǎn)、識別系統詞匯量的大小決定識別單元的大小。 語(yǔ)言模型對中、大詞匯量的語(yǔ)音識別系統特別重要。當分類(lèi)發(fā)生錯誤時(shí)可以根據語(yǔ)言學(xué)模型、語(yǔ)法結構、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結構才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結構、語(yǔ)法規則、語(yǔ)言的數學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統計語(yǔ)法的語(yǔ)言模型與基于規則語(yǔ)法結構命令的語(yǔ)言模型。語(yǔ)法結構可以限定不同詞之間的相互連接關(guān)系,減少了識別系統的搜索空間,這有利于提高系統的識別。 語(yǔ)音識別過(guò)程實(shí)際上是一種認識過(guò)程。就像人們聽(tīng)語(yǔ)音時(shí),并不把語(yǔ)音和語(yǔ)言的語(yǔ)法結構、語(yǔ)義結構分開(kāi)。因為當語(yǔ)音發(fā)音模糊時(shí)人們可以用這些和知識來(lái)指導對語(yǔ)言的理解過(guò)程,但是對機器來(lái)說(shuō),識別系統也要利用這些知識,只是如何有效地描述這些語(yǔ)法和語(yǔ)義還有困難: (1)小詞匯量語(yǔ)音識別系統:包括幾十個(gè)詞的語(yǔ)音識別系統。 (2)中等詞匯量的語(yǔ)音識別系統:通常包括幾百個(gè)詞至上千個(gè)詞的識別系統。 (3)大詞匯量語(yǔ)音識別系統:通常包括幾千至幾萬(wàn)個(gè)詞的語(yǔ)音識別系統。 這些不同的限制也確定了語(yǔ)音識別系統的困難度。由于有了種種困難,語(yǔ)音識別技術(shù)通常根據使用中的限制性要求,構建成不同類(lèi)型的系統,通常包括三類(lèi)。其一為限制用戶(hù)的說(shuō)話(huà)方式,這又可以分為孤立詞語(yǔ)音識別系統(isolate-word speech recognition system)、連接詞語(yǔ)音識別系統(connected-words speech recognition system)、連續語(yǔ)音識別系統(continue speech recopnition system)和即興口語(yǔ)語(yǔ)音識別系統(spontaneous speech recognition system)。其二為限制用戶(hù)的用詞范圍。第三種為限制系統的用戶(hù)對象。 1 增加圖像識別設計的目的 如今的語(yǔ)音識別技術(shù)正在逐漸成熟,許多語(yǔ)音識別技術(shù)都已經(jīng)能夠達到很高的識別率了,不過(guò)當識別率到了一定的程度后,再提高就很困難,此時(shí)需要采用其他技術(shù)來(lái)協(xié)助語(yǔ)音的識別。 目前的語(yǔ)音識別系統由于采用單一傳感器(聲音傳感器)進(jìn)行工作,在進(jìn)行語(yǔ)音識別時(shí),不可能對捕獲的語(yǔ)音信息進(jìn)行細分,只能采用定速率跟蹤識別,將語(yǔ)音信息與系統庫中的模板進(jìn)行匹配判斷。如果捕獲信息的速率與存儲在系統庫中的模板相關(guān)不多,則能正常工作,否則將會(huì )出現誤判。然而現實(shí)生活中,人們說(shuō)話(huà)不可能總保持相同的速率,而是不斷變化的,這勢必造成了語(yǔ)音識別系統的誤差增多,以致降低語(yǔ)音識別系統的實(shí)用性。 人們在進(jìn)行語(yǔ)音交流時(shí),在捕獲語(yǔ)音信息的同時(shí),也在獲取其他的信息以幫助理解,例如表情、神態(tài)等信息。如果得不到相關(guān)信息,人們相互之間也會(huì )產(chǎn)生誤解,例如當兩個(gè)人在相隔較遠距離時(shí),由于不能清楚對方的表情、神態(tài),經(jīng)常會(huì )出現理解錯誤的情況發(fā)生??梢?jiàn)使用單一的信息渠道的確會(huì )增加理解難度,因此有必要考慮增加信息渠道來(lái)解決這個(gè)問(wèn)題。這就是增加圖像識別功能的原因。 對于語(yǔ)音識別系統,如果能像人一樣判斷語(yǔ)言對象的喜、怒、哀、樂(lè ),當然是最好的,但這勢必大大增加圖像識別的工作量,甚至超過(guò)語(yǔ)音識別的成本,不太合理。并且,由于技術(shù)的原因,還不能使機器有像人一樣的視覺(jué)能力,要讓機器能夠準確識別出人的各種表情還達不到,所以此種方案是不可取的。進(jìn)一步分析知道,語(yǔ)音識別系統受語(yǔ)速的影響是很大的。人在正常講話(huà)時(shí),嘴的開(kāi)合狀態(tài)都是大同小異的,如果讓機器只對嘴的開(kāi)合兩種情況進(jìn)行判斷和實(shí)時(shí)跟蹤,得出講話(huà)人的語(yǔ)速信息,是能夠做到的。所以?xún)H僅需要機器識別出人說(shuō)話(huà)的速度,以此來(lái)調整語(yǔ)音識別的匹配速度,從而適合語(yǔ)音韻律,自然有利于系統的語(yǔ)音識別能力,提高識別的準確性。通過(guò)語(yǔ)速對語(yǔ)音識別系統的幫助,將為語(yǔ)音系統提供另一條實(shí)用的信息渠道。采用語(yǔ)速作為系統的第二信息渠道,一旦系統跟蹤到了目標的語(yǔ)還,在協(xié)助語(yǔ)音識別的同時(shí)還能夠有效地排除與語(yǔ)音信息不同步的外界噪聲,因此系統能夠獲得更好的識別性能。 2 實(shí)現的技術(shù)及方法 2.1 系統總體設計概述 語(yǔ)音系統采集說(shuō)話(huà)人(語(yǔ)言對象)的兩路信息,一路由聲音傳感器取得,一路由攝像設備取得。攝像設備取得人的嘴型變化后,將之轉化為語(yǔ)速信息送到語(yǔ)音識別器與采集到的語(yǔ)音進(jìn)行匹配識別,自動(dòng)調節識別速度,更好地完成語(yǔ)音識別工作。系統的工作流程如圖1。 2.2 輔助圖像識別設計 捕獲語(yǔ)言對象的說(shuō)話(huà)速率是保證整個(gè)系統良好工作的關(guān)鍵。為了實(shí)現此目的,使用基于機器視覺(jué)的人嘴部狀態(tài)檢測方法來(lái)設計。由于對圖像的識別精度要求不高,可以選擇灰度圖像以提高運算速度。在速度允許的情況下,彩色圖像的識別精度會(huì )更高。 2.2.1 流程分析 整個(gè)輔助圖像識別設計的目的就是通過(guò)機器視覺(jué)進(jìn)行圖像采集、圖像處理,提取出說(shuō)話(huà)人的語(yǔ)速信息供語(yǔ)音系統使用。 以灰度圖像為例,其圖像處理過(guò)程如圖2。 對于彩色圖像,特征量會(huì )更多一些,也就更復雜一些,但其基本步驟都是先完成圖像數字化,再進(jìn)行圖像特片提取,最后進(jìn)行圖像識別和理解。 當完成圖像處理后,比較模塊將這一幀圖像與上一幀圖像的數據進(jìn)行對比,判斷出變化,從而統計出語(yǔ)速信息,最后輸出給語(yǔ)音識別器進(jìn)行匹配工作。2.2.2 圖像處理算法設計 (1)圖像分割 經(jīng)過(guò)對人臉RGB像素的分析,發(fā)現人臉圖像中的R、G兩分量符合二維高斯分布。因此,可通過(guò)這兩個(gè)分量確定人臉的位置。在人臉定位的基礎上,根據人的嘴部處于人臉下半部分的特片,比較容易確定出嘴部的大致位置,它為嘴部精確定位提供了基本條件,如圖3所示。 (2)圖像特征的提取 根據系統要求,灰度圖像可以滿(mǎn)足需要,但由于嘴唇與皮膚的灰度差別不大,而且灰度信息更容量受到光照條件、人臉的運動(dòng)和旋轉變化等影響,使人臉圖像中嘴唇區域邊緣不明顯,特別是當嘴唇內部的陰影區域與牙齒交替出現時(shí),嘴唇的邊緣變得更加模糊,所以利用唇色和膚色的灰度及邊緣信息分割不能達到很高的準確度。若要提高對嘴部狀況的識別準確度,可以利用彩色信息來(lái)對人嘴的形狀、位置進(jìn)行確定。 研究發(fā)現,嘴唇的主要顏色特征是唇色相對膚色顏色較紅,而且歸一化RGB顏色對光照、人臉運動(dòng)和旋轉具有不變性。因此利用顏色信息,采用模式分類(lèi)技術(shù)分割嘴唇區域,可以克服灰度圖像本身固有的缺點(diǎn)。由于Fisher線(xiàn)性分類(lèi)器能夠最大限度地分開(kāi)兩類(lèi),且其學(xué)習是離線(xiàn)處理,減少了計算量,因此可采用Fisher線(xiàn)性分類(lèi)器進(jìn)行嘴唇區域分割。 人嘴在說(shuō)話(huà)與正常情況下的外形有明顯的區別。說(shuō)話(huà)時(shí)嘴部張開(kāi)較大,而正常情況下,嘴部基本閉合(圖4)。因此,可以利用這些特征進(jìn)行嘴部狀態(tài)的檢測。研究中發(fā)現,嘴部區域的最大寬度Wmax、最大高度Hmax能夠表征嘴部的張開(kāi)程度,應取為特征值;上嘴唇與下嘴唇之間的高度Hmin在說(shuō)話(huà)不說(shuō)話(huà)時(shí)也有明顯不同,應取為特征值。將以上三個(gè)特征值組成一組向量,即可描述出不同狀態(tài)下的嘴部幾何特片,如圖5所示。 將獲得的能夠描述人的嘴部區域幾何形狀特征參數組成一個(gè)特征向量Zui,即可作為下一步判別分類(lèi)的輸入向量:Zui=(Wmax,Hmax,Hmin)。 在進(jìn)行識別時(shí)只要確定兩個(gè)狀態(tài)“開(kāi)”、“合”即可。在實(shí)際中由于發(fā)音時(shí)不同的語(yǔ)音會(huì )導致嘴的開(kāi)合程度不一,所以對“開(kāi)”(Hmin>0)的區分會(huì )很多種情況,必然會(huì )極大地增加運算存儲量。相對而言,嘴的“閉合”狀態(tài)一般只有一種模式(Hmin=0),因此可以只確定說(shuō)話(huà)人嘴的“閉合”狀態(tài),其他狀態(tài)都判為“開(kāi)”,這樣將方便處理。 (3)圖像識別理解 由于對識別精度要求不高,既可以采用傳統的統計模式識別方法,也可以采用較熱門(mén)的神經(jīng)網(wǎng)絡(luò )識別方法;但由于系統對實(shí)時(shí)要求較高,而神經(jīng)網(wǎng)絡(luò )識別方法運行速度成問(wèn)題,因此不建議采用神經(jīng)網(wǎng)絡(luò )識別方法。 2.3 語(yǔ)速信息的提取 選用合適的捕獲頻率不斷采集說(shuō)話(huà)人的圖像,用當前幀的數據與上一幀數據進(jìn)行比較,根據其變化的頻率就可以推算出語(yǔ)速信息。實(shí)際情況中,所求的語(yǔ)速信息不需要太精確就能夠達到一般要求。3 應用展望 語(yǔ)音識別是一種賦能技術(shù),現有的很多人機交互界面都可能通過(guò)補充語(yǔ)音識別功能而得到改善。語(yǔ)音識別技術(shù)可以把費腦、費力、費時(shí)的機器操作變成一件很容易且有趣味性的事情,在許多“手忙”、“手不能用”、“手所不能及”、“懶得動(dòng)手”的場(chǎng)景中,包括像駕駛室、一些危險的工業(yè)場(chǎng)合、家電控制等方面,高識別率的語(yǔ)音識別系統將會(huì )更加方便人的工作和生活。 由于知識層次和知識領(lǐng)域的差異,現實(shí)生活中有相當一部分人很難享受到現代化生活帶來(lái)的便利,包括信息服務(wù)和其他各類(lèi)先進(jìn)設備可提供的幫助。高識別率語(yǔ)音識別技術(shù)有助于改善這種情況,使社會(huì )各個(gè)階層更多的人享受到更多的社會(huì )信息資源和現代化服務(wù),提高整個(gè)社會(huì )的信息化程度和現代化速度。 高識別率語(yǔ)音識別技術(shù)還將推出機器人智能技術(shù)的發(fā)展,由于機器人本來(lái)就要配置視覺(jué)系統,本方案很容易實(shí)現,提高了人與機器交互的能力。另外高識別率語(yǔ)音識別技術(shù)在語(yǔ)音錄入系統、會(huì )議實(shí)時(shí)記錄及同聲翻譯、記者采訪(fǎng)設備等方向有著(zhù)廣闊的應用前景。

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>