了解優(yōu)勢與挑戰 打好“聲紋識別”這張牌
隨著(zhù)科技的發(fā)展,尤其是生物科技的不斷發(fā)展并逐漸廣泛應用,包括人臉、指紋、掌紋、聲紋等生物特征類(lèi)證據已成為公安和司法機關(guān)破案偵查的重要證據之一,在熱播的《人民的名義》中,聲音就成了調查原漢東省檢察院反貪局局長(cháng)陳海車(chē)禍案件的重要線(xiàn)索。
本文引用地址:http://dyxdggzs.com/article/201707/361544.htm
在眾多生物識別技術(shù)中,除了早已使用多年的指紋識別、虹膜識別,近期興起的人臉識別技術(shù)被用于公司打卡、軟件系統登錄、家庭或公共場(chǎng)所的安防等多個(gè)場(chǎng)景,而語(yǔ)音識別技術(shù)的用途更是廣泛,機器人、智能家居產(chǎn)品、無(wú)人車(chē)等等。
隨著(zhù)相關(guān)算法的精進(jìn),以上生物識別技術(shù)的準確率已經(jīng)可以與人類(lèi)相媲美。而在這些識別技術(shù)愈加成熟之時(shí),越來(lái)越多的人將目光放在另外一種生物識別技術(shù)上——聲紋識別。
什么是聲紋識別技術(shù)?
聲紋識別,也稱(chēng)作說(shuō)話(huà)人識別,是一種通過(guò)聲音判別說(shuō)話(huà)人身份的技術(shù)。人在講話(huà)時(shí)使用的發(fā)聲器官舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異,因而聲紋具有唯一性。
根據不同的應用場(chǎng)景,聲紋識別可分為說(shuō)話(huà)人辨識(SpeakerIdentification,SI)和說(shuō)話(huà)人確認(SpeakerVerification,SV)。SI指的是我們有了一段待測的語(yǔ)音,需要將這段語(yǔ)音與我們已知的一個(gè)集合內的一干說(shuō)話(huà)人進(jìn)行比對,選取最匹配的那個(gè)說(shuō)話(huà)人,是一個(gè)1對多的判別問(wèn)題;SV指的是我們有了一段未知的語(yǔ)音,緊接著(zhù)判斷這段語(yǔ)音是否來(lái)源于這個(gè)目標用戶(hù)即可,是一個(gè)1對1的二分類(lèi)問(wèn)題。
聲紋識別的應用及成果
在應用上,聲紋識別更大的應用前景在于安防領(lǐng)域,比如刑偵破案、門(mén)禁、銀行交易等等。此外,在智能家居等領(lǐng)域,為了安全,也為了更好的智能體驗,比如在人聲鼎沸情境中準確識別哪句話(huà)是主人下達的命令等,聲紋識別技術(shù)也就漸漸受到了重視。
當前,在聲紋識別需求漸增的情況下,專(zhuān)注于聲紋識別的企業(yè)也有不少,并已取得了不錯的成果。比如國外的Nuance、VoiceVault、Voice Biometrics、PhoneFactor,或是國內的科大訊飛、中科信利、廈門(mén)天聰、上海電虹等公司。
以科大訊飛為例,此前,在錘子手機的發(fā)布會(huì )上,羅永浩成功的為科大訊飛做了一次PR,一時(shí)間,科大訊飛的語(yǔ)音識別技術(shù)受到了人們更多的關(guān)注。作為同屬于語(yǔ)音技術(shù)的“兄弟”,聲紋技術(shù)也是科大訊飛的關(guān)注領(lǐng)域,并已研究多年。在2015年,依托于聲紋識別、人臉識別技術(shù),科大訊飛構建了業(yè)界首個(gè)統一生物認證系統,用人臉識別補充聲紋識別的不穩定性,進(jìn)一步的提高了安全性,并在金融、保險等領(lǐng)域啟動(dòng)了大規模的應用推廣。
聲紋識別的優(yōu)勢與挑戰
聲紋識別的主要任務(wù)包括:語(yǔ)音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。
相對于其他生物識別技術(shù),在安全性上,聲紋識別的唯一性不說(shuō)排第一,但也是名列前茅的,縱然模仿聲音類(lèi)似,但也是能夠分辨的出來(lái)的。除了更高的安全指數,與其他生物識別技術(shù)相比,聲紋識別還有著(zhù)其他的優(yōu)勢 :
1、蘊含聲紋特征的語(yǔ)音獲取方便、自然;2、獲取語(yǔ)音的成本低廉,使用簡(jiǎn)單,像麥克風(fēng)、通訊設備等皆可;3、適合遠程身份確認;4、聲紋辨認和確認的算法復雜度低;5、配合一些其他措施,如通過(guò)語(yǔ)音識別進(jìn)行內容鑒別等,可以提高準確率;
不過(guò),縱然有著(zhù)這么多的優(yōu)勢,但在實(shí)際操作中,聲紋識別卻面臨著(zhù)重大的挑戰:
1、如何建立聲紋庫和特征 :從理論上講,聲紋的獲取是極其容易的,但這僅僅是針對國家相關(guān)機構,如目前聲紋庫最全的公安。對企業(yè)而言,所有的聲紋數據都需要他們自行采集,這是一件相當具有難度的任務(wù)。另外,在數據不全面的情形之下,聲紋特征的提取和建立也就受到了阻礙,從而就難以訓練聲紋識別的機器學(xué)習算法,以提高識別的準確率。
2、如何降低內外環(huán)境對于聲紋的影響 :目前,人們對聲紋識別的要求已經(jīng)不僅僅滿(mǎn)足于靜態(tài)檢測,更多的是動(dòng)態(tài)檢測。在外部環(huán)境中,首先,聲音是通過(guò)錄音設備進(jìn)行采集的,不同的型號的錄音設備對語(yǔ)音都會(huì )造成一定程度上的畸變,同時(shí)由于背景環(huán)境和傳輸信道等的差異,對語(yǔ)音信息也會(huì )造成不同程度的損傷。這些情況的出現為聲紋識別增添了不少的問(wèn)題。比如外部環(huán)境的影響,哪怕是如今發(fā)展較為完善、已經(jīng)實(shí)現落地的語(yǔ)音識別技術(shù),降噪以及去混響方面也依然是其運行中的一大難題。
此外,在內部環(huán)境中,對于同一個(gè)用戶(hù),即便采集到的兩段語(yǔ)音內容都是相同的,但由于情緒、語(yǔ)速、疲勞程度等原因,語(yǔ)音都會(huì )有一些差異性。在這方面,小伙伴就曾做過(guò)實(shí)驗,以不同的嗓音、速度喚醒iPhone 7中的Siri,結果顯示,只有與提前錄制的語(yǔ)音同樣的嗓音、速度才能成功喚醒。
評論