科大訊飛重磅發(fā)布星火大模型4.0,整體性能全面領(lǐng)先,打造國產(chǎn)大模型最強平替
首個(gè)支持74個(gè)語(yǔ)種方言免切換語(yǔ)音大模型破解強干擾場(chǎng)景下語(yǔ)音識別難題
近期科大訊飛作為第一完成單位的《多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項目,獲得國家科學(xué)技術(shù)進(jìn)步獎一等獎。這一次星火語(yǔ)音大模型迎來(lái)新突破。
劉慶峰認為,語(yǔ)音將成為萬(wàn)物互聯(lián)時(shí)代人機交互的主要方式,人機交互最重要的場(chǎng)景是遠場(chǎng)、噪聲、多人說(shuō)話(huà)、多語(yǔ)言,因此萬(wàn)物互聯(lián)時(shí)代的AIUI(人工智能用戶(hù)界面)要滿(mǎn)足遠場(chǎng)高噪聲、多語(yǔ)言多方言、全雙工、多模態(tài)等標準??拼笥嶏w也主導制定了全雙工語(yǔ)音交互ISO/IEC國際標準,并于2023年5月發(fā)布。
面向萬(wàn)物互聯(lián)時(shí)代,本次星火語(yǔ)音大模型發(fā)布的多語(yǔ)種多方言免切換語(yǔ)音識別能力,可支持37個(gè)語(yǔ)種、37種方言“自由對話(huà)”。其中,37個(gè)語(yǔ)種識別效果領(lǐng)先OpenAI whisper-V3,37個(gè)方言識別效果平均提升30%?,F場(chǎng),科大訊飛演示了訊飛輸入法混合方言和外語(yǔ)的語(yǔ)音輸入效果,能讓輸入效率大大提高。
科大訊飛還發(fā)布了軟硬件一體化訊飛同傳系統,可支持大會(huì )同傳、會(huì )議同傳、展廳同傳、旅游同傳等多場(chǎng)景使用。本次參會(huì )的嘉賓座位上同樣配備訊飛同傳的收聽(tīng)設備,佩戴后即可實(shí)時(shí)收聽(tīng)多語(yǔ)種AI同聲傳譯。
針對強干擾場(chǎng)景下的語(yǔ)音識別難題,科大訊飛突破了多人混疊場(chǎng)景下的極復雜場(chǎng)景語(yǔ)音轉寫(xiě)技術(shù),即使在三人混疊說(shuō)話(huà)場(chǎng)景也能實(shí)現86%的語(yǔ)音識別準確率。三位訊飛研究院的研究員現場(chǎng)實(shí)測,在噪音場(chǎng)景下同時(shí)混疊著(zhù)說(shuō)話(huà),正常人耳已難以聽(tīng)清,只見(jiàn)訊飛星火的多模態(tài)能力不但實(shí)現了三人重疊語(yǔ)音的角色分離,還能實(shí)時(shí)轉寫(xiě)出每個(gè)人的語(yǔ)音,準確的效果引發(fā)現場(chǎng)掌聲不斷。未來(lái)多模態(tài)的語(yǔ)音識別技術(shù)將應用在訊飛聽(tīng)見(jiàn)智慧辦公服務(wù)平臺、智慧屏等辦公產(chǎn)品中。
大模型正在推動(dòng)人機交互變革,語(yǔ)音領(lǐng)域的所有應用都值得被重構。在大模型加持下,星火汽車(chē)智能座艙全新升級,不但具備了多語(yǔ)種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車(chē)交互更有溫度。當前在汽車(chē)領(lǐng)域,訊飛語(yǔ)音交互產(chǎn)品國內市占率穩居第一,同時(shí)廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長(cháng)城等車(chē)企的眾多車(chē)型,賦予了高度智能的交互體驗。
為了讓大模型更好落地,科大訊飛還打造了端云一體和軟硬一體的解決方案,賦能家電、機器人等更多行業(yè)場(chǎng)景。面向具身智能和人形機器人企業(yè)需求,本次科大訊飛正式發(fā)布機器人超腦平臺2.0,業(yè)內首個(gè)支持多模態(tài)交互,目前超400家機器人企業(yè)已經(jīng)采用訊飛機器人超腦平臺。
星火大模型助力“中式”智能座艙走向世界
科大訊飛面向萬(wàn)物互聯(lián)時(shí)代,星火語(yǔ)音大模型再突破,發(fā)布72個(gè)語(yǔ)種/方言免切換對話(huà),破解強干擾場(chǎng)景下語(yǔ)音識別難題,發(fā)布國際領(lǐng)先的極復雜場(chǎng)景語(yǔ)音轉寫(xiě),并通過(guò)云邊端及軟硬一體化解決方案,為汽車(chē)智能座艙,開(kāi)辟出了更廣闊的天地。智能座艙再升級 多模態(tài)創(chuàng )造新場(chǎng)景
多模態(tài)能力也為車(chē)上的硬件開(kāi)辟了全新的應用空間。傳統的DMS主要用于監測駕駛員疲勞狀況,在大模型的賦能下,視覺(jué)判斷能夠高精度獲取包括心跳、呼吸、血壓在內的多項身體健康指標,在用戶(hù)無(wú)感的狀態(tài)下長(cháng)期記錄跟蹤。訊飛星火健康專(zhuān)家在此基礎上聯(lián)動(dòng)訊飛醫療資源,為車(chē)主提供30種以上健康問(wèn)題的監測診斷,守護車(chē)主安全出行。
硬核科技助力 芯算融合讓域控更強勁
以訊飛最具代表性的語(yǔ)音算法為例,通過(guò)異構將語(yǔ)音降噪、喚醒、識別、合成從CPU移植到NPU后,能夠降低60%的CPU算力需求。而通過(guò)在資源富裕的NPU上部署更大模型,能夠在本地實(shí)現媲美云端的語(yǔ)音識別效果。這就是紅旗EH7、蔚來(lái)ES8等一批新款車(chē)型上,語(yǔ)音識別又快又準背后的技術(shù)秘密。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。