
2023國家科學(xué)技術(shù)獎放榜!近十年AI領(lǐng)域首個(gè)一等獎?wù)Q生。作者 | 三北
編輯 | 漠影
6月24日上午,一場(chǎng)科技盛會(huì )在北京召開(kāi)。全國科技大會(huì )、國家科學(xué)技術(shù)獎勵大會(huì )、兩院院士大會(huì )首次共同舉行,總書(shū)記為最高科學(xué)技術(shù)獎獲得者等頒獎。同時(shí),國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進(jìn)步獎等獎項重磅揭榜。在獲獎名單中,我們看到華為、科大訊飛、阿里云、小米等科技公司出現,而科大訊飛作為第一完成單位的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目,更是斬獲國家科學(xué)技術(shù)進(jìn)步獎一等獎。
這是深度學(xué)習引發(fā)全球人工智能浪潮以來(lái),過(guò)去十年人工智能領(lǐng)域首個(gè)國家科學(xué)技術(shù)進(jìn)步獎一等獎。據悉,這一集合了多語(yǔ)種語(yǔ)音識別、多語(yǔ)種語(yǔ)音合成、多語(yǔ)種翻譯技術(shù)等為一體的綜合技術(shù),解決覆蓋69個(gè)語(yǔ)種的跨文化交流難題。當下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“語(yǔ)音+大模型”的全新震撼交互體驗。這一次的“國獎”,則讓我們看到了中國AI的隱藏實(shí)力和“語(yǔ)音+大模型”的廣闊前景。
01.史上最卷科技“國獎”,神仙打架
6月24日,2023年度國家科學(xué)技術(shù)獎揭榜,被央視網(wǎng)、人民網(wǎng)等主流媒體輪番報道,占據各大科技媒體的頭版頭條。五大科技獎項揭榜結果大致如下:國家最高科學(xué)技術(shù)獎2人:分別授予武漢大學(xué)李德仁院士、清華大學(xué)薛其坤院士;國家自然科學(xué)獎49項:一等獎1項,二等獎48項;國家技術(shù)發(fā)明獎62項:一等獎8項,二等獎54項;國家科學(xué)技術(shù)進(jìn)步獎139項:特等獎3項,一等獎16項,二等獎120項;中華人民共和國國際科學(xué)技術(shù)合作獎:10人。本屆國獎被稱(chēng)為史上最難、最嚴格的一屆評獎。一是因為從2017年開(kāi)始至今,國家科學(xué)技術(shù)獎勵數度改革,強調科技獎勵工作要堅持國家戰略導向,并與國家重大戰略需求和中長(cháng)期科技發(fā)展規劃緊密結合。改革之后,提名制和寧缺毋濫是兩個(gè)重要原則:提名制,壓實(shí)了提名者對材料把關(guān)的責任,加強了對候選者的審核和誠信審核;寧缺毋濫,讓獎項評審更加嚴格,比如說(shuō)2020年度國家科學(xué)技術(shù)進(jìn)步獎?dòng)嬎銠C與自動(dòng)控制組的一等獎就是空缺的。二是,因2021年、2022年國家科技獎暫停,大量?jì)?yōu)秀成果累積,競爭極其激烈。2023年受理的通用項目總數為1261項,僅243項通過(guò)初評,最終僅28項最終獲得特等獎、一等獎,約占2%。國家科學(xué)技術(shù)進(jìn)步獎更是競爭者眾。由垂直專(zhuān)業(yè)新媒體“科獎圈”于今年2月的統計可知,2023年科技進(jìn)步獎共28個(gè)分組、709個(gè)項目。聚焦信息領(lǐng)域,主要有計算機與自動(dòng)控制組(45項)、電子與科學(xué)儀器組(28項)、網(wǎng)絡(luò )與通信組(13項)三個(gè)組。
由公開(kāi)信息可知,在信息領(lǐng)域,華為陳海波牽頭的“鴻蒙智能終端操作系統基座與產(chǎn)業(yè)應用”、百度王海峰牽頭的“產(chǎn)業(yè)級深度學(xué)習開(kāi)源開(kāi)放平臺”、曙光歷軍牽頭的“國產(chǎn)先進(jìn)計算系統關(guān)鍵技術(shù)及應用”也都在初期提名之列。可謂“神仙打架”。不過(guò),從最終結果來(lái)看,只有科大訊飛牽頭的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目戰到最后,并獲得了國家科學(xué)技術(shù)進(jìn)步獎一等獎。這是深度學(xué)習引發(fā)新一代人工智能浪潮以來(lái),過(guò)去十年人工智能領(lǐng)域首個(gè)國家科學(xué)技術(shù)進(jìn)步獎一等獎??拼笥嶏w也是19項國家科學(xué)技術(shù)進(jìn)步獎特等獎、一等獎中唯一作為牽頭單位獲獎的民營(yíng)企業(yè)。
02.多語(yǔ)種智能語(yǔ)音及產(chǎn)業(yè)化,為何拔得頭籌
這是一個(gè)什么樣的項目?簡(jiǎn)單來(lái)說(shuō),“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”,是集合了多語(yǔ)種語(yǔ)音識別、多語(yǔ)種語(yǔ)音合成、多語(yǔ)種翻譯技術(shù)等智能語(yǔ)音技術(shù)和產(chǎn)業(yè)化為一體的綜合項目。目前,該技術(shù)支持69個(gè)語(yǔ)種,除了6個(gè)聯(lián)合國通用語(yǔ)種,包括漢語(yǔ)、英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)等,以及挪威語(yǔ)、丹麥語(yǔ)等63個(gè)小語(yǔ)種。同時(shí),該項目還覆蓋了24種主要中國方言。在堅持國家戰略導向的大背景下,國家科學(xué)技術(shù)進(jìn)步獎的評選標準更系統:不僅要完成重大科學(xué)技術(shù)創(chuàng )新,還要實(shí)現科學(xué)技術(shù)成果轉化,創(chuàng )造顯著(zhù)經(jīng)濟效益。語(yǔ)音是人類(lèi)最自然便捷的溝通方式,是智能設備人機交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是國際合作的基礎。多語(yǔ)種智能語(yǔ)音技術(shù)對于支撐人機交互、人類(lèi)語(yǔ)言互通等需求具有重大戰略意義,具有十分廣闊的產(chǎn)業(yè)前景。尤其是在當前全球人工智能發(fā)展迅猛的大背景下,多語(yǔ)種智能語(yǔ)音技術(shù)更是當前國際科技競爭核心焦點(diǎn)之一。但是,這項技術(shù)面臨著(zhù)諸多技術(shù)難題,科大訊飛從四個(gè)創(chuàng )新點(diǎn)完成了技術(shù)的突破。1、復雜語(yǔ)音信號解耦建模,破解“雞尾酒會(huì )”難題要說(shuō)語(yǔ)音識別的最突出難題是什么?很多人知道“雞尾酒會(huì )”效應——遠場(chǎng)、噪聲、多人講話(huà)往往難以聽(tīng)清。對此,科大訊飛提出多通道語(yǔ)音信號時(shí)空分離建模方法,使人聲和噪聲精確分離;團隊還將多維度語(yǔ)音屬性分層解耦,簡(jiǎn)單說(shuō)就是把內容、韻律、音色以及語(yǔ)種等都抽出來(lái),以便更準確地識別和傳達,從而破解“雞尾酒會(huì )”難題。2、多語(yǔ)種共享建模,多語(yǔ)言識別測評超OpenAI再來(lái)看看另一個(gè)“卡脖子”技術(shù)——小語(yǔ)種智能語(yǔ)音系統。在當前國際科技限制的情況下,小語(yǔ)種知識匱乏、訓練數據稀缺,是困擾小語(yǔ)種訓練的主要難題之一。科大訊飛設計了全新的多語(yǔ)種通用音素體系和基本語(yǔ)言單元,實(shí)現多語(yǔ)種統一音素韻律體系的構建,又通過(guò)基于元學(xué)習的多語(yǔ)種預訓練和基于語(yǔ)族分組的多語(yǔ)種共享建?!ㄋ椎卣f(shuō),就是將不同的小語(yǔ)種進(jìn)行分類(lèi),找到同類(lèi)語(yǔ)種的共同規律,進(jìn)行分析建模和訓練——最終,顯著(zhù)提升了小語(yǔ)種語(yǔ)音系統性能。3、語(yǔ)音語(yǔ)義聯(lián)合建模,讀懂深層含義和專(zhuān)業(yè)知識人們交流中常面臨溝通障礙,深層語(yǔ)義理解對人來(lái)說(shuō)都是困難的,更別說(shuō)對機器了。科大訊飛提出語(yǔ)音語(yǔ)義互增強的魯棒口語(yǔ)理解技術(shù),并提出多源知識增強的可信文本生成技術(shù),有效提升語(yǔ)音交互、語(yǔ)音翻譯等復雜場(chǎng)景的語(yǔ)義理解準確率,同時(shí)拉高專(zhuān)有詞匯及領(lǐng)域知識引用的準確率。4、國產(chǎn)異構硬件平臺,建立國產(chǎn)化集群面對算力“卡脖子”難題,科大訊飛也加速了國產(chǎn)異構硬件平臺關(guān)鍵技術(shù)的突破。目前,科大訊飛已建成5個(gè)國產(chǎn)化集群,2023年與華為聯(lián)合建設首個(gè)萬(wàn)卡全國產(chǎn)算力平臺“飛星一號”,填補了國產(chǎn)超大模型訓練平臺空白。除了技術(shù)上的突破之外,在重要評審維度“產(chǎn)業(yè)化”上,科大訊飛圍繞多語(yǔ)種智能語(yǔ)音技術(shù)構建了自主可控的產(chǎn)業(yè)生態(tài),開(kāi)創(chuàng )引領(lǐng)了我國語(yǔ)音產(chǎn)業(yè)的產(chǎn)業(yè)鏈,助力中國制造出海;促進(jìn)全球語(yǔ)言互通和“一帶一路”建設;并且在進(jìn)一步打造覆蓋全球的國際產(chǎn)業(yè)生態(tài)。具體到大家都看得到的場(chǎng)景上:中國現在是汽車(chē)出口第一大國,出口國外的智能汽車(chē)需要有外語(yǔ)的交互,由科大訊飛多語(yǔ)種智能技術(shù)而開(kāi)發(fā)出來(lái)的車(chē)載智能化產(chǎn)品,就支持奇瑞、一汽、長(cháng)安等車(chē)企超200萬(wàn)套訂單出海;出國旅游,科大訊飛基于多語(yǔ)種技術(shù)開(kāi)創(chuàng )了智能翻譯機的新品類(lèi),帶上一個(gè)翻譯機就像帶上一個(gè)會(huì )85種語(yǔ)言的AI翻譯官;在會(huì )議、辦公等場(chǎng)景,訊飛聽(tīng)見(jiàn)系列產(chǎn)品能夠實(shí)時(shí)記錄和翻譯會(huì )議錄音,目前服務(wù)遍及全球50多個(gè)國家和地區,支持了超過(guò)40萬(wàn)場(chǎng)會(huì )議,科大訊飛還基于此研發(fā)出了普通用戶(hù)也能用的訊飛辦公本、訊飛錄音筆等產(chǎn)品。2017年開(kāi)始,科大訊飛承建智能語(yǔ)音國家新一代人工智能開(kāi)放創(chuàng )新平臺,目前已聚集平臺開(kāi)發(fā)者數700.7萬(wàn),意思就是由700多萬(wàn)人在調用多語(yǔ)種智能語(yǔ)音技術(shù)去開(kāi)發(fā)自己的產(chǎn)品。這就是技術(shù)帶來(lái)的生生不息的產(chǎn)業(yè)生態(tài)。據了解,近三年來(lái),“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目累計實(shí)現直接經(jīng)濟效益 521.28 億元,并帶動(dòng)由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展。不得不說(shuō),這么多技術(shù)突破和產(chǎn)業(yè)發(fā)展,不是一朝一夕就能完成的,難怪有媒體說(shuō)科大訊飛是“十年磨一劍”!
03.大模型時(shí)代,多語(yǔ)種智能語(yǔ)音技術(shù)能做什么?
眾所周知,人工智能又來(lái)到了新的大模型時(shí)代,那么積累十年的多語(yǔ)種智能語(yǔ)音技術(shù)能做什么?尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。眾多業(yè)內專(zhuān)業(yè)人士認為,GPT-4o對萬(wàn)物互聯(lián)時(shí)代語(yǔ)音浪潮的推動(dòng),類(lèi)似于當年Siri對語(yǔ)音應用的推動(dòng)。一夜之間,“語(yǔ)音+大模型”賽道受到各界高度關(guān)注。科大訊飛多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)中的創(chuàng )新和大模型技術(shù)是相互補充、相互促進(jìn)的。語(yǔ)音屬性解耦、語(yǔ)音信號時(shí)空分離等技術(shù)突破,可以將語(yǔ)音信號經(jīng)過(guò)編碼后輸入到大語(yǔ)言模型,顯著(zhù)提升語(yǔ)音大模型的效果。大模型技術(shù)可以在復雜語(yǔ)義理解、長(cháng)文本建模能力上進(jìn)一步提升語(yǔ)音識別、合成和翻譯的效果,同時(shí)基于其強大的語(yǔ)義理解、知識問(wèn)答、多輪對話(huà)、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語(yǔ)音技術(shù)的使用場(chǎng)景和應用價(jià)值。今年1月30日,科大訊飛就基于上述技術(shù)融合路線(xiàn)發(fā)布了星火語(yǔ)音大模型,顯著(zhù)超過(guò)了OpenAI的Whisper v3的語(yǔ)音大模型能力,Whisper v3的24個(gè)主要語(yǔ)種的平均識別率為82%,而星火語(yǔ)音大模型達到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話(huà)聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。
可以預測,語(yǔ)音同傳、自動(dòng)客服、輔學(xué)答疑、家庭醫生、虛擬員工、陪伴機器人、服務(wù)機器人……這些原有的應用都將被變革,科幻片《她(Her)》中的智能陪伴助理也將成為現實(shí)。今年6月27日,訊飛星火V4.0發(fā)布也將公布最新的端到端落地成果,拭目以待。
04.結語(yǔ):大國科技競賽正酣,AI新機遇到來(lái)
時(shí)隔兩年多,國家科技獎再次重磅頒發(fā),引起了整個(gè)智能產(chǎn)業(yè)圈的強烈關(guān)注。這是十年以來(lái),AI領(lǐng)域項目首次獲得國家科技進(jìn)步一等獎,表明了國家層面對AI產(chǎn)業(yè)在技術(shù)創(chuàng )新度、轉化程度、示范帶動(dòng)作用等方面的蓋章認可。當下大國科技競賽正酣,是新的挑戰,也是新的戰略機遇。就像曾經(jīng)的互聯(lián)網(wǎng)技術(shù)一樣,國產(chǎn)的AI技術(shù)不知不覺(jué)中已突破奇點(diǎn),已百花齊放,而大模型技術(shù)及應用可能已在爆發(fā)前夜。 來(lái)源:智東西
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。