WAIC剪影:AI的未來(lái),關(guān)乎星辰大海
“天文學(xué),是像數學(xué)一樣的基礎學(xué)科,而越是基礎學(xué)科,就越難直接應用?!?/p>
“我們沒(méi)有想過(guò)盈利,這些技術(shù)目前來(lái)看也不太可能直接應用到其他領(lǐng)域?!?/p>
“不管是優(yōu)圖還是騰訊公司層面,不是做的每件事情都要考慮它的經(jīng)濟價(jià)值或者收入,它代表了一個(gè)社會(huì )向善的進(jìn)展或者路徑?!?/p>
如果說(shuō)人工智能的發(fā)展是人類(lèi)對于未來(lái)的一次探索,那么這場(chǎng)探索之中必然會(huì )出現大量的分歧。比如說(shuō),人工智能對于人類(lèi)就業(yè)而言是利是弊?人工智能究竟是先抓產(chǎn)業(yè)還是先抓科研?從實(shí)驗室走出來(lái)的技術(shù)究竟如何落地?應用科學(xué)與基礎科學(xué)哪一邊才是AI真正的樂(lè )園?當這些問(wèn)題逐一呈現在我們面前時(shí),人工智能的樣貌就會(huì )變得更加清晰,可全貌卻會(huì )因此而與人漸行漸遠。
不同的路徑會(huì )得到不同的答案,我們無(wú)法去評價(jià)究竟怎樣的路才是未來(lái)最合適的路,可我們卻可以回頭看一下起點(diǎn)。AI的初心是否改變過(guò)?關(guān)于科技向善的目的,我們是否動(dòng)搖過(guò)?關(guān)于未來(lái)的道路,我們是否斷舍離過(guò)?在《蜘蛛俠》里有一句話(huà),叫做“能力越大,責任越大”。這句話(huà)與如今AI發(fā)展的格局不謀而合,當一家AI企業(yè)取得的成就越是明朗時(shí),他們對于未來(lái)的向往就越是清晰。也正是因為這一原因,我們才在2021世界人工智能大會(huì )上分別聽(tīng)到了來(lái)自國家天文臺、騰訊優(yōu)圖的技術(shù)專(zhuān)家們,講出來(lái)開(kāi)頭的幾句評語(yǔ)。
7月9日,2021世界人工智能大會(huì )“騰訊論壇”在上海世博中心舉辦,聚焦“人工智能與可持續發(fā)展”主題,騰訊云在人工智能領(lǐng)域的“三大底層AI平臺”正式發(fā)布,成為本屆世界人工智能大會(huì )的關(guān)注焦點(diǎn)。同時(shí),騰訊與國家天文臺合作的“探星計劃”宣布正式啟動(dòng)—— 基于優(yōu)圖實(shí)驗室計算機視覺(jué)技術(shù)、騰訊云的計算及存儲能力,幫助中國天眼FAST提升脈沖星搜索效率,并輔助快速射電暴和近密雙星系統中脈沖星搜索,助力天文探索。未來(lái),雙方還將聯(lián)合AI+天文成果進(jìn)展,開(kāi)展天文科普、科學(xué)成果發(fā)布、聯(lián)合IP打造等系列活動(dòng)。
01 九天摘星夢(mèng),摘得脈沖星
“天文學(xué),是像數學(xué)一樣的基礎學(xué)科,而越是基礎學(xué)科,就越難直接應用?!敝袊茖W(xué)院國家天文臺研究員、FAST首席科學(xué)家李菂在接受采訪(fǎng)時(shí)發(fā)出了這樣的感慨,盡管他已經(jīng)在天文學(xué)領(lǐng)域深耕多年,但他依然認為這一學(xué)科沒(méi)有任何實(shí)用性,其無(wú)法脫離基礎研究的性質(zhì),尤其是在同騰訊的合作中,大量的天文學(xué)研究對騰訊優(yōu)圖的研發(fā)人員而言,就像是在提一些不太合理的要求。
那么脈沖星究竟是怎樣的存在,為什么我們一定要去做這樣的天文研究呢?李菂表示,中國一直有著(zhù)世界一流的脈沖星研究團隊,早在宋代中國就有關(guān)于超新星爆炸的脈沖星研究記錄。但是中國的優(yōu)勢一直在于脈沖星的理論研究和模型研究,但是在觀(guān)測方面始終缺乏設備。脈沖星是高能天體,其有高磁場(chǎng)、高密度、快速旋轉的特征,有包括光學(xué)、高能的各種信號。
而這一情況在過(guò)去十年來(lái)有了根本性變化,我們第一次有了自己的天文衛星,有了地面大型的觀(guān)測站,有了手機藍牙射頻通訊波段和世界上最大的天線(xiàn)……這與中國過(guò)去的基建投入、科學(xué)投入和GDP的增長(cháng)是完全一致的。也因此,國內天文學(xué)發(fā)展開(kāi)始從理論研究的社團發(fā)生轉變,脈沖星的研究甚至完全轉向了觀(guān)測研究,并且取得了獨特的領(lǐng)先性,這也可以作為一個(gè)天文學(xué)的指標。
在2016年建成以前,全球發(fā)現的脈沖星已經(jīng)接近3000顆,這一領(lǐng)域還誕生了兩位諾貝爾物理學(xué)獎,可是中國卻限于觀(guān)測設備從未發(fā)現過(guò)任何一顆脈沖星??墒窃?016年中國天眼FAST投入應用后,中國僅通過(guò)FAST就發(fā)現了超350顆脈沖星,占全球10%。不過(guò),脈沖星的發(fā)現也并非易事,盡管我們有了觀(guān)測設備,但甄別脈沖星的輻射信號和物理現象工作依然復雜,而當信號穿過(guò)宇宙空間時(shí)會(huì )有大量的色散現象,最終出現變頻,而通過(guò)處理得到特征后繼續反推星際空間中存在的物質(zhì),才可以幫助限定距離并進(jìn)一步分析相關(guān)信息。這其中尤其是信號處理和頻譜分析,工作量大且繁瑣,而在接入了FAST之后數據量更是驚人,再加上天文團隊在計算、編程方面能力的限制,這些點(diǎn)就成為限制天文研究的核心問(wèn)題。
好在,人工智能的發(fā)展具有很強的普惠性,其不僅僅會(huì )對于產(chǎn)業(yè)和生活提供良好的幫助,對于天文學(xué)這類(lèi)的基礎學(xué)科一樣可以有立竿見(jiàn)影的效果?!敖柚鶤I技術(shù)能力,3天就可以處理完原來(lái)人工需要1年才能完成的數據工作量?!彬v訊云副總裁、騰訊優(yōu)圖實(shí)驗室總經(jīng)理吳運聲表示,通過(guò)騰訊云+AI的輔助,FAST脈沖星搜索效率將得到顯著(zhù)提升,數據處理效率提升120倍。
02 與數據賽跑,與AI共贏(yíng)
“我們沒(méi)有想過(guò)盈利,這些技術(shù)目前來(lái)看也不太可能直接應用到其他領(lǐng)域?!痹诒粏?wèn)及這場(chǎng)合作是否對于其他領(lǐng)域應用有所幫助時(shí),騰訊優(yōu)圖實(shí)驗室副總經(jīng)理黃飛躍的答案顯得比較出人意料。我們都知道,實(shí)驗室里的技術(shù)一旦被拿出來(lái)是必然要應用的,但是騰訊優(yōu)圖卻有一點(diǎn)反其道而行之,他們將已經(jīng)應用十分成熟的技術(shù)重新拿回了實(shí)驗室,用來(lái)幫助天文學(xué)的探索,而且目前看也不太可能創(chuàng )造任何的利潤。
在解釋這場(chǎng)看似“荒唐”的合作時(shí),黃飛躍表示,騰訊優(yōu)圖的定位,一方面會(huì )做很多的原生自發(fā)的科技探索,尤其是在計算機視覺(jué)領(lǐng)域;而另一方面則是很多科技向善的活動(dòng),也就是偏科研性的探索。而AI和CV在天文學(xué)領(lǐng)域的應用雖然無(wú)法直接創(chuàng )造利潤,但技術(shù)在其中確實(shí)產(chǎn)生了很大的價(jià)值,同時(shí)對于整個(gè)社會(huì )而言,進(jìn)行科技的前沿探索是有著(zhù)重要意義的。
在騰訊優(yōu)圖接觸到天文臺團隊時(shí)發(fā)現,這里絕非是AI的荒漠。李菂的團隊在場(chǎng)景、數據、業(yè)務(wù)等多個(gè)方面都打造了成熟的機器學(xué)習的算法模型。而優(yōu)圖則在此基礎上與天文臺展開(kāi)合作,首先進(jìn)行的是數據的預處理。因為天文臺一天采集到的原始數據大約有500T,每周有3000萬(wàn)張的信號圖片,數據量巨大,這500T數據的轉換及數據提取難度非常高。同時(shí),在做一系列的原始信號處理時(shí),其需要進(jìn)一步的加速,而在合作之后到現在,其處理加速性能提升了一倍以上,預處理更快。
在信號處理的過(guò)程中,優(yōu)圖會(huì )用機器學(xué)習的方式來(lái)尋找疑似樣本,再交給專(zhuān)業(yè)的人員看確認信號來(lái)提升召回率和準確率。在合作之后,雙方還然后通過(guò)新的算法實(shí)現提升,如今其準確率提升也達到了1倍以上,并降低了后期專(zhuān)業(yè)人士的人為篩選的工作量。
AI探星的過(guò)程并非不簡(jiǎn)單,首先深度學(xué)習最核心的是要有海量的已標注數據作為訓練數據,再利用訓練數據來(lái)調和整優(yōu)化模型??墒翘煳念I(lǐng)域標注的訓練數據相對偏少,訓練面臨很多困難;其次,同樣的天體信號用不同的望遠鏡和設備觀(guān)測,得到的數據和展現形式并不完全一樣。
這兩個(gè)難點(diǎn)的突破主要是基于原有的技術(shù)積累,比如之前的人臉、人體檢測、工業(yè)檢測等,這使得其優(yōu)圖的模型能夠針對海量缺少標注的數據實(shí)現自監督的學(xué)習,最終形成無(wú)標注自監督的解決方案,從而減少有標簽數據的依賴(lài)性;另外對不同場(chǎng)景,不同的設備拍出來(lái)的數據也可以跨域學(xué)習的概念,從而將不同的設備數據整合起來(lái)統一來(lái)幫助訓練。此外,海量的數據帶來(lái)的問(wèn)題不僅僅是訓練的問(wèn)題,還有存儲和計算。此次合作中,雙方將海量的數據存儲到了騰訊云上,并借用騰訊云的計算資源和優(yōu)圖的技術(shù)人員共同完成技術(shù)升級。
03 星辰大海,尋找未來(lái)
“不管是優(yōu)圖還是騰訊公司層面,不是做的每件事情都要考慮它的經(jīng)濟價(jià)值或者收入,它代表了一個(gè)社會(huì )向善的進(jìn)展或者路徑?!眳沁\聲在談及未來(lái)時(shí)表示,探星計劃在推出時(shí)確實(shí)有一個(gè)難題要解決,而解決難題需要提出新的思路和新的想法,而這種全新領(lǐng)域的探索對于A(yíng)I技術(shù)的發(fā)展確實(shí)有一定的幫助,一旦突破了這些問(wèn)題,就會(huì )實(shí)現該領(lǐng)域的技術(shù)提升。
在探星計劃開(kāi)展的幾個(gè)月里,雙方已經(jīng)取得了一定的成果,并發(fā)現了一些脈沖星。而且,國內發(fā)現脈沖星的效率要遠高于其他的機構。
當然,對于騰訊優(yōu)圖而言,除了在各個(gè)產(chǎn)業(yè)領(lǐng)域沉淀價(jià)值,星辰大海也是未來(lái)發(fā)展的重要方向。FAST是中國獨有的萬(wàn)人計劃,在中國已有的基礎設施和大數據規模之下,FAST每天有大量的數據和宇宙信號待處理,結合騰訊云已有的大數據計算能力能夠得到很好的解決。此外,傳統的搜星算法有很多新的理念和概念,在人工智能里面用到的多模態(tài)技術(shù)遷移到探星領(lǐng)域會(huì )是非常好的思路。這種交叉學(xué)科能夠同時(shí)發(fā)揮基礎設施的優(yōu)勢,又有計算資源和算法的優(yōu)勢發(fā)揮,其結合后會(huì )得到非常好的成果。
吳運聲表示,AI+云會(huì )有兩個(gè)方向,一個(gè)是助力產(chǎn)業(yè)升級,另一個(gè)是助力信息數字化建設。因此,騰訊在過(guò)去的幾年中發(fā)布了大量的單點(diǎn)解決方案,并投入了海量的精力幫助客戶(hù)構建AI解決方案,實(shí)現產(chǎn)業(yè)升級。但這種做法有很多限制,不僅僅是自身資源的問(wèn)題,還有整體AI能力的規?;陀绊懥Φ臄U大。因此,在WAIC之上,騰訊打造了自己的基礎設施,開(kāi)放了三大AI底層平臺-TI ONE、TI Matrix和TI DataTruth,提供包括算法開(kāi)發(fā)、模型訓練、數據標注和數據處理等一站式開(kāi)放能力,為企業(yè)或個(gè)人開(kāi)發(fā)者提供一站式的智能化、數據化和移動(dòng)化服務(wù),滿(mǎn)足客戶(hù)降本增效、靈活可用的訴求。
在數字化建設方面,騰訊云對外開(kāi)放了超過(guò)300項的AI原子能力,外部用戶(hù)可以直接來(lái)訪(fǎng)問(wèn),并根據過(guò)去的積累,推出了超過(guò)50個(gè)相對來(lái)講比較成熟的解決方案,也是一樣可以直接拿來(lái)使用的產(chǎn)品。而這些方式都是騰訊通過(guò)過(guò)去幾年的發(fā)展,得到的一些沉淀和思考。而這些在整體的思路上,也便如筆者在開(kāi)頭所提到的,通往AI和未來(lái)的路各不相同,但大家終將殊途同歸。
在此次大會(huì )上,騰訊公司高級執行副總裁、騰訊云與智慧產(chǎn)業(yè)CEO湯道生在開(kāi)場(chǎng)致辭中表示,人工智能的最大價(jià)值是“服務(wù)于人”,要讓更多的跨界人才,把AI帶到更多的行業(yè),產(chǎn)生更大的社會(huì )價(jià)值。筆者也一樣認可這一觀(guān)點(diǎn),AI的發(fā)展無(wú)論是產(chǎn)業(yè)支持、生態(tài)支持亦或是走向科研或者天文領(lǐng)域,其最終的結果必然是“服務(wù)于人”,可能是當下人的生活,亦可能是未來(lái)人的詩(shī)與遠方,大海星辰。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
DIY機械鍵盤(pán)相關(guān)社區:機械鍵盤(pán)DIY