從神經(jīng)網(wǎng)絡(luò )到天體物理,沒(méi)有什么是AI做不到的
如今,物理學(xué)、天文學(xué)實(shí)驗所產(chǎn)生的海量信息是人類(lèi)團隊難以企及的。一些實(shí)驗每天記錄萬(wàn)億字節的數據,并且不斷累積增加。世界最大的射電望遠鏡項目Square Kilmeter Array預計在2020年開(kāi)啟,它每年產(chǎn)生的數據量將相當于整個(gè)互聯(lián)網(wǎng)的總量。
本文引用地址:http://dyxdggzs.com/article/201903/398700.htm爆發(fā)式的數據讓科學(xué)家不得不求助AI。在人類(lèi)輸入最少的情況下,AI系統(比如人工神經(jīng)網(wǎng)絡(luò ),模仿大腦功能的計算機模擬神經(jīng)元網(wǎng)絡(luò ))可以挖掘海量數據、突出異?,F象,并檢測出人力永遠無(wú)法發(fā)現的東西。
計算機應用于科學(xué)研究已經(jīng)有75年歷史,人類(lèi)對自然數據的觀(guān)察研究更是伴隨著(zhù)人類(lèi)的發(fā)展史。但是,隨著(zhù)機器學(xué)習和AI的發(fā)展,科學(xué)研究的方法已經(jīng)發(fā)生徹底的革新。其中一種方法稱(chēng)為生成模型(Generative Modeling),對于觀(guān)測數據的不同解釋?zhuān)梢詢(xún)H僅基于數據就辨別出最可信的理論。更重要的是,它不需要關(guān)于物理過(guò)程的預編程知識。生成模型的支持者認為它非常新穎,可以被視作研究宇宙的“第三類(lèi)方式”。
傳統上,人類(lèi)通過(guò)觀(guān)察來(lái)了解自然。想想十六世紀天文學(xué)家約翰尼斯·開(kāi)普勒正在仔細研究另一位同時(shí)期天文學(xué)家第谷·布拉赫的行星位置圖,開(kāi)普勒最終推斷出行星在橢圓軌道上運動(dòng)??茖W(xué)通過(guò)模擬而進(jìn)步。天文學(xué)家模擬銀河系及其鄰近星系仙女座的運動(dòng),并預測它們將在幾十億年后發(fā)生碰撞。觀(guān)察和模擬都有助于科學(xué)家產(chǎn)生假說(shuō),再通過(guò)進(jìn)一步的觀(guān)察來(lái)驗證這些假說(shuō)。但是,生成模型既不是觀(guān)察也不是模擬。
天體物理學(xué)家Kevin Schawinski(供職于蘇黎世聯(lián)邦理工學(xué)院)是生成模型的積極倡導者,他說(shuō):“這是介于觀(guān)察和模擬之間的第三類(lèi)方法,是解決問(wèn)題的另一種方式?!?/p>
雖然一些科學(xué)家仍然把生成模型和其它新技術(shù)簡(jiǎn)單地看作是傳統科學(xué)的補充工具。但大多數人都同意AI正在產(chǎn)生巨大的影響,它在科學(xué)研究中的作用必然會(huì )越來(lái)越大。費米實(shí)驗室的天體物理學(xué)家Brian Nord使用人工神經(jīng)網(wǎng)絡(luò )研究宇宙,他擔心人類(lèi)科學(xué)家所做的任何事情都可能實(shí)現計算機自動(dòng)化——這有點(diǎn)讓人不寒而栗。
生成模型帶來(lái)的發(fā)現
研究生時(shí)代,Schawinski就因數據驅動(dòng)領(lǐng)域的成就而聞名。攻讀博士期間,他需要根據星系的外觀(guān)對它們進(jìn)行分類(lèi)。由于沒(méi)有現成的軟件可用,所以Galaxy Zoo眾包科學(xué)項目誕生了。從2007年開(kāi)始,普通計算機用戶(hù)通過(guò)猜測記錄星系分類(lèi)來(lái)幫助天文學(xué)家,服從多數原則一般可以得出正確的分類(lèi)結果。這個(gè)項目無(wú)疑是成功的,只不過(guò)今時(shí)今日的AI技術(shù)使它顯得過(guò)時(shí)了?,F在,一個(gè)有機器學(xué)習和云計算背景的優(yōu)秀科學(xué)家可以在一個(gè)下午就完成以上任務(wù)。
Schawinski在2016年轉向強大的生成模型工具。本質(zhì)上,在給定條件X的情況下,生成模型會(huì )詢(xún)問(wèn)觀(guān)察到結果Y的可能性有多大。這種方法已被證明是非常有效且具有通用性。舉個(gè)例子,假設你提供一組人臉圖像給生成模型,并逐一標注年齡。當計算機程序梳理這些訓練數據時(shí),會(huì )把年長(cháng)者面部和皺紋增加聯(lián)系起來(lái)。最終,計算機可以根據面部判斷年齡,也就是說(shuō),它可以通過(guò)給定的面部預測其經(jīng)歷的物理變化。
這些人臉都不是真的。A 行和B 列的人臉都是由GAN使用真實(shí)面部搭建元素來(lái)構建的。然后,GAN結合A行臉部的基本特征(包括性別、年齡、臉形)和B列更精細的臉部特征(例如發(fā)色、眼睛顏色),創(chuàng )造出上圖中其它的人臉圖像。
最著(zhù)名的生成模型系統是“生成式對抗網(wǎng)絡(luò )(GAN)”。在充分地暴露于訓練數據之后,GAN可以修復已損壞或丟失像素的圖像,它也可以使模糊的照片變得清晰。GAN通過(guò)博弈(術(shù)語(yǔ)稱(chēng)作“對抗”)來(lái)學(xué)習推斷丟失的信息:網(wǎng)絡(luò )的一部分(稱(chēng)為生成器)生成偽數據,而第二部分(判別器)試圖對真偽數據進(jìn)行區分。隨著(zhù)程序的運行,兩個(gè)部分都逐漸演化提升。對于最近出現的一些超現實(shí)的、GAN制作的“人臉”,有文章評價(jià)道:這些計算機創(chuàng )造的詭異假臉跟真人沒(méi)有分別。
更廣泛地說(shuō),生成模型采用數據集(通常是圖像),并將每個(gè)數據集分解為一組基本的抽象構建模塊,科學(xué)家將其稱(chēng)為數據的“隱空間”。隱空間的概念是抽象的,很難將其視覺(jué)化,粗略地類(lèi)比一下,當你試圖確定人臉的性別時(shí),想想你的大腦可能是怎么思考的,也許你會(huì )注意到發(fā)型、鼻子形狀等等,還有的判斷模式可能很難用文字表達。相似地,計算機程序也是在數據中尋找突出的特征:雖然它不知道什么是胡子,什么是性別,但如果它接受過(guò)數據集的訓練,其中一些圖像被貼上“男人”或“女人”的標簽,一些圖像被貼上“胡子”的標簽,計算機會(huì )很快推演出它們之間的聯(lián)系。
在與同事合著(zhù)的一篇論文中,Schawinski利用生成模型研究了星系在演化過(guò)程中所經(jīng)歷的物理變化。模型創(chuàng )建了人工數據集,以此作為檢驗物理過(guò)程假設的方式。例如,恒星猝熄(恒星形成速度急劇下降)如何與星系環(huán)境密度增加相關(guān)聯(lián)。
關(guān)鍵問(wèn)題在于:有多少關(guān)于恒星和銀河系的信息可以單獨從數據中提取出來(lái)。Schawinski說(shuō):“讓我們抹掉所有關(guān)于天體物理學(xué)固有的知識。然后僅僅利用數據本身,能在多大程度上重新認知宇宙?”
首先,星系圖像被縮小到隱空間,然后,Schawinski可以調整空間的一個(gè)元素,使其對應星系環(huán)境的特定變化(比如周?chē)拿芏?。然后他可以重新生成星系,看看會(huì )有什么不同。Schawinski解釋說(shuō):“所以現在我有了一個(gè)假說(shuō)生成機器。通過(guò)這個(gè)過(guò)程,我可以讓原本處于低密度環(huán)境中的一整束星系看起來(lái)像處于高密度環(huán)境中?!毖芯空甙l(fā)現,隨著(zhù)星系從低密度變?yōu)楦呙芏拳h(huán)境,它們的顏色變得更紅,恒星分布更集中。這與現有的星系觀(guān)測結果相吻合。問(wèn)題是為什么會(huì )這樣。
對于這個(gè)過(guò)程,有兩種可能的解釋?zhuān)阂苍S星系在高密度環(huán)境中顏色更紅,因為它們含有更多的塵埃,又或者是因為其范圍內的恒星趨于衰退。有了生成模型,這兩個(gè)想法都可以進(jìn)行測試:改變隱空間中有關(guān)塵埃和恒星形成速率的元素,然后觀(guān)察星系顏色的變化。結論很清楚,星系顏色更紅的地方是“恒星形成速率下降的地方”,而不是“塵埃發(fā)生改變的地方”。
通過(guò)生成模型,天體物理學(xué)家可以研究星系從宇宙的低密度區域到高密度區域是如何變化的,以及是什么物理過(guò)程導致了這些變化。
該方法與傳統的模擬有關(guān),但存在關(guān)鍵差別。Schawinski說(shuō),模擬“本質(zhì)上是假設驅動(dòng)的”,對于某種宇宙現象,我首先假設一個(gè)可以解釋它的物理原則,比如說(shuō)我們對于暗物質(zhì)、對于恒星形成都有一套理論假設,然后對照假設運行模擬操作,接著(zhù)再思考:模擬是否符合現實(shí)?但是生成模型則不同,某種意義上來(lái)說(shuō),它與模擬完全相反。我們什么都不知道也不想做任何假設,只是讓數據告訴我們可能會(huì )發(fā)生什么。
生成模型的成功應用當然不意味著(zhù)天文學(xué)家要失業(yè),但這也確實(shí)讓我們思考,天體物理學(xué)研究多大程度上可以由智能系統完成。Schawinski表示,這不是完全自動(dòng)化的科學(xué),但它表明我們至少能夠部分地構建工具——使科學(xué)過(guò)程自動(dòng)化。
生成模型顯然是強大的,但它是否真正代表了一種新的科學(xué)方法仍有待商榷。David Hogg是紐約大學(xué)的宇宙學(xué)家,它認為,這仍然只是從數據中抓取模型,數個(gè)世紀以來(lái)天文學(xué)家都是這樣進(jìn)行工作的,只不過(guò)如今的技術(shù)相當強大。換句話(huà)說(shuō),生成模型是一種先進(jìn)的觀(guān)察加分析的方式。Hogg自己的工作也嚴重依賴(lài)AI。他使用神經(jīng)網(wǎng)絡(luò )根據恒星的光譜對它們進(jìn)行分類(lèi),并使用數據驅動(dòng)模型來(lái)推斷恒星的其它物理屬性。但他不認為生成模型是另類(lèi)方法。他說(shuō):“只是科學(xué)家在如何使用數據方面變得更加老練了。特別是在比較數據方面比以前進(jìn)步很多。但在我看來(lái),我的工作仍處于觀(guān)察模式?!?/p>
評論