谷歌大神Jeff Dean領(lǐng)銜,萬(wàn)字展望5大AI趨勢
以下文章來(lái)源于學(xué)術(shù)頭條 ,作者學(xué)術(shù)頭條
對于關(guān)心人工智能技術(shù)進(jìn)展的讀者來(lái)說(shuō),每年年底來(lái)自整個(gè)谷歌 research 團隊撰寫(xiě)的年終總結,可謂是必讀讀物。
今天,由谷歌大神 Jeff Dean 領(lǐng)銜,這份總結雖遲但到。出于知識傳播目的,我們現將全文翻譯如下,以饗讀者:
在過(guò)去的幾十年里,我見(jiàn)證了機器學(xué)習(ML, Machine Learning)和計算機科學(xué)(CS, Computer Science)領(lǐng)域的變化和發(fā)展。
早期的方法往往存在某些缺陷導致了失敗,然而,通過(guò)在這些方法上的不斷研究和改進(jìn),最終產(chǎn)生了一系列的現代方法,目前這些方法已經(jīng)非常成功。按照這種長(cháng)期的發(fā)展模式,在未來(lái)幾年內,我認為我們將會(huì )看到一些令人欣喜的進(jìn)展,這些進(jìn)展最終將造福數十億人的生活,產(chǎn)生比以往任何時(shí)候都更大的影響。
這篇文章中,我將重點(diǎn)介紹 ML 中可能產(chǎn)生重大影響的五個(gè)領(lǐng)域。對于其中的每一項,我都會(huì )討論相關(guān)的研究(主要是從 2021 年開(kāi)始),以及我們在未來(lái)幾年可能會(huì )看到的方向和進(jìn)展。
- 趨勢1:更強大的通用 ML 模型
- 趨勢2:ML 的持續效率提高
- 趨勢3:ML 對個(gè)人和社會(huì )都越來(lái)越有益
- 趨勢4:ML 在科學(xué)、健康和可持續發(fā)展方面日益增長(cháng)的效益
- 趨勢5:更深入和廣泛地理解 ML
趨勢1:更強大的通用ML模型
研究人員正在訓練比以往更大、更有能力的ML模型。
例如,僅在過(guò)去的幾年中,模型已經(jīng)在語(yǔ)言領(lǐng)域取得突破性進(jìn)展,從數百億的數據 tokens 中訓練數十億個(gè)參數(如,11B 參數 T5 模型),發(fā)展到數千億或上萬(wàn)億的數據 tokens 中訓練高達數千億或上萬(wàn)億的參數(如,密集模型,像 OpenAI 的 175 B 參數 GPT3 模型、DeepMind 的 280B 參數 Gopher 模型;稀疏模型,如谷歌的 600 B 參數 GShard 模型、1.2T 參數 GLaM 模型)。數據集和模型大小的增加導致了各種語(yǔ)言任務(wù)的準確性的顯著(zhù)提高,這可以從標準自然語(yǔ)言處理(NLP, Natural Language Processing)基準測試任務(wù)的全面改進(jìn)中觀(guān)察到,正如對語(yǔ)言模型和機器翻譯模型的神經(jīng)網(wǎng)絡(luò )縮放法則(neural scaling laws)的研究預測的那樣。
這些先進(jìn)的模型中,有許多專(zhuān)注于單一但重要的書(shū)面語(yǔ)言模式上,并且在語(yǔ)言理解基準和開(kāi)放式會(huì )話(huà)能力方面顯示出了最先進(jìn)的成果,即是跨越一個(gè)領(lǐng)域的多個(gè)任務(wù)也是如此。除此之外,他們還表現出了令人興奮的能力,即僅用相對較少的訓練數據便可以泛化新的語(yǔ)言任務(wù)。因為在某些情況下,對于一個(gè)新的任務(wù),幾乎不存在訓練示例。簡(jiǎn)單舉例,如改進(jìn)的長(cháng)式問(wèn)答(long-form question answering),NLP 中的零標簽學(xué)習,以及我們的 LaMDA 模型,該模型展示出了一種復雜的能力,可以進(jìn)行開(kāi)放式對話(huà),并在多個(gè)對話(huà)回合中保持重要的上下文。
圖丨與 LaMDA 的對話(huà)模仿了威德?tīng)柡1╓eddell sea)預設提示,“嗨,我是 Weddell sea。你有什么問(wèn)題要問(wèn)嗎?”該模型在很大程度上控制了角色中的對話(huà)。
Transformer 模型也對圖像、視頻和語(yǔ)音模型產(chǎn)生了重大影響,所有這些模型也都從縮放中受益,正如研究可視 Transformer 模型的縮放法則工作中預測的那樣。用于圖像識別和視頻分類(lèi)的 Transformers 在許多基準上都取得了最先進(jìn)的結果,我們還證明,與單獨使用視頻數據的模型相比,在圖像數據和視頻數據上的聯(lián)合訓練模型可以提高視頻任務(wù)的性能。我們已經(jīng)為圖像和視頻 Transformers 開(kāi)發(fā)了稀疏的軸向注意機制(axial attention mechanisms),從而更有效地使用計算,為視覺(jué) Transformers 模型找到了更好的圖像標記方法,并通過(guò)與卷積神經(jīng)網(wǎng)絡(luò )相比,研究了視覺(jué) Transformers 的操作方式,加深了我們對視覺(jué) Transformers 方法的理解。將 Transformers 模型與卷積操作相結合,已在視覺(jué)和語(yǔ)音識別任務(wù)中展示出顯著(zhù)的優(yōu)勢。
生成模型的輸出也在大幅提高。在過(guò)去幾年里取得了顯著(zhù)的進(jìn)步,尤其在圖像的生成模型中最為明顯。例如,最近的模型已經(jīng)證明了僅給定一個(gè)類(lèi)別(如“irish setter”或“steetcar”)便可以創(chuàng )建逼真的圖像,可以“填充”一個(gè)低分辨率的圖像,以創(chuàng )建一個(gè)看起來(lái)十分自然的高分辨率匹配圖像,甚至可以構建任意長(cháng)度的自然場(chǎng)景。另一個(gè)例子是,可以將圖像轉換成一系列離散 tokens,然后使用自回歸生成模型以高保真度進(jìn)行合成。圖丨級聯(lián)擴散模型(cascade diffusion models)的例子,從一個(gè)給定的類(lèi)別生成新的圖像,然后使用這些圖像作為種子來(lái)創(chuàng )建高分辨率的示例:第一個(gè)模型生成低分辨率圖像,其余的執行向上采樣(upsampling)到最終的高分辨率圖像。
圖丨SR3 超分辨率擴散模型是以低分辨率圖像作為輸入,并從純噪聲中構建相應的高分辨率圖像。
鑒于這些強大的功能背后,潛藏著(zhù)的是巨大的責任,所以我們不得不仔細審查,這類(lèi)模型的潛在應用是否違背我們的人工智能原則。
除了先進(jìn)的單模態(tài)模型(single-modality models)外,大規模的多模態(tài)模型(multimodal models)也在陸續進(jìn)入人們的視野。這些模型是迄今為止最前沿的模型,因為它們可以接受多種不同的輸入模式(例如,語(yǔ)言、圖像、語(yǔ)音、視頻),而且在某些情況下,還可以產(chǎn)生不同的輸出模式,例如,從描述性的句子或段落生成圖像,或用人類(lèi)語(yǔ)言簡(jiǎn)要描述圖像的視覺(jué)內容。這是一個(gè)令人驚喜的研究方向,因為類(lèi)似于現實(shí)世界,在多模態(tài)數據中更容易學(xué)習(例如,閱讀一些文章并看時(shí)輔以演示比僅僅閱讀有用得多)。因此,將圖像和文本配對可以幫助完成多種語(yǔ)言的檢索任務(wù),并且更好地理解如何對文本和圖像輸入進(jìn)行配對,可以對圖像字幕任務(wù)(image captioning tasks)帶來(lái)更好的改進(jìn)效果。同樣,在視覺(jué)和文本數據上的聯(lián)合訓練,也有助于提高視覺(jué)分類(lèi)任務(wù)的準確性和魯棒性,而在圖像、視頻和音頻任務(wù)上的聯(lián)合訓練則可以提高所有模式的泛化性能。還有一些誘人的跡象表明,自然語(yǔ)言可以作為圖像處理的輸入,告訴機器人如何與這個(gè)世界互動(dòng),以及控制其他軟件系統,這預示著(zhù)用戶(hù)界面的開(kāi)發(fā)方式可能會(huì )發(fā)生變化。這些模型處理的模式將包括語(yǔ)音、聲音、圖像、視頻和語(yǔ)言,甚至可能擴展到結構化數據、知識圖和時(shí)間序列數據等等。
圖丨基于視覺(jué)的機器人操作系統的例子,能夠泛化到新的任務(wù)。左圖:機器人正在執行一項用自然語(yǔ)言描述為“將葡萄放入陶瓷碗中”的任務(wù),而不需要對模型進(jìn)行特定的訓練。右圖:和左圖一樣,但是有“把瓶子放在托盤(pán)里”的新的任務(wù)描述。
這些模型通常使用自監督學(xué)習(Self-supervised learning)的訓練,在這種方法中,模型從觀(guān)察到的“原始”數據中學(xué)習,而這些數據沒(méi)有被整理或標注。例如,GPT-3 和 GLaM 使用的語(yǔ)言模型,自監督的語(yǔ)音模型 BigSSL,視覺(jué)對比學(xué)習模型 SimCLR,以及多模態(tài)對比模型 VATT。自監督學(xué)習允許大型語(yǔ)音識別模型匹配之前的語(yǔ)音搜索中的自動(dòng)語(yǔ)音識別技術(shù)(Automatic Speech Recognition)的基準精度,同時(shí)僅使用 3% 的標注訓練數據。這些趨勢是令人興奮的,因為它們可以大大減少為特定任務(wù)啟用 ML 所需的努力。而且,它們使得在更有代表性的數據上訓練模型變得更容易,這些數據可以更好地反映不同的亞種群、地區、語(yǔ)言或其他重要的表示維度。
所有這些趨勢都指向訓練能夠處理多種數據模式并解決數千或數百萬(wàn)任務(wù)的高能力通用模型的方向。通過(guò)構建稀疏性模型,使得模型中唯一被給定任務(wù)激活的部分是那些針對其優(yōu)化過(guò)的部分,由此一來(lái),這些多模態(tài)模型可以變得更加高效。在未來(lái)的幾年里,我們將在名為“Pathways”的下一代架構和綜合努力中追求這一愿景。隨著(zhù)我們把迄今為止的許多想法結合在一起,我們期望在這一領(lǐng)域看到實(shí)質(zhì)性的進(jìn)展。
圖丨Parthway:我們正在朝著(zhù)單一模型的描述而努力,它可以在數百萬(wàn)個(gè)任務(wù)中進(jìn)行泛化。
趨勢2:ML 的持續效率提高
由于計算機硬件設計、ML 算法和元學(xué)習(meta-learning)研究的進(jìn)步,效率的提高正在推動(dòng) ML 模型向更強的能力發(fā)展。ML 管道的許多方面,從訓練和執行模型的硬件到 ML 體系結構的各個(gè)組件,都可以在保持或提高整體性能的同時(shí)進(jìn)行效率優(yōu)化。這些不同的線(xiàn)程中的每一個(gè)都可以通過(guò)顯著(zhù)的乘法因子來(lái)提高效率,并且與幾年前相比,可以將計算成本降低幾個(gè)數量級。這種更高的效率使許多關(guān)鍵的進(jìn)展得以實(shí)現,這些進(jìn)展將繼續顯著(zhù)地提高 ML 的效率,使更大、更高質(zhì)量的 ML 模型能夠以更有效的成本開(kāi)發(fā),并進(jìn)一步普及訪(fǎng)問(wèn)。我對這些研究方向感到非常興奮!
ML加速器性能的持續改進(jìn):
每一代ML加速器都在前幾代的基礎上進(jìn)行了改進(jìn),使每個(gè)芯片的性能更快,并且通常會(huì )增加整個(gè)系統的規模。其中,擁有大量芯片的 pods,這些芯片通過(guò)高速網(wǎng)絡(luò )連接在一起,可以提高大型模型的效率。
當然,移動(dòng)設備上的 ML 能力也在顯著(zhù)增加。Pixel 6 手機配備了全新的谷歌張量處理器(Google Tensor processor),集成了強大的ML加速器,以更好地支持重要的設備上功能。
我們使用 ML 來(lái)加速各種計算機芯片的設計(下面將詳細介紹),這也帶來(lái)了好處,特別是在生產(chǎn)更好的 ML 加速器方面。
持續改進(jìn)的 ML 編譯和 ML 工作負載的優(yōu)化:
即使在硬件沒(méi)有變化的情況下,對于 ML 加速器的編譯器和系統軟件的其他優(yōu)化也可以顯著(zhù)提高效率。例如,“自動(dòng)調優(yōu)多通道機器學(xué)習編譯器的靈活方法”展示了如何使用 ML 來(lái)執行編譯設置的自動(dòng)調優(yōu),從而在相同的底層硬件上為一套 ML 程序實(shí)現 5-15%(有時(shí)高達 2.4 倍的改進(jìn))的全面性能改進(jìn)。GSPMD 描述了一個(gè)基于 XLA 編譯器的自動(dòng)并行化系統,該系統能夠擴展大多數深度學(xué)習網(wǎng)絡(luò )架構,超出加速器的內存容量,并已應用于許多大型模型,如 GShard-M4、LaMDA、BigSSL、ViT、MetNet-2 和 GLaM 等等,在多個(gè)領(lǐng)域上帶來(lái)了最先進(jìn)的結果。
圖丨在 150 ML 模型上使用基于 ML 的編譯器自動(dòng)調優(yōu),可以加快端到端模型的速度。包括實(shí)現 5% 或更多改進(jìn)比例的模型。條形顏色代表了優(yōu)化不同模型組件的相對改進(jìn)程度。
人類(lèi)創(chuàng )造力驅動(dòng)的更高效模型架構的發(fā)現:
模型體系結構的不斷改進(jìn),大大減少了許多問(wèn)題達到給定精度水平所需的計算量。例如,我們在 2017 年開(kāi)發(fā)的 Transformer 結構,能夠在幾個(gè) NLP 任務(wù)和翻譯基準上提高技術(shù)水平。與此同時(shí),可以使用比各種其他流行方法少 10 倍甚至百倍的計算來(lái)實(shí)現這些結果,例如作為 LSTMs 和其他循環(huán)架構。類(lèi)似地,視覺(jué) Transformer 能夠在許多不同的圖像分類(lèi)任務(wù)中顯示出改進(jìn)的最新結果,盡管使用的計算量比卷積神經(jīng)網(wǎng)絡(luò )少 4 到 10 倍。
更高效模型架構的機器驅動(dòng)發(fā)現:
神經(jīng)體系結構搜索(NAS, Neural Architecture Search)可以自動(dòng)發(fā)現對于給定的問(wèn)題域更有效、新穎的 ML 體系結構。NAS 的主要優(yōu)勢是,它可以大大減少算法開(kāi)發(fā)所需的工作量,因為 NAS 在每個(gè)搜索空間和問(wèn)題域組合中只需要一次性的工作。此外,雖然最初執行 NAS 的工作可能在計算上很昂貴,但由此產(chǎn)生的模型可以大大減少下游研究和生產(chǎn)環(huán)境中的計算,從而大大減少整體資源需求。例如,為了發(fā)現演化 Transformer(Evolved Transformer)而進(jìn)行的一次性搜索只產(chǎn)生了 3.2 噸的 CO2e,但是生成了一個(gè)供 NLP 社區中的任何人使用的模型,該模型比普通的 Transformer 模型的效率高 15-20%。最近對 NAS 的使用發(fā)現了一種更高效的體系結構 Primer(開(kāi)源),與普通的 Transformer 模型相比,它降低了4倍的訓練成本。通過(guò)這種方式,NAS 搜索的發(fā)現成本通??梢酝ㄟ^(guò)使用發(fā)現的更高效的模型體系結構得到補償,即使它們只應用于少數下游任務(wù)。
圖丨與普通的 Transformer 模型相比,NAS 發(fā)現的 Primer 架構的效率是前者的4倍。這幅圖(紅色部分)顯示了 Primer 的兩個(gè)主要改進(jìn):深度卷積增加了注意力的多頭投影和 squared ReLU 的激活(藍色部分表示原始 Transformer)。
NAS 還被用于發(fā)現視覺(jué)領(lǐng)域中更有效的模型。EfficientNetV2 模型體系結構是神經(jīng)體系結構搜索的結果,該搜索聯(lián)合優(yōu)化了模型精度、模型大小和訓練速度。在 ImageNet 基準測試中,EfficientNetV2 提高了 5 到 11 倍的訓練速度,同時(shí)大大減少了先前最先進(jìn)模型的尺寸。CoAtNet 模型架構是通過(guò)一個(gè)架構搜索創(chuàng )建的,該架構搜索采用了視覺(jué) Transformer 和卷積網(wǎng)絡(luò )的想法,以創(chuàng )建一個(gè)混合模型架構,其訓練速度比視覺(jué) Transformer 快 4 倍,并取得了新的 ImageNet 技術(shù)水平。圖丨與之前的 ImageNet 分類(lèi)模型相比,EfficientNetV2 獲得了更好的訓練效率。
搜索的廣泛應用有助于改進(jìn) ML 模型體系結構和算法,包括強化學(xué)習(RL,Reinforcement Learning)和進(jìn)化技術(shù)(evolutionary techniques)的使用,激勵了其他研究人員將這種方法應用到不同的領(lǐng)域。為了幫助其他人創(chuàng )建他們自己的模型搜索,我們有一個(gè)開(kāi)源的模型搜索平臺,可以幫助他們探索發(fā)現其感興趣的領(lǐng)域的模型搜索。除了模型架構之外,自動(dòng)搜索還可以用于發(fā)現新的、更有效的強化學(xué)習算法,這是在早期 AutoML-Zero 工作的基礎上進(jìn)行的,該工作演示了自動(dòng)化監督學(xué)習算法發(fā)現的方法。
稀疏的使用:
稀疏性是算法的另一個(gè)重要的進(jìn)步,它可以極大地提高效率。稀疏性是指模型具有非常大的容量,但對于給定的任務(wù)、示例或 token,僅激活模型的某些部分。2017 年,我們推出了稀疏門(mén)控專(zhuān)家混合層(Sparsely-Gated Mixture-of-Experts Layer),在各種翻譯基準上展示了更好的性能,同時(shí)在計算量上也保持著(zhù)一定的優(yōu)勢,比先前最先進(jìn)的密集 LSTM 模型少 10 倍。最近,Switch Transformer 將專(zhuān)家混合風(fēng)格的架構與 Transformer 模型架構結合在一起,在訓練時(shí)間和效率方面比密集的 T5-Base Transformer 模型提高了 7 倍。GLaM 模型表明,Transformer 和混合專(zhuān)家風(fēng)格的層可以組合在一起,可以產(chǎn)生一個(gè)新的模型。該模型在 29 個(gè)基準線(xiàn)上平均超過(guò) GPT-3 模型的精度,使用的訓練能量減少 3 倍,推理計算減少 2 倍。稀疏性的概念也可以用于降低核心 Transformer 架構中注意力機制的成本。
圖丨BigBird 稀疏注意模型由全局 tokens(用于處理輸入序列的所有部分)、局部 tokens(用于處理輸入序列的所有部分)和一組隨機 tokens 組成。從理論上看,這可以解釋為在 Watts-Strogatz 圖上添加了一些全局 tokens。
就計算效率而言,在模型中使用稀疏性顯然是一種具有很高潛在收益的方法,而就在這個(gè)方向上進(jìn)行嘗試的研究想法而言,我們只是觸及了表面。
這些提高效率的方法中的每一種都可以結合在一起,這樣,與美國平均使用 P100 GPUs 訓練的基線(xiàn) Transformer 模型相比,目前在高效數據中心訓練的等效精度語(yǔ)言模型的能源效率提高了 100 倍,產(chǎn)生的 CO2e 排放量減少了 650 倍。這甚至還沒(méi)有考慮到谷歌的碳中和(carbon neutral),100% 的可再生能源抵消。
隨著(zhù) ML 和硅硬件(如 Pixel 6 上的 Google Tensor 處理器)的創(chuàng )新,許多新體驗成為可能,移動(dòng)設備能夠更持續有效地感知上下文和環(huán)境。這些進(jìn)步提高了設備的可訪(fǎng)問(wèn)性和易用性,同時(shí)計算能力也有提升,這對于移動(dòng)攝影、實(shí)時(shí)翻譯等流行功能至關(guān)重要。值得注意的是,最近的技術(shù)進(jìn)步還為用戶(hù)提供了更加個(gè)性化的體驗,同時(shí)加強了隱私保護。
人們比以往任何時(shí)候都依賴(lài)他們的手機攝像頭來(lái)記錄日常生活和創(chuàng )作靈感。機器學(xué)習在計算攝影中的巧妙應用提升了手機相機的功能,使它們更易于使用,產(chǎn)生了更高質(zhì)量的圖像。一些先進(jìn)的技術(shù),如改進(jìn)的 HDR+,在弱光下的拍攝能力,更好的人像處理功能,及更大的包容性使得手機攝像可以更真實(shí)地反映拍攝對象。Google Photos 中基于機器學(xué)習的強大工具如 Magic Eraser 等還能進(jìn)一步優(yōu)化照片。
除了用手機進(jìn)行創(chuàng )造外,許多人還依賴(lài)手機與他人實(shí)時(shí)跨語(yǔ)言溝通,例如在打電話(huà)時(shí)使用 Live Translate 和 Live Caption。由于自我監督學(xué)習(self-supervised learning)和有噪音的學(xué)生訓練(noisy student training)等技術(shù),語(yǔ)音識別準確率持續改善。對有口音的語(yǔ)音、嘈雜的語(yǔ)音或重疊語(yǔ)音等有明顯的改善。在文本到語(yǔ)音合成的進(jìn)步基礎上,人們可以使用谷歌朗讀技術(shù) Read Aloud 在越來(lái)越多的平臺上收聽(tīng)網(wǎng)頁(yè)和文章,使獲取信息更加便宜,跨越了模態(tài)和語(yǔ)言的障礙。通過(guò)穩定生成的即時(shí)翻譯,谷歌翻譯(Google Translate)的實(shí)時(shí)語(yǔ)音翻譯水平顯著(zhù)改善。高質(zhì)量的語(yǔ)音翻譯在多語(yǔ)言交流時(shí)提供了更好的用戶(hù)體驗。在 Lyra 語(yǔ)音編****和 Soundstream 音頻編****中,機器學(xué)習與傳統編****方法相結合使語(yǔ)音、音樂(lè )和其他聲音能夠以低得多的比特率保真地傳送。
智能文本選擇(Smart Text Selection)等工具得到了改進(jìn),它可以自動(dòng)選擇電話(huà)號碼或地址等信息,以便復制和粘貼。此外,Screen Attention 可以防止手機屏幕變暗,凝視識別技術(shù)有所的改進(jìn)。機器學(xué)習還讓人們的生活更加安全。例如, Suspicious Message Alerts 對可能的網(wǎng)絡(luò )釣魚(yú)攻擊提出預警,Safer Routing 提出更加安全的替代路線(xiàn)。
考慮到這些功能使用數據的敏感性,把它們默認設置為不共享是很重要的。以上提到的許多功能都在 Android的Private Compute Core 中運行。這是一個(gè)開(kāi)源的、安全的環(huán)境,與操作系統的其余部分隔離開(kāi)。Android 確保未經(jīng)用戶(hù)同意,不會(huì )將在 Private Compute Core 中的數據共享給任何應用程序。Android 還阻止 Private Compute Core 的任何功能直接訪(fǎng)問(wèn)網(wǎng)絡(luò )。功能通過(guò)一小部分開(kāi)源 API 與 Private Compute Services 進(jìn)行通信,這樣就能剔除身份敏感信息并使用聯(lián)邦學(xué)習、聯(lián)邦分析和私人信息檢索等功能保護隱私。
這些技術(shù)對于發(fā)展下一代計算和交互范例至關(guān)重要,個(gè)人或公共設備需要在不損害隱私的情況下學(xué)習并幫助訓練(算法)模型。聯(lián)邦的無(wú)人監督學(xué)習方法,可以創(chuàng )造出越來(lái)越智能的系統。這些系統的交互更加直觀(guān),更像是一個(gè)社交實(shí)體,而不是一臺機器。只有對我們的技術(shù)進(jìn)行深刻變革,才有可能廣泛而公平地擁有這些智能系統,讓它們支持神經(jīng)計算。
近年來(lái),我們看到機器學(xué)習在物理、生物等基礎科學(xué)科的影響越來(lái)越大,在可再生能源和醫學(xué)等領(lǐng)域也有許多令人興奮的應用。計算機視覺(jué)模型對個(gè)人和全球問(wèn)題都有所功效。它們可以幫助醫生進(jìn)行工作,擴大我們對神經(jīng)生理學(xué)的理解,還可以提供更好的天氣預報,加快救災工作。其他類(lèi)型的機器學(xué)習模型能發(fā)現減少碳排放和提高替代能源產(chǎn)量的方法,在應對氣候變化方面至關(guān)重要。這樣的模型甚至可以作為藝術(shù)家的創(chuàng )作工具!隨著(zhù)機器學(xué)習變得更加強?。敯簦┖屯晟?,它在的應用潛力繼續擴大,有助于解決我們面臨的一些最具挑戰性的問(wèn)題。
計算機視覺(jué)提供新的洞察力:
在過(guò)去的十年里,計算機視覺(jué)的進(jìn)步使計算機能夠完成不同科學(xué)領(lǐng)域的各種任務(wù)。在神經(jīng)科學(xué)中,自動(dòng)重建技術(shù)可以從腦組織薄片的高分辨率電子顯微鏡圖像中重現腦組織的神經(jīng)連接結構。前些年,谷歌為研究果蠅、老鼠的大腦創(chuàng )造了這樣的資源,去年,我們與哈佛大學(xué)的利希特曼實(shí)驗室(Lichtman Lab)合作,進(jìn)行了第一次大規模的人類(lèi)皮質(zhì)突觸連接研究。該研究跨越了所有皮層的多個(gè)細胞類(lèi)型。這項工作的目標是幫助神經(jīng)科學(xué)家研究令人驚嘆的人類(lèi)大腦。例如,下圖顯示了成人大腦中約 860 億個(gè)神經(jīng)元中的 6 個(gè)。
計算機視覺(jué)技術(shù)還提供了強大的工具來(lái)應對全球挑戰?;谏疃葘W(xué)習的天氣預報方法用衛星和雷達圖像作為輸入,結合其他大氣數據,產(chǎn)生比傳統的基于物理的模型更準確的天氣和降水預報,預報時(shí)間長(cháng)達 12 小時(shí)。它們還可以比傳統方法更快地產(chǎn)生更新的預報,這在極端天氣時(shí)期可能是至關(guān)重要的。
擁有準確的建筑足跡記錄對于從人口估計和城市規劃到人道主義響應和環(huán)境科學(xué)的一系列應用都是至關(guān)重要的。在世界上的許多地方,包括非洲的大部分地區,這一信息以前是無(wú)法獲得的,但新的研究表明,將計算機視覺(jué)技術(shù)應用于衛星圖像可以幫助識別大陸范圍內的建筑邊界。這一方法的結果已在開(kāi)放建筑數據集中發(fā)布,這是一種新的開(kāi)放獲取的數據資源,其中包含 5.16 億座覆蓋非洲大陸大部分地區的建筑的位置和占地面積。我們還能夠在與世界糧食計劃署的合作中使用這一獨特的數據集,通過(guò) ML 的應用提供自然災害后的快速損失評估。
在健康領(lǐng)域的應用:
除了推進(jìn)基礎科學(xué),人工智能還可以在更廣泛的范圍內為醫學(xué)和人類(lèi)健康做出貢獻。在健康領(lǐng)域利用計算機科學(xué)并不是什么新鮮事。但機器學(xué)習打開(kāi)了新的大門(mén),帶來(lái)了新的機遇和挑戰。
以基因組學(xué)領(lǐng)域為例。計算機從一開(kāi)始就對基因組學(xué)很重要,但是機器學(xué)習增加了新的功能并顛覆了舊的模式。當谷歌的研究人員探索這一領(lǐng)域的工作時(shí),許多專(zhuān)家認為利用深度學(xué)習來(lái)推斷基因變異的想法是牽強的。如今,這種機器方法被認為是最先進(jìn)的。谷歌發(fā)布的開(kāi)源軟件 DeepConsensus 以及與加州大學(xué)洛杉磯分校(UCSC)合作的 Pepper-DeepVariant 提供了尖端的信息學(xué)支持。我們希望更多的快速測序可以在近期進(jìn)入實(shí)際應用領(lǐng)域,并對患者產(chǎn)生實(shí)際影響。
以基因組學(xué)領(lǐng)域為例。計算技術(shù)一直對基因組學(xué)非常重要,但機器學(xué)習方法改變了之前的舊模式,并增添了新的功能。最初,谷歌的研究人員使用機器學(xué)習在該領(lǐng)域展開(kāi)研究時(shí),許多專(zhuān)家認為使用深度學(xué)習技術(shù)從測序儀中推斷是否存在基因變異的想法是不可行的。但如今,機器學(xué)習是最先進(jìn)的研究方法。并且未來(lái)機器學(xué)習將扮演更重要的角色,比如基因組學(xué)公司正在開(kāi)發(fā)更精確、更快的新測序儀,它需要匹配更好的推理能力。我們也發(fā)布了 DeepConsensus 開(kāi)源軟件,以及與 UCSC 合作的 PEPPER-DeepVariant,為這些新儀器提供最前沿的信息學(xué)支持。我們希望這些性能更強的測序儀可以盡快應用在實(shí)際患者中并產(chǎn)生有益影響。圖丨DeepConsensus 中的 Transformer 結構示意圖,它可以糾正測序錯誤,提高準確率。
機器學(xué)習也可以在處理測序數據之外起作用,比如使用機器學(xué)習加速個(gè)性化健康的基因組信息建設。廣泛表型和測序個(gè)體的大型生物樣本庫的建立,可以徹底改變我們理解和管理疾病遺傳易感性的方式?;跈C器學(xué)習的表型方法可以提高將大型圖像和文本數據集轉換為可用于遺傳相關(guān)研究表型的可擴展性,并且 DeepNull 也可以利用大型表型數據進(jìn)行遺傳研究。我們也很高興將這兩種開(kāi)源方法公布給科學(xué)界。圖丨根據生物樣本庫中的基因組數據,生成的解剖學(xué)和疾病性狀的大規模量化過(guò)程。
正如機器學(xué)習可以幫助我們看到基因組數據中的隱藏特征一樣,它也可以幫助我們從其他健康數據類(lèi)型中發(fā)現并收集新信息。疾病的診斷通常包括模式識別、關(guān)系量化和在大量類(lèi)別中識別出新實(shí)例等任務(wù),而這些都是機器學(xué)習擅長(cháng)的。谷歌的研究人員已經(jīng)使用機器學(xué)習來(lái)解決各種各樣的問(wèn)題,但也許沒(méi)有一個(gè)問(wèn)題比它在醫學(xué)成像中的應用有更大進(jìn)展。
谷歌在 2016 年發(fā)表了一篇關(guān)于深度學(xué)習在糖尿病視網(wǎng)膜病變篩查中應用的論文,被《美國醫學(xué)會(huì )雜志》(JAMA)的編輯選為十年來(lái)最具影響力的十大論文之一。這意味著(zhù)它不僅在機器學(xué)習和健康方面具有廣泛影響力,并且也是十年來(lái)最具影響的 JAMA 論文之一。而且我們的研究影響并不僅限于對論文,而是擴展到現實(shí)世界中建立系統的能力。通過(guò)我們的全球合作伙伴網(wǎng)絡(luò ),該項目已經(jīng)幫助印度、泰國、德國和法國的數萬(wàn)名患者進(jìn)行疾病篩查,否則他們自己可能沒(méi)有能力接受這種威脅視力疾病的檢測。
我們希望看到更多機器學(xué)習輔助系統的部署,以應用到改善乳腺癌篩查、檢測肺癌、加速癌癥放射治療、標記異常x光和對前列腺癌活檢分級上。機器學(xué)習為每個(gè)領(lǐng)域都提供了新的幫助。比如機器學(xué)習輔助的結腸鏡檢查,就是一個(gè)超越了原有基礎的例子。結腸鏡檢查不僅僅只是診斷結腸癌,還可以在手術(shù)過(guò)程中切除息肉,是阻止疾病發(fā)展和預防嚴重疾病的前沿陣地。在該領(lǐng)域中,我們已經(jīng)證明機器學(xué)習可以幫助確保醫生不遺漏息肉,幫助檢測難以發(fā)現的息肉,還可以增加維度來(lái)提高準確度,例如應用同步定位和繪圖技術(shù)。在與耶路撒冷 Shaare Zedek Medical Center 醫療中心的合作中,實(shí)驗證明這些系統可以實(shí)時(shí)工作,平均每次手術(shù)可以檢測到一個(gè)可能會(huì )漏檢的息肉,而且每次手術(shù)的錯誤警報少于 4 次。
圖丨對(A)一般異常、(B)結核病和(C)COVID-19 的真陽(yáng)性、假陽(yáng)性以及真陰性、假陰性的胸部 X 光片(CXR)進(jìn)行采樣。在每張 CXR 中,紅色的輪廓表示模型識別時(shí)關(guān)注的區域(即類(lèi)激活圖),黃色的輪廓表示由放射科醫生認定的感興趣區域。
Care Studio 是另一個(gè)有潛力的醫療保健計劃,它使用最先進(jìn)的機器學(xué)習和 NLP 技術(shù)來(lái)分析結構化數據和醫療記錄,并在正確的時(shí)間為臨床醫生提供相關(guān)信息,幫助他們提供更積極和準確的治療。
盡管機器學(xué)習可能對擴大訪(fǎng)問(wèn)量和提高臨床準確性很重要,但我們發(fā)現有新的趨勢正在出現:使用機器學(xué)習幫助人們的日常健康和幸福。我們日常使用的設備都部署有強大的傳感器,可以幫助人們普及健康指標和信息,使人們可以對自己的健康做出更明智的決定。目前已經(jīng)有了可以評估心率和呼吸頻率的智能手機攝像頭,并且無(wú)需額外的硬件設備。Nest Hub 設備可以支持非接觸式睡眠感知,讓用戶(hù)更好地了解自己的夜間健康狀況。我們可以在自己的 ASR 系統中顯著(zhù)提高無(wú)序語(yǔ)音識別的質(zhì)量,也可以使用機器學(xué)習幫助有語(yǔ)音障礙的人重塑聲音,使他們能夠用自己的聲音交流。也許,使用機器學(xué)習讓智能手機幫助人們更好地研究皮膚病狀況,或者幫助視力有限的人慢跑,并不是遙不可及的:這些機遇證明未來(lái)是光明的。
用于非接觸式睡眠感知的自定義機器學(xué)習模型可以有效地處理連續的3維雷達張量(匯總了一定距離、頻率和時(shí)間范圍內的活動(dòng)),從而自動(dòng)計算出用戶(hù)清醒或睡著(zhù)的可能性。
機器學(xué)習在氣候危機中的應用:
氣候變化也是一個(gè)至關(guān)重要的領(lǐng)域,對人類(lèi)來(lái)說(shuō)具有非常緊迫的威脅。我們需要共同努力來(lái)扭轉有害排放的趨勢,以確保未來(lái)的安全和繁榮。而更好地了解不同選擇對氣候的影響,可以幫助我們用多種方式應對這一挑戰。
為此,我們在谷歌地圖中推出了環(huán)保路線(xiàn),預計該方法可以每年節省約 100 萬(wàn)噸二氧化碳排放(相當于在道路上減少 20 多萬(wàn)輛汽車(chē))。最近的實(shí)驗研究表明,在美國鹽湖城使用谷歌地圖導航可以實(shí)現更快、更環(huán)保的路線(xiàn),節省了 1.7% 的二氧化碳排放量和 6.5% 的旅行時(shí)間。此外,還可以讓地圖軟件更好地適應電動(dòng)汽車(chē),幫助緩解里程焦慮,鼓勵人們使用無(wú)排放的交通工具。我們還與世界各地的城市進(jìn)行合作,利用匯總的歷史交通數據,幫助改善交通燈計時(shí)設置。在以色列和巴西進(jìn)行的一項早期試點(diǎn)研究顯示,有檢查十字路口的燃油消耗和延誤時(shí)間減少了 10-20%。
圖丨采用谷歌地圖的環(huán)保路線(xiàn),將會(huì )展示最快和最省油的路線(xiàn),所以你可以選擇任意一條適合你的路線(xiàn)。
從長(cháng)遠來(lái)看,核聚變有望成為一種改變世界方式的可再生能源。在與 TAE Technologies 的長(cháng)期合作中,我們通過(guò)設置 1000 多個(gè)相關(guān)控制參數,使用機器學(xué)習來(lái)幫助聚變反應堆保持穩定的等離子體。通過(guò)我們的合作,TAE 實(shí)現了 Norman 反應堆的主要目標,這離我們實(shí)現平衡的核聚變又近了一步。這臺機器能在 3000 萬(wàn)開(kāi)爾文的溫度下保持穩定的等離子體 30 毫秒,這是系統可用功率范圍的極限。目前他們已經(jīng)設計完成了一個(gè)更強大的核聚變機器,并希望該機器能在十年內展示出實(shí)現核聚變平衡的必要條件。
并且,我們還得努力應對越來(lái)越常見(jiàn)的火災和洪水(像數百萬(wàn)加州人一樣不得不適應定期的“火災季節”)。去年,我們發(fā)布了一份由衛星數據支持的火災邊界地圖,幫助美國人輕松地在自己設備上了解火災的大致規模和位置。我們還將谷歌上所有的火災信息進(jìn)行整合,并在全球范圍內進(jìn)行推出。我們也一直在應用圖形優(yōu)化算法來(lái)幫助優(yōu)化火災疏散路線(xiàn),以幫助人們安全逃離快速推進(jìn)的火災。2021 年,我們的洪水預報計劃的預警系統覆蓋范圍擴大到 3.6 億人,是前一年的三倍以上,并向面臨洪災風(fēng)險人群的移動(dòng)設備直接發(fā)送了 1.15 億多條通知。我們還首次在現實(shí)世界系統中部署了基于 LSTM(長(cháng)短時(shí)記憶網(wǎng)絡(luò ))的預測模型和 Manifold 模型,并分享了系統中所有組件的詳細信息。
圖丨谷歌地圖中的火災圖在緊急情況下為人們提供關(guān)鍵信息。
我們也在努力完善可持續發(fā)展計劃。谷歌在 2007 年成為第一家實(shí)現碳中和的大型公司,也在 2017 年成為第一家使用 100% 可再生能源的公司。我們運營(yíng)著(zhù)行業(yè)中最清潔的全球云,也是世界上最大的可再生能源企業(yè)采購商。在 2020 年,我們成為第一家承諾在全球所有數據中心和校園中全天候運行無(wú)碳能源的大型公司。這比將能源使用與可再生能源相匹配的傳統方法更具挑戰性,但我們希望能在 2030 年前完成這一目標。目前,機器學(xué)習模型訓練的碳排放是該領(lǐng)域關(guān)注的主要問(wèn)題,而在模型架構、數據中心和機器學(xué)習加速器方面做出正確的選擇,可以減少約 100-1000 倍的碳足跡訓練量。
隨著(zhù)機器學(xué)習在技術(shù)產(chǎn)品和社會(huì )中的應用越來(lái)越廣泛,為了確保它被公平和公正地應用,我們必須繼續開(kāi)發(fā)新技術(shù),以確保它惠及更多人。這是我們“負責任人工智能和以人為本技術(shù)”(Responsible AI and Human-Centered Technology)研究小組的主要研究重點(diǎn),也是我們對各種責任相關(guān)主題進(jìn)行研究的領(lǐng)域。
基于用戶(hù)在線(xiàn)產(chǎn)品活動(dòng)的推薦系統是研究的重點(diǎn)領(lǐng)域。由于這些推薦系統通常由多個(gè)不同部分組成,理解它們的公平性往往需要深入了解單個(gè)部分以及各個(gè)部分組合在一起時(shí)的行為。最近的研究工作揭示了提高單個(gè)部分和整個(gè)推薦系統的公平性的方法,有助于更好地理解這些關(guān)系。此外,當從用戶(hù)的隱藏活動(dòng)中學(xué)習時(shí),推薦系統以一種無(wú)偏差的方式進(jìn)行學(xué)習。因為從以前用戶(hù)所展示的項目中直接學(xué)習的方法中會(huì )表現出很明顯的偏差。并且如果不對這種偏差進(jìn)行糾正,推薦產(chǎn)品被展示的位置越顯眼,它們就越容易被頻繁推薦給未來(lái)的用戶(hù)。
與推薦系統一樣,上下文環(huán)境在機器翻譯中也很重要。因為大多數機器翻譯系統都是獨立地翻譯單個(gè)句子,并沒(méi)有額外的上下文環(huán)境。在這種情況下,它們往往會(huì )加強與性別、年齡或其他領(lǐng)域有關(guān)的偏見(jiàn)。為此,我們長(cháng)期以來(lái)一直在研究如何減少翻譯系統中的性別偏見(jiàn)。為了幫助翻譯界研究,去年我們基于維基百科傳記的翻譯來(lái)研究翻譯中的性別偏見(jiàn),并發(fā)布了一個(gè)數據集。
部署機器學(xué)習模型的另一個(gè)常見(jiàn)問(wèn)題是分布轉移:如果訓練模型的數據統計分布與輸入模型的數據統計分布不一致,那么有時(shí)模型的行為是不可預測的。最近的研究中,我們使用 Deep Bootstrap 框架來(lái)比較現實(shí)世界和“理想世界”(ideal world)的區別,前者的訓練數據是有限的,而后者擁有無(wú)限的數據。更好地理解模型在這兩種情況下(真實(shí)與理想)的行為,可以幫助我們開(kāi)發(fā)出更適用于新環(huán)境的模型,并減少在固定訓練數據集上的偏差。
盡管人們對機器學(xué)習算法和模型開(kāi)發(fā)的工作有極大的關(guān)注,但研究者們對于數據收集和數據集的管理往往關(guān)注較少,但這些研究也非常重要,因為機器學(xué)習模型所訓練的數據可能是下游應用中出現偏見(jiàn)和公平性問(wèn)題的潛在原因。分析機器學(xué)習中的數據級聯(lián)可以幫助我們識別機器學(xué)習項目生命周期中,可能對結果產(chǎn)生重大影響的環(huán)節。這項關(guān)于數據級聯(lián)的研究已經(jīng)在修訂后的 PAIR 指南中為數據收集和評估提供了證據支持,該指南主要面向的是機器學(xué)習的開(kāi)發(fā)人員和設計人員。
圖丨不同顏色的箭頭表示各種類(lèi)型的數據級聯(lián),每個(gè)級聯(lián)通常起源于上游部分,在機器學(xué)習開(kāi)發(fā)過(guò)程中復合,并體現在下游部分。
更好地理解數據是機器學(xué)習研究的一個(gè)重要部分。我們對一些方法進(jìn)行研究,來(lái)更好地理解特定的訓練實(shí)例對機器學(xué)習模型的影響,這可以幫助我們發(fā)現和調查異常數據,因為錯誤標記的數據或其他類(lèi)似的問(wèn)題可能會(huì )對整個(gè)模型行為產(chǎn)生巨大的影響。同時(shí),我們還建立了“了解你的數據”(Know Your Data)工具,以幫助機器學(xué)習研究人員和從業(yè)人員更好地了解數據集的屬性。去年,我們還進(jìn)行了案例研究,教你如何使用“了解你的數據”工具來(lái)探索數據集中的性別偏見(jiàn)和年齡偏見(jiàn)等問(wèn)題。
圖丨“了解你的數據”截圖顯示了描述吸引力和性別詞匯之間的關(guān)系。例如,“有吸引力的”和“男性/男人/男孩”同時(shí)出現 12 次,但我們預計偶然出現的次數約為 60 次(比例為 0.2 倍)。另一方面,“有吸引力的”和“女性/女人/女孩”同時(shí)出現的概率是 2.62 倍,超過(guò)預計偶然出現的情況。
因為動(dòng)態(tài)使用基準測試數據集在機器學(xué)習作領(lǐng)域中扮演著(zhù)核心角色,了解它也很重要。盡管對單個(gè)數據集的研究已經(jīng)變得越來(lái)越普遍,但對整個(gè)領(lǐng)域的動(dòng)態(tài)使用數據集的研究仍然沒(méi)有得到充分探索。在最近的研究工作中,我們第一個(gè)發(fā)表了關(guān)于動(dòng)態(tài)的數據集創(chuàng )建、采用和重用的大規模經(jīng)驗性分析。這項研究工作為實(shí)現更嚴格的評估,以及更公平和社會(huì )化的研究提供了見(jiàn)解。
對每個(gè)人來(lái)說(shuō),創(chuàng )建更具包容性和更少偏見(jiàn)的公共數據集是幫助改善機器學(xué)習領(lǐng)域的一個(gè)重要方法。2016 年,我們發(fā)布了開(kāi)放圖像(Open Images)數據集,它包含了約 900 萬(wàn)張圖片,這些圖片用圖像標簽標注,涵蓋了數千個(gè)對象類(lèi)別和 600 類(lèi)的邊界框標注。
去年,我們在開(kāi)放圖像擴展(Open Images Extended)集合中引入了包容性人物標注(MIAP)數據集。該集合包含更完整人類(lèi)層次結構的邊界框標注,每個(gè)標注都帶有與公平性相關(guān)的屬性,包括感知的性別和年齡范圍。隨著(zhù)人們越來(lái)越致力于減少不公平的偏見(jiàn),作為負責任的人工智能(Responsible AI)研究的一部分,我們希望這些標注能夠鼓勵已經(jīng)使用開(kāi)放圖像數據集的研究人員在他們的研究中納入公平性分析。
我們的團隊并不是唯一一個(gè)創(chuàng )建數據集來(lái)改善機器學(xué)習效果的團隊,我們還創(chuàng )建了“數據集搜索”(Dataset Search)方法,使得無(wú)論來(lái)自哪里的用戶(hù)都可以在我們的幫助下發(fā)現新的和有用的數據集。
谷歌非常重視應對網(wǎng)絡(luò )暴力問(wèn)題,包括使用極端語(yǔ)言,發(fā)表仇恨言論和散播虛假信息等。能夠可靠、高效和大規模地檢測到這些行為,對于確保平臺安全至關(guān)重要,同時(shí)也能避免機器學(xué)習通過(guò)無(wú)監督學(xué)習的方式從網(wǎng)絡(luò )上大量復制這些負面信息。在這方面,谷歌開(kāi)創(chuàng )了領(lǐng)先的 Perspective API 工具。但是如何在大規模場(chǎng)景中精準地檢測出有害信息仍然是一個(gè)復雜的問(wèn)題。在最近,我們與不同的學(xué)術(shù)伙伴合作,引入了一個(gè)全面的分類(lèi)法來(lái)應對不斷變化的網(wǎng)絡(luò )仇恨和網(wǎng)絡(luò )騷擾情況。谷歌還對如何發(fā)現隱蔽性網(wǎng)絡(luò )暴力,如微歧視進(jìn)行了研究。通常,微歧視在網(wǎng)絡(luò )暴力的問(wèn)題中容易被忽視。我們發(fā)現,對微歧視這種主觀(guān)概念進(jìn)行數據注釋的傳統方法很可能將少數族裔邊緣化。因此谷歌提出用多任務(wù)框架來(lái)解決問(wèn)題的新的分類(lèi)建模方法。此外,谷歌的 Jigsaw 團隊與喬治華盛頓大學(xué)(George Washington University)的研究人員合作,通過(guò)定性研究和網(wǎng)絡(luò )層面的內容分析,研究了極端的仇恨群體如何在社交媒體平臺上散播虛假信息。
另一個(gè)潛在的問(wèn)題是,機器學(xué)習算法生成的模型有時(shí)會(huì )產(chǎn)生缺乏證據支持的結果。為了在問(wèn)題回答、總結和對話(huà)中解決這一問(wèn)題,谷歌開(kāi)發(fā)了一個(gè)新的框架來(lái)衡量算法結果是否可以歸因于特定的來(lái)源。我們發(fā)布了注釋指南,并證明可以使用這項可靠的技術(shù)來(lái)對候選模型進(jìn)行評估。
模型的交互式分析和調試仍然是負責任地使用機器學(xué)習語(yǔ)言的關(guān)鍵。谷歌對 Language Interpretability Tool 的技術(shù)和功能進(jìn)行了更新。更新包括對圖像和表格數據的支持,從 What-If Tool 中繼承下來(lái)的各種功能,以及 Testing with Concept Activation Vectors 技術(shù)對公平性分析的內置支持。機器學(xué)習系統的可解釋性也是谷歌提出的“負責任的 AI 愿景”(Responsible AI vision)的關(guān)鍵部分。在與 DeepMind 的合作下,谷歌開(kāi)始了解自我訓練的AlphaZero國際象棋系統是如何獲取人類(lèi)的象棋概念的。
谷歌還在努力拓寬“負責任的人工智能”的視角和格局,使其超越西方的局限。一項最近的研究提出在非西方背景下,基于西方機構和基建的算法公平概念并不適用。研究為印度的算法公平研究提供了新方向和新途徑。谷歌正在幾大洲積極開(kāi)展調查,以更好地了解人們對人工智能的看法和偏好。西方視角下的算法公平研究?jì)A向于只關(guān)注少數幾個(gè)問(wèn)題,因此導致很多非西方背景下的算法偏見(jiàn)問(wèn)題被忽略。為了解決這一差距,我們與密歇根大學(xué)(University Of Michigan)合作,開(kāi)發(fā)了一種弱監督薄的自然語(yǔ)言處理(NLP)模型,以便在更廣泛的地理文化語(yǔ)境中檢測出語(yǔ)言偏見(jiàn),反映人類(lèi)在不同的地理環(huán)境中對攻擊性和非攻擊性語(yǔ)言的判斷。
此外,谷歌還探索了機器學(xué)習在發(fā)展中國家的應用,包括開(kāi)發(fā)一個(gè)以農民為中心的機器學(xué)習研究方案。通過(guò)這項工作,我們希望鼓勵人工智能領(lǐng)域更多思考如何將機器學(xué)習支持的解決方案帶給千萬(wàn)小農戶(hù),以改善他們的生活和社區。
讓整個(gè)社會(huì )的利益相關(guān)方參與到機器學(xué)習研發(fā)部署的各階段是谷歌正在努力的方向,這讓谷歌牢記什么才是最需要解決的問(wèn)題。本著(zhù)這一原則,我們和非營(yíng)利組織負責人、政府和非政府組織代表以及其他專(zhuān)家之間舉行了健康公平研究峰會(huì )(Health Equity Research Summit),討論如何將更多的公平帶入整個(gè)機器學(xué)習的生態(tài)系統,使公平原則從最初的解決問(wèn)題貫穿到結果評估的最后一步。
從社會(huì )出發(fā)的研究方法讓谷歌在機器學(xué)習的系統中就思考數字福利和種族平等問(wèn)題。谷歌希望更多了解非洲裔美國人對 ASR 系統的體驗。谷歌也在更廣泛地聽(tīng)取公眾的意見(jiàn),以了解機器學(xué)習如何在重大生活事件中提供幫助,例如提供家庭照顧。
隨著(zhù)機器學(xué)習能力的提高和在許多領(lǐng)域的影響,機器學(xué)習中的隱私保護是一個(gè)研究重點(diǎn)。沿著(zhù)這個(gè)思路,我們力求解決大型模型中的隱私問(wèn)題。谷歌既強調訓練數據可以從大型模型中提取,也指出了如何在大型模型(例如 BERT)中實(shí)現隱私保護。除了上面提到的聯(lián)邦學(xué)習和分析技術(shù),我們還一直在使用其他原則性和實(shí)用性的機器學(xué)習技術(shù)來(lái)保護隱私。例如私有聚類(lèi)、私有個(gè)性化、私有矩陣補全、私有加權采樣、私有分位數、半空間的私有穩健學(xué)習,以及私有 PAC 學(xué)習。此外,我們一直在擴展可針對不同應用和威脅模型定制的隱私概念,包括標簽隱私和用戶(hù)與項目級別隱私。
數據集:
谷歌認識到開(kāi)放數據集對機器學(xué)習和相關(guān)研究領(lǐng)域的普遍價(jià)值,我們繼續擴大我們的開(kāi)源數據集和資源,并在 Google DataSet Search 中增加了開(kāi)放數據集的全球索引。今年,我們發(fā)布了一系列各個(gè)研究領(lǐng)域的數據集和工具:
總結
學(xué)術(shù)研究往往要經(jīng)歷多年才能在現實(shí)世界產(chǎn)生影響。人工智能領(lǐng)域先驅的工作現在對現在的谷歌產(chǎn)品和全世界都產(chǎn)生了戲劇性的影響。對 TPU 等機器學(xué)習加速器和 TensorFlow、JAX 等軟件的開(kāi)發(fā)經(jīng)取得了豐碩成果。谷歌在自己的產(chǎn)品中正越來(lái)越多地使用機器學(xué)習模型,因為它功能強大,在性能關(guān)鍵型的實(shí)驗和生產(chǎn)中表現優(yōu)異。在創(chuàng )建 Seq2Seq、Inception、EfficientNet 和 Transformer 等模型的過(guò)程中對模型結構的研究正在推動(dòng)語(yǔ)言理解、視覺(jué)、語(yǔ)音識別等領(lǐng)域的進(jìn)步。語(yǔ)言、視覺(jué)和語(yǔ)音識別等領(lǐng)域對解決問(wèn)題具有變革性,因此,這類(lèi)型的機器學(xué)習模型被廣泛部署用于許多產(chǎn)品中,包括 Search, Assistant, Ads, Cloud, Gmail, Maps, YouTube, Workspace, Android, Pixel, Nest 和 Translate。
對機器學(xué)習和計算機科學(xué)來(lái)說(shuō),這是一個(gè)激動(dòng)人心的時(shí)代。通過(guò)處理語(yǔ)言、視覺(jué)和聲音,計算機理解周?chē)氖澜绮⑴c之互動(dòng)的能力在不斷提高。同時(shí)計算機也在不斷為人類(lèi)開(kāi)拓新疆界貢獻力量。前文所述的五個(gè)方面正是這漫長(cháng)旅程中的許多進(jìn)步的節點(diǎn)!
原文鏈接:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。