微軟亞洲研究院深入探索圖深度學(xué)習領(lǐng)域兩大挑戰,以圖深度學(xué)習賦能知識計算
在圖深度學(xué)習領(lǐng)域的持續深耕,讓微軟亞洲研究院 DKI 組提出了一系列新方法和新思路,為多項研究成果的突破奠定了基礎。那么對于圖深度學(xué)習技術(shù)在知識計算領(lǐng)域的應用,微軟亞洲研究院的研究員們有哪些獨到的理解?又預見(jiàn)了哪些前沿的研究方向?
圖(Graph),作為一種通用的數據組織方式,被廣泛應用于建模實(shí)體間的聯(lián)系,例如知識圖譜、社交網(wǎng)絡(luò )、交通路網(wǎng)、引文網(wǎng)絡(luò )、互聯(lián)網(wǎng)以及云服務(wù)依賴(lài)關(guān)系網(wǎng)絡(luò )等。隨著(zhù)深度學(xué)習技術(shù)的快速發(fā)展,由深度學(xué)習與圖數據處理相結合,催生出了圖深度學(xué)習這一熱門(mén)的研究方向,并以圖嵌入、圖神經(jīng)網(wǎng)絡(luò )等技術(shù)為代表對圖數據進(jìn)行學(xué)習和分析。從數據的角度來(lái)看,圖深度學(xué)習如今已成為圖數據分析背后的重要技術(shù)。
微軟亞洲研究院數據、知識與智能(Data, Knowledge and Intelligence,DKI)組一直致力于發(fā)掘數據的價(jià)值,因此,DKI 組的研究員們希望從數據分析和知識提取中獲取洞見(jiàn),以更有效的圖深度學(xué)習技術(shù)來(lái)賦能企業(yè)級的數據分析和知識計算。所謂知識計算就是指利用計算機程序來(lái)處理人類(lèi)知識的過(guò)程,而且在這個(gè)過(guò)程中要將人類(lèi)的知識轉化為計算機可以理解的形式,并用這些信息解決復雜的問(wèn)題。
知識計算領(lǐng)域的數據對象往往很有特點(diǎn),其中的典型數據包括知識圖譜和根據領(lǐng)域特點(diǎn)自定義的異構網(wǎng)絡(luò ),這類(lèi)圖中的節點(diǎn)和邊有更明確的語(yǔ)義,而且往往有確定的實(shí)體名和關(guān)系類(lèi)型名,還常具有詳細的文本描述。圖的結構和語(yǔ)義信息都是對分析結果有明顯影響的要素,基于這兩種信息融合的知識表示也非常具有挑戰性,所以圖學(xué)習模型的設計也要更有針對性。
目前對知識的建模手段主要有兩類(lèi):一類(lèi)是通過(guò)大規模語(yǔ)言模型隱式建模知識,但這類(lèi)模型的可控度和可解釋性較低,有些回答真假難辨,比如 ChatGPT;另一類(lèi)是通過(guò)顯式的知識建模,利用結構化的知識表達,將其存儲于知識庫中,可以顯式進(jìn)行問(wèn)答、推理等任務(wù),然而如何更好地利用知識庫中的知識卻是個(gè)難題。
微軟亞洲研究院 DKI 組的研究員們認為可以利用圖深度學(xué)習,從以下幾個(gè)方面增強顯式知識建模的能力:
(1)增強知識表示能力。通過(guò)相應技術(shù)學(xué)習得到知識的向量表示,讓現有的智能模型可以更好地利用知識庫中的知識。
(2)提升知識挖掘能力。圖深度學(xué)習技術(shù)可以用來(lái)挖掘知識圖譜結構中的隱藏關(guān)系,從而更好地理解知識中的含義和關(guān)聯(lián)性。
(3)擴展知識應用范圍。圖深度學(xué)習技術(shù)能夠應用于多種領(lǐng)域,如自然語(yǔ)言處理、推薦系統、知識圖譜構建等,為知識計算的應用提供了更多的可能性。
知識圖譜是最為常用的顯式建模知識的方式,它是一種用節點(diǎn)表示實(shí)體,用連邊表示關(guān)系的圖結構組織方式。針對知識圖譜的圖深度學(xué)習技術(shù)是知識計算中非常重要的一環(huán)。目前,知識圖譜上的圖深度學(xué)習方法以嵌入技術(shù)為主,該類(lèi)技術(shù)將實(shí)體和關(guān)系映射到低維向量空間,用來(lái)表示知識圖譜中實(shí)體和關(guān)系之間的相似度,從而進(jìn)行知識圖譜的推理、推薦和分類(lèi)等任務(wù)。在應用外部知識解決各類(lèi)智能任務(wù)的過(guò)程中,圖深度學(xué)習也發(fā)揮著(zhù)重要作用。
“我們希望利用圖深度學(xué)習來(lái)增強顯式建模知識的能力,并結合知識圖譜和圖深度學(xué)習進(jìn)行更多探索。針對知識圖譜,我們通過(guò)圖深度學(xué)習來(lái)挖掘更多潛在的隱藏關(guān)系,力爭得到更全面、完善的知識表達,這也是我們在 NeurIPS 2022 大規模圖學(xué)習競賽 OGB-LSC 上的課題,比賽結果表明我們的研究已經(jīng)取得了階段性成果?!蔽④泚喼扪芯吭?DKI 組主管研究員杜侖表示。
系列研究讓圖深度學(xué)習模型更通用、更穩定
圖深度學(xué)習領(lǐng)域的研究?jì)热莘浅V泛,微軟亞洲研究院 DKI 組將系列研究聚焦在了圖深度學(xué)習需要持續攻克的幾個(gè)課題上:設計更通用、更具泛化性的圖深度學(xué)習模型和更穩定有效的模型訓練策略,以及探索更廣泛的圖模型應用場(chǎng)景。
從模型設計的角度,目前很多模型都擅長(cháng)處理具有同配屬性的數據。同配屬性是指圖上節點(diǎn)具有相鄰相似性,這種性質(zhì)在傳統的圖研究對象中存在較多,例如社交網(wǎng)絡(luò )、交通路網(wǎng)等等,然而圖數據的覆蓋面非常廣,例如企業(yè)中團隊協(xié)作的關(guān)系網(wǎng)絡(luò )就有更明顯的優(yōu)勢互補傾向,或者推薦系統中用戶(hù)對于內容不喜歡的反饋網(wǎng)絡(luò )顯然不具備同配關(guān)系。那么如何建模更廣泛類(lèi)型的圖,并挖掘更多圖中的有效信號,是目前模型設計上的一個(gè)挑戰。
從模型訓練的角度來(lái)看,由于圖數據中節點(diǎn)和節點(diǎn)的連邊導致訓練過(guò)程中無(wú)法簡(jiǎn)單地流式遍歷數據,需要配合圖采樣等技術(shù)才能進(jìn)行有效的訓練,因此如何在保證高效訓練的同時(shí)又盡可能減少信息損失,是真實(shí)大規模圖數據場(chǎng)景中的重要問(wèn)題。除了圖特有的問(wèn)題外,圖深度學(xué)習模型的訓練也會(huì )遇到其他深度學(xué)習模型所面臨的類(lèi)似的問(wèn)題,比如如何保證訓練的穩定性、效率和最終模型的泛化表現等。
此外,圖模型的過(guò)壓縮(oversquashing)、過(guò)平滑(oversmoothing),以及一般深度學(xué)習的模型初始化、過(guò)擬合等也都是需要一一解決的問(wèn)題。
經(jīng)過(guò)近幾年的持續研究,DKI 組的研究員們在適用范圍更廣、可解釋性更強的圖模型設計,以及一些通用的提高模型訓練穩定性和泛化性的設計等方面都取得不少突破性成果。
在更具泛化性的模型結構設計方面,研究員們提出了針對圖同配性和異配性同時(shí)建模的雙核圖網(wǎng)絡(luò )模型,和針對鄰域特征分布建模的混合矩圖網(wǎng)絡(luò )模型:
針對圖同配性和異配性同時(shí)建模的雙核圖網(wǎng)絡(luò )模型:研究員們發(fā)現無(wú)法建模異配關(guān)系的部分原因是,對同一階鄰居的向量表征使用了相同的核做變換所致,即使使用類(lèi)似于圖注意力網(wǎng)絡(luò )(GAT)的注意力機制,但由于注意力計算的權重總是一個(gè)正值,所以一個(gè)核無(wú)法同時(shí)對節點(diǎn)表征之間的相似性和相異性(如正負相關(guān)性)進(jìn)行建模。針對這個(gè)問(wèn)題,研究員們分析發(fā)現,無(wú)論是在同配圖還是異配圖的數據集上,都存在著(zhù)相當數量的異配子圖,且子圖的異配度參差不齊,而傳統模型如 GCN(圖卷積神經(jīng)網(wǎng)絡(luò ))在同配子圖上往往表現優(yōu)異,但在異配子圖上發(fā)揮較差,這充分說(shuō)明了同時(shí)建模同配和異配性模型的必要性。因此,研究員們提出了一種基于雙核特征轉換和門(mén)(gate)機制的新型 GNN(圖形神經(jīng)網(wǎng)絡(luò ))模型——GBK-GNN。通過(guò)具有不同同質(zhì)異質(zhì)特性的七個(gè)真實(shí)數據集的廣泛實(shí)驗表明,與其他 SOTA 方法相比,GBK-GNN 有穩定且顯著(zhù)的提升。
圖1:GBK-GNN 模型架構圖
針對鄰域特征分布建模的混合矩圖網(wǎng)絡(luò )模型:GNN 是一類(lèi)通過(guò)聚合鄰居信息來(lái)對圖上的節點(diǎn)、邊或者子圖進(jìn)行表示的機器學(xué)習模型。然而,大多數現有的 GNN 都使用單一的統計量,如平均數、最大值和求和,來(lái)聚合鄰居的特征,丟失了與鄰居特征分布相關(guān)的信息,降低了模型的性能。為了解決這個(gè)問(wèn)題,研究員們借鑒統計學(xué)理論的矩方法,提出了新的 GNN 模型——混合矩圖神經(jīng)網(wǎng)絡(luò ) MM-GNN。在15個(gè)真實(shí)世界圖數據集(包括社交網(wǎng)絡(luò )、引文網(wǎng)絡(luò )和網(wǎng)頁(yè)網(wǎng)絡(luò )等)上進(jìn)行的廣泛實(shí)驗表明,MM-GNN 優(yōu)于現有的最先進(jìn)的模型。
圖2:MM-GNN 模型架構圖
在探索穩定的圖深度學(xué)習模型的過(guò)程中,微軟亞洲研究院 DKI 組還發(fā)現了穩定神經(jīng)元的響應對模型泛化能力提升的幫助,提出了基于信息瓶頸理論的神經(jīng)元競爭初始化策略:
穩定神經(jīng)元響應以提升模型泛化性能:研究員們從神經(jīng)元級別的細粒度出發(fā),分析了單個(gè)神經(jīng)元在神經(jīng)網(wǎng)絡(luò )訓練和測試中的響應特性,發(fā)現提升神經(jīng)元對同類(lèi)輸入樣本響應的穩定性能夠有效地提高神經(jīng)網(wǎng)絡(luò )的泛化性能。據此,研究員們提出了一種通用的正則項,用于控制神經(jīng)元在激活狀態(tài)下響應的類(lèi)內方差。該正則項簡(jiǎn)單高效,不僅顯著(zhù)提高了圖學(xué)習領(lǐng)域的圖神經(jīng)網(wǎng)絡(luò )的泛化能力,還在計算機視覺(jué)領(lǐng)域中為卷積神經(jīng)網(wǎng)絡(luò )和多層感知機模型帶來(lái)了顯著(zhù)提升。
基于信息瓶頸理論的神經(jīng)元競爭初始化策略:在深度神經(jīng)網(wǎng)絡(luò )的復雜系統中,穩定的訓練過(guò)程往往依賴(lài)于有效的初始化機制?,F有的初始化機制研究工作主要關(guān)注于如何更好地緩解訓練過(guò)程中所出現的梯度消失或爆炸問(wèn)題,但缺乏對提升模型最終泛化效果的關(guān)注。受信息瓶頸理論(information bottleneck theory)的啟發(fā),研究員們定義了兩個(gè)初始化目標,保證初始模型具有一定分類(lèi)效果的同時(shí)能盡可能多地保留兩種模型輸入的信息量。此外,通過(guò)一種新穎且高效的神經(jīng)元競爭算法,模型的初始化在上述兩個(gè)目標之外還能保證初始化參數的多樣性。該方法的新穎性和有效性得到了 CIKM 委員會(huì )的青睞,并獲得了最佳短文獎。
微軟亞洲研究院 DKI 組還利用圖建模方法賦能了更多領(lǐng)域,提出了基于圖模型增強的表格理解深度網(wǎng)絡(luò )。表格數據結構的自動(dòng)化理解是對文檔表格和網(wǎng)頁(yè)表格進(jìn)行數據分析的重要步驟。然而,表格數據類(lèi)型多樣,包括便于存儲的數據庫表格、為了利于展示的電子表格以及結構更為靈活的問(wèn)卷式表格,這大大增加了表格理解的難度。對此,研究員們利用圖結構靈活、泛用性強的特點(diǎn),引入了圖建模的思路,兼顧了建模表格結構以及表格中文本的語(yǔ)義信息,設計了一個(gè)面向表格的通用深度網(wǎng)絡(luò ),可以有效地理解表格結構。此外,網(wǎng)絡(luò )中還引入了行粒度和列粒度上的雙向循環(huán)神經(jīng)網(wǎng)絡(luò )模塊,以更好地理解表格不同區域間的邊界關(guān)系。在兩種不同數據粒度的真實(shí)表格理解任務(wù)中,該方法都取得了最優(yōu)表現。
加強合作,推動(dòng)圖深度學(xué)習賦能更多場(chǎng)景
微軟亞洲研究院 DKI 組在圖深度學(xué)習研究中所取得的階段性技術(shù)突破,現已開(kāi)始應用在眾多業(yè)務(wù)場(chǎng)景中。例如,在 Excel 中,通過(guò)圖建模的方法引入 WordNet 作為建模表格語(yǔ)義信息時(shí)的外部知識,對表格結構識別任務(wù)有明顯提升。而在領(lǐng)英(LinkedIn)的工作推薦功能中,一個(gè)很重要的問(wèn)題是如何把合適的工作推薦給合適的人。領(lǐng)英與 DKI 組合作通過(guò)異構圖建模包括行業(yè)信息、教育背景、技能等在內的領(lǐng)域知識,并結合異構圖 GNN 模型同時(shí)建模領(lǐng)域知識與用戶(hù)行為等信息,當前已在線(xiàn)下實(shí)驗中取得了明顯的推薦準確率提升。
除此之外,微軟亞洲研究院 DKI 組還與學(xué)術(shù)界的高校和科研機構合作,一道推進(jìn)圖深度學(xué)習領(lǐng)域的進(jìn)步與應用。通過(guò)微軟亞洲研究院鑄星計劃,DKI 組的研究員與中科院計算所的學(xué)者共同探索了結合圖模型的交通軌跡數據的表示學(xué)習,借由層級圖模型建模數據點(diǎn)的物理距離,有效提升了軌跡表示學(xué)習模型的效果。在與上交所的研究合作中,研究員們對大規模圖處理進(jìn)行了研究,提出了新的圖模型加速推斷方法,使推理過(guò)程更高效。
對于圖深度學(xué)習未來(lái)的研究規劃,微軟亞洲研究院首席研究員韓石表示,“下一步,微軟亞洲研究院 DKI 組將持續推進(jìn)企業(yè)級知識計算領(lǐng)域與相關(guān)基礎研究的探索,包括文檔智能、顯式知識表示和大規模語(yǔ)言模型的結合、以及圖深度學(xué)習模型等。同時(shí),我們也希望可以與更多學(xué)術(shù)機構和專(zhuān)家學(xué)者合作,共同探索圖深度學(xué)習的前沿發(fā)展方向?!?/span>
感謝微軟亞洲研究院 DKI 組圖深度學(xué)習研究團隊(成員包括:杜侖、陳旭、馬曉君、付強、韓石)對本文的貢獻。
相關(guān)論文鏈接:
1. Solution for NeurIPS 2022 OGB-LSC
https://ogb.stanford.edu/paper/neurips2022/wikikg90mv2_DNAKG.pdf
2. HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction
https://www.wsdm-conference.org/2022/wp-content/uploads/2022/02/Task2_nothinghere_2nd.pdf
3. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22
https://openreview.net/forum?id=9YQPaqVZKP
4. MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution, WSDM’23
https://arxiv.org/abs/2208.07012
5. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22
https://openreview.net/forum?id=9YQPaqVZKP
6. Neuron Campaign for Initialization Guided by Information Bottleneck Theory,Best Short Paper at CIKM’21
https://dl.acm.org/doi/abs/10.1145/3459637.3482153
7. TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data, KDD’21
https://dl.acm.org/doi/abs/10.1145/3447548.3467228
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。