<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 圖卷積神經(jīng)網(wǎng)絡(luò )分析復雜碳水化合物

圖卷積神經(jīng)網(wǎng)絡(luò )分析復雜碳水化合物

發(fā)布人:數據派THU 時(shí)間:2021-07-16 來(lái)源:工程師 發(fā)布文章

來(lái)源:DeepHub IMBA

作者:Daniel Bojar

1.png

圖卷積神經(jīng)網(wǎng)絡(luò ) (GCN) 在過(guò)去幾年中引起了越來(lái)越多的關(guān)注,越來(lái)越多的學(xué)科開(kāi)始使用它們。這也已擴展到生命科學(xué)領(lǐng)域,因為 GCN 已被用于分析蛋白質(zhì)、****物,當然還有生物網(wǎng)絡(luò )。實(shí)現這種擴展的 GCN 的一個(gè)關(guān)鍵優(yōu)勢是它們能夠在本地處理非線(xiàn)性數據格式,這與更線(xiàn)性的數據結構(如自然語(yǔ)言)形成對比。由于此功能,我們還為自己感興趣的主題(復雜碳水化合物或聚糖的研究)使用了 GCN。

聚糖在生物學(xué)中無(wú)處不在,裝飾每個(gè)細胞并在病毒感染或腫瘤免疫逃避等過(guò)程中發(fā)揮關(guān)鍵作用。它們也是極其多樣化的生物序列,由數百個(gè)獨特的構建塊組成,相比之下,蛋白質(zhì)為 20 個(gè),DNA/RNA 為 4 個(gè),它們也可以在不斷增長(cháng)的聚糖鏈中以幾種不同的配置組合。最后,聚糖是唯一的非線(xiàn)性生物序列,自然形成廣泛的分支,這些分支本身可以進(jìn)一步分支。因此,它們是圖子類(lèi)的一部分,即樹(shù)。這使得聚糖成為在生物學(xué)中適當應用 GCN 的主要候選者。

以前,我們開(kāi)發(fā)了通過(guò)將聚糖序列視為一種生物語(yǔ)言來(lái)分析聚糖序列的技術(shù)。我們使用循環(huán)神經(jīng)網(wǎng)絡(luò )設置來(lái)解決聚糖序列的非線(xiàn)性問(wèn)題,以預測它們的免疫原性、對致病性的貢獻和分類(lèi)學(xué)起源。這在一定程度上效果很好,超過(guò)了基線(xiàn),例如使用基于主題頻率的隨機森林。然而,我們相信更強大的算法,能夠適應聚糖的樹(shù)結構,將改進(jìn)現有的應用程序,并在聚糖的研究中實(shí)現新的方法。這就是為什么我們轉向 GCN 來(lái)設置分析聚糖的最新技術(shù)。

2.jpg

GCN 通過(guò)圖中的鄰居來(lái)表征節點(diǎn),或者更準確地說(shuō),是通過(guò)鄰居節點(diǎn)的特征來(lái)表征節點(diǎn),從而學(xué)習圖(或樹(shù))中的關(guān)系。在我們的案例中,我們將單糖(聚糖構建塊,如葡萄糖或半乳糖)及其連接鍵視為節點(diǎn)。雖然將單糖視為節點(diǎn)并將連接視為邊緣似乎更自然,但我們決定反對這種做法,以適應僅由一個(gè)單糖和一個(gè)連接組成的短而重要的聚糖。為了讓我們的 GCN 學(xué)習節點(diǎn)鄰域的特征,我們首先實(shí)現了節點(diǎn)嵌入,以便通過(guò)嵌入特征來(lái)表示每個(gè)單糖和鏈接類(lèi)型,這些特征可以由我們的模型學(xué)習并用于表征節點(diǎn)鄰域。為了最好地表達聚糖的豐富多樣性,我們?yōu)榇耸褂昧?128 維嵌入。

接下來(lái),我們必須選擇用于執行圖卷積的圖內核。這個(gè)過(guò)程就是上面提到的通過(guò)節點(diǎn)及其特征(在我們的例子中,節點(diǎn)類(lèi)型的嵌入特征)來(lái)學(xué)習節點(diǎn)的過(guò)程。在測試了各種圖核之后,我們最終得到了 k 維圖神經(jīng)網(wǎng)絡(luò )算子,它受 Weisfeiler-Leman 算法的啟發(fā)來(lái)測試圖同構,并在我們的數據集上顯示出最佳性能?,F在,GCN 的偉大之處在于您可以在單個(gè)模型中擁有多個(gè)圖卷積層。這允許您分析不同粒度級別的圖形/聚糖。雖然第一層可能只考慮直接連接的節點(diǎn)進(jìn)行分析,但后續層可以擴展這個(gè)所謂的感受野,并考慮節點(diǎn)與圖中進(jìn)一步刪除的節點(diǎn)的關(guān)系。在我們的案例中,我們選擇了一個(gè)具有三個(gè)這樣的層的模型作為同類(lèi)最佳模型。

3.jpg

這種連續圖卷積層的方法允許模型學(xué)習圖鄰域,甚至可以在監督設置中預測下游分類(lèi)任務(wù)的特征圖案。為了總結從這些步驟中學(xué)到的特征,我們使用池化層將來(lái)自圖卷積層的顯著(zhù)信息濃縮為后續層。在每個(gè)圖卷積層之后,我們首先使用一個(gè) topk 池化層,它根據學(xué)習的投影分數將圖投影到較小的圖。然后,我們將全局平均池化和全局平均池化操作的結果連接起來(lái)。

這個(gè)最終的圖形表示,跨越三個(gè)圖卷積層,然后通過(guò)一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò )路由,以達到對相應任務(wù)的最終預測。除了標準的(leaky)ReLU、dropout 和批量歸一化設置之外,我們還在這部分中包含了一個(gè)所謂的繁榮層。通常,卷積后表示的維數在這最后部分向低維模型輸出緩慢降低。然而,繁榮層會(huì )暫時(shí)增加維度(與瓶頸相反),以允許模型擺脫局部最小值并提高性能。我們將這個(gè)最終模型命名為 SweetNet,以向傳統上已知和喜愛(ài)的碳水化合物類(lèi)型致敬?,F在我們可以看看你可以用 GCN 為聚糖做些什么有趣的事情!

在構建 SweetNet 時(shí),我們確保我們的預測性能優(yōu)于之前報告的架構,例如上面提到的循環(huán)神經(jīng)網(wǎng)絡(luò ),在所有報告的任務(wù)上。其中一項任務(wù)是預測人類(lèi)免疫系統是否會(huì )識別聚糖序列。這是相關(guān)的,因為聚糖可能具有很強的免疫原性,例如在過(guò)敏原或血型不匹配的情況下,但也具有免疫抑制性,例如在腫瘤免疫逃避的情況下。在我們的數據集上,SweetNet 實(shí)現了約 95% 的測試集準確率,完全基于聚糖序列。然后,我們提取了這些序列的圖表示,這些序列由經(jīng)過(guò)訓練的用于預測聚糖免疫原性的 SweetNet 模型學(xué)習,緊接在圖卷積層之后。對此進(jìn)行可視化時(shí),很明顯該模型已經(jīng)學(xué)會(huì )了區分兩類(lèi)免疫原性/非免疫原性聚糖。更重要的是,在非免疫原性聚糖中,可以看到精細結構,讓人聯(lián)想到不同類(lèi)別的人類(lèi)聚糖(當然,它們在同一類(lèi)別內具有序列相似性)。糖脂和 O-聚糖都與免疫原性聚糖部分重疊,因為這些聚糖存在于我們的粘膜表面,并被具有免疫原性的微生物模仿。

4.png

除了其他應用之外,我們還將這個(gè)用于聚糖的 GCN 與用于分析蛋白質(zhì)序列的循環(huán)神經(jīng)網(wǎng)絡(luò )相結合,以預測病毒和聚糖之間的相互作用。大多數病毒,從流感病毒到 SARS-CoV-2,都需要宿主細胞上的特定聚糖才能感染它們。事實(shí)上,病毒與宿主聚糖的匹配可以決定病毒的宿主范圍。在流感病毒的情況下,一種特定的蛋白質(zhì)血凝素負責在細胞進(jìn)入和感染之前與細胞的聚糖結合。不同的流感病毒株具有不同的血凝素序列,這會(huì )影響它們的聚糖結合特異性。這方面的一個(gè)例子是禽流感病毒和哺乳動(dòng)物流感病毒之間的差異。雖然這兩種類(lèi)型的流感病毒主要識別一種稱(chēng)為 Neu5Ac 的特定單糖,一種唾液酸,但禽流感病毒通常僅與 α2-3 構型的 Neu5Ac 結合,而哺乳動(dòng)物流感病毒更喜歡 α2-6 構型的 Neu5Ac。一個(gè)微妙的結構轉變,但這是阻止禽流感病毒“跳過(guò)”感染人類(lèi)的唯一障礙。突變禽血凝素以與 α2-6 構型的 Neu5Ac 結合,然后您就可以用這種突變的禽流感病毒感染人類(lèi)。

血凝素序列與聚糖結合特異性之間的這種明確關(guān)系使我們假設我們可以使用模型來(lái)學(xué)習這些關(guān)聯(lián)并預測流感病毒和其他病毒的基于病毒聚糖的受體。因此,我們建立了一種匹配模型,給定一個(gè)血凝素序列和一個(gè)聚糖,可以在回歸設置中預測這是否會(huì )導致結合。我們很幸運,因為我們有大量實(shí)驗觀(guān)察到的來(lái)自各種流感病毒株的血凝素相互作用的數據集和一組可用于訓練和評估模型的聚糖。

5.png

訓練后,我們確實(shí)可以證明一個(gè)訓練有素的模型用α2-3 連接的Neu5Ac 用于禽流感病毒和α2-6 連接的Neu5Ac 用于哺乳動(dòng)物流感病毒。此外,該模型還預測了可能與流感病毒結合相關(guān)的其他基序,例如硫酸化聚糖基序,這些基序過(guò)去曾被認為可能是流感受體。然后我們表明,這項研究也可以擴展到其他病毒,例如輪狀病毒,這是嬰兒感染的常見(jiàn)原因。在這里,我們可以證明訓練有素的模型預測高度復雜的母乳聚糖與輪狀病毒蛋白結合,輪狀病毒蛋白已被獨立證明可以結合和中和輪狀病毒,證明了母乳的保護作用。聚糖的這種中和作用,通過(guò)與病毒緊密結合并阻止它們與細胞結合,被我們的身體在各種情況下使用,并且也可能為使用我們的模型設計具有改進(jìn)結合特性的新聚糖提供機會(huì ),在未來(lái),可以作為一種新型的抗病毒****物。

這就是在聚糖分析中了解 GCN 當前狀態(tài)的全部?jì)热?!嗯,反正大部分。前往報紙了解更多詳情?;蛘咔巴侣劯?,獲取有關(guān)我們研究影響的更易于理解的信息。當然,這里是 SweetNet 的代碼,所有使用的數據都可以在 GitHub 或論文的補充表中找到。

SweetNet 代碼:

https://github.com/BojarLab/SweetNet

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。




相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>