<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長(cháng)序列,瞄準遺傳病高發(fā)區域

Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長(cháng)序列,瞄準遺傳病高發(fā)區域

發(fā)布人:機器之心 時(shí)間:2021-10-07 來(lái)源:工程師 發(fā)布文章

繼蛋白質(zhì)結構預測之后,一路領(lǐng)跑的 DeepMind 又將 AI 的觸角伸向了 DNA。

當人類(lèi)基因組計劃成功地繪制出人類(lèi)基因組的 DNA 序列時(shí),整個(gè)國際研究界都為之一振。因為這樣一來(lái),人類(lèi)就有機會(huì )進(jìn)一步了解影響人類(lèi)健康和發(fā)展的遺傳指令。

從眼球顏色到是否容易患某種疾病,DNA 攜帶著(zhù)決定一切的基因信息。人體內大約有 2 萬(wàn)個(gè) DNA 片段被確定為基因,其中包含有關(guān)蛋白質(zhì)氨基酸序列的指令,這些蛋白質(zhì)在我們的細胞中執行許多基本功能。然而,這些基因占整個(gè)基因組的比重還不到 2%。剩下的堿基對——占基因組 30 億個(gè)「字母」的 98%——被稱(chēng)為「非編碼」,包含一些不太為人所知的指令,這些指令讓基因知道應該在何時(shí)、何地產(chǎn)生或表達。為了更好地完成人類(lèi)遺傳學(xué)的很多下游應用任務(wù),我們必須弄清楚非編碼區 DNA 如何決定不同細胞類(lèi)型中的基因表達。

10 月 4 日,DeepMind 與谷歌旗下生物科技公司 Calico 的一項研究登上了國際頂級方法學(xué)期刊《Nature Methods》。在這篇論文中,他們引入了一種叫做 Enformer 的神經(jīng)網(wǎng)絡(luò )架構,大大提高了根據 DNA 序列預測基因表達的準確性。為了進(jìn)一步研究疾病中的基因調控和致病因素,研究者還公開(kāi)了他們的模型及其對常見(jiàn)遺傳變異的初步預測。

1.png

論文鏈接:https://www.nature.com/articles/s41592-021-01252-x.pdf

項目鏈接:https://github.com/deepmind/deepmind-research/tree/master/enformer

DeepMind 的研究者表示,「我們相信 AI 可以幫助我們深入理解這些復雜的領(lǐng)域,加速科學(xué)進(jìn)步,并未人類(lèi)健康帶來(lái)潛在收益?!?/p>

以往關(guān)于基因表達的研究通常使用卷積神經(jīng)網(wǎng)絡(luò )作為基本構建塊,但這些網(wǎng)絡(luò )在建模遠端增強子(enhancer)對基因表達的影響方面存在局限。增強子是 DNA 上一小段可與蛋白質(zhì)結合的區域,與蛋白質(zhì)結合之后,基因的轉錄作用將會(huì )加強。增強子可能位于基因上游,也可能位于下游,且不一定接近所要作用的基因,這是因為染色質(zhì)的纏繞結構,使序列上相隔很遠的位置也有機會(huì )相互接觸。因此,要想精確研究增強子對基因表達的影響,模型需要「閱讀」盡可能長(cháng)的 DNA 序列。

DeepMind 表示,他們最初的探索依賴(lài)于 Calico 的 Basenji2 模型,它可以從相對較長(cháng)的 DNA 序列(40, 000 個(gè)堿基對)中預測調控活性,但這個(gè)長(cháng)度還是不夠。

基于這些認識,研究者意識到,要想捕獲長(cháng)序列,必須在基本架構層面進(jìn)行改變。

于是,他們開(kāi)發(fā)了一個(gè)基于 Transformer 的新模型——Enformer,以利用自注意力機制處理更大范圍的 DNA 上下文。和擅長(cháng)閱讀長(cháng)文本的 Transformer 類(lèi)似,改造后的 Enformer 能夠「閱讀」很長(cháng)的 DNA 序列,可處理的序列長(cháng)度達到之前的 5 倍(200, 000 個(gè)堿基對)。有了這樣一個(gè)模型,研究者就能從更長(cháng)的 DNA 序列上建模增強子對基因表達的影響。

2.png

研究者訓練 Enformer 以預測功能性基因組數據,包括來(lái)自輸入 DNA 的 200, 000 個(gè)堿基對的基因表達。上圖的示例展示了 5000 多種可能的基因組軌跡中的 3 種。

為了更好地理解 Enformer 是如何解釋 DNA 序列以得到更準確的預測的,研究者使用貢獻分(contribution score)來(lái)突出輸入序列中對預測影響最大的部分。如同生物直覺(jué)一般,研究者發(fā)現即使距離基因超過(guò) 50000 個(gè)堿基對,模型也會(huì )注意到增強子。

預測哪些增強子調控哪些基因仍然是基因組學(xué)中一個(gè)尚未解決的問(wèn)題,研究顯示, Enformer 的貢獻分與專(zhuān)門(mén)為此任務(wù)開(kāi)發(fā)的現有方法(使用實(shí)驗數據作為輸入)表現相當。此外,Enformer 還理解了絕緣子元件(insulator element),后者將 DNA 的兩個(gè)獨立調控區域分隔開(kāi)。

3.png

Enformer 注意到的相關(guān)的調控 DNA 區域(藍色),增強子為灰色塊。

目前全面研究生物體的 DNA 已經(jīng)成為了可能的事,但要想理解基因組還需要復雜的實(shí)驗。盡管進(jìn)行了大量的實(shí)驗,大多數 DNA 對基因表達的控制仍然是個(gè)謎。借助人工智能技術(shù),人類(lèi)可以探索在基因組中發(fā)現模式的新的可能性,并提供關(guān)于序列變化的機制假設。與拼寫(xiě)檢查器的原理類(lèi)似,Enformer 能夠部分理解 DNA 序列的「詞匯」,因此能夠「高亮」那些可能導致基因表達改變的編輯。

這一新模型的主要應用是預測 DNA 字母的變化,也稱(chēng)為基因變異,它會(huì )改變基因表達。與以前的模型相比,Enformer 在預測變異對基因表達的影響方面更加準確,無(wú)論是自然遺傳變異還是改變重要調控序列的合成變異。

借助這一特性,我們可以對越來(lái)越多的疾病相關(guān)變異進(jìn)行研究。要知道,與復雜遺傳疾病相關(guān)的變異主要位于基因組的非編碼區,可能通過(guò)改變基因表達引起疾病。但是由于變異之間的內在聯(lián)系,這些疾病相關(guān)的許多變異只是虛假的聯(lián)系,而非因果關(guān)系?,F在,計算工具可以幫助區分真正的聯(lián)系和假陽(yáng)性。

當然,人類(lèi)基因組中仍有尚未解開(kāi)的謎團,Enformer 只是在理解基因組序列的復雜性方面向前邁出了一步。

DeepMind 的研究者希望這些進(jìn)展能讓與人類(lèi)疾病相關(guān)的更高效的精細定位成為可能,并提供一個(gè)解釋順式調控演變的框架。

參考鏈接:https://deepmind.com/blog/article/enformer

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>