科學(xué)家結合機器學(xué)習方法,開(kāi)發(fā)可預測“細胞分化命運”模型,能用于再生治療及癌癥預測等
世界上沒(méi)有兩片相同的樹(shù)葉,細胞也一樣。利用基因表達研究中的一項重要技術(shù)單細胞轉錄組測序,可以把數以十萬(wàn)甚至百萬(wàn)量級的單個(gè)細胞分離出來(lái),對細胞里面表達的所有 RNA 分子進(jìn)行測序,從而以極高通量和高分辨率揭示細胞的狀態(tài)和分化轉變。然而,目前分析這些單細胞數據的工具主要集中于簡(jiǎn)單的描述和統計分析,還未有能夠充分推斷并揭示細胞命運轉變機理甚至做出高精度預測的方法及模型。
為此,美國麻省理工學(xué)院(MIT)喬納森·韋斯曼(Jonathan Weissman)課題組和匹茲堡大學(xué)醫學(xué)院邢建華課題組聯(lián)合開(kāi)發(fā)了一個(gè)可預測細胞未來(lái)分化命運的模型 dynamo(相關(guān)開(kāi)源工具包鏈接: https://github.com/aristoteleo/dynamo-release),該模型還能給出相應的發(fā)育方程來(lái)具體解釋導致細胞最終分化的關(guān)鍵基因及作用機制。人類(lèi)因此有一天或能實(shí)現“定制”所需的特定細胞。
2022 年 2 月 1 日,相關(guān)論文以《繪制單細胞的轉錄組矢量場(chǎng)圖》(Mapping transcriptomic vector fields of single cells)為題發(fā)表在 Cell 上,MIT 喬納森·韋斯曼實(shí)驗室博士后邱肖杰和匹茲堡大學(xué)邢建華實(shí)驗室博士生張衍擔任共同第一作者,邱肖杰、 邢建華及喬納森·韋斯曼為共同通訊作者。
圖 | 相關(guān)論文(來(lái)源:Cell)
據了解,dynamo 模型結合了內在 RNA 剪接和 RNA 代謝標記動(dòng)力學(xué)來(lái)得出準確的絕對 RNA 速度,并采用機器學(xué)習方法構建高維速度矢量場(chǎng),還結合微分幾何分析算法來(lái)闡明潛在的調節網(wǎng)絡(luò ),甚至可以通過(guò)物理里的最小作用量方法來(lái)預測細胞命運轉變的最優(yōu)路徑和關(guān)鍵轉錄因子,且實(shí)現全基因組基因敲除對細胞狀態(tài)和命運擾動(dòng)的準確預測。
該團隊將 dynamo 這個(gè)理論工具應用于各種不同的生物過(guò)程,包括預測分化的造血干細胞系的未來(lái)狀態(tài)、揭露出細胞周期進(jìn)展和與之正交的糖皮質(zhì)激素反應、提供了造血干細胞發(fā)育過(guò)程中幾個(gè)懸而未決的問(wèn)題的可能分子機制,包括巨核細胞相對于其他干細胞譜系的更早期發(fā)育以及嗜堿細胞的兩條可能發(fā)育路徑等。
動(dòng) 圖 | 人造血干細胞分化預測動(dòng)畫(huà)(來(lái)源:邱肖杰)
邱肖杰提到,這項研究的重要貢獻在于其超越了之前基于數據的描述性方法,首次直接利用高通量數據學(xué)習出了能夠揭示細胞動(dòng)態(tài)變化過(guò)程的方程。這得益于過(guò)去十年里機器學(xué)習方法和單細胞測序技術(shù)日新月異的進(jìn)步。
從一定程度上,這個(gè)工作的重要意義,類(lèi)似于 400 年前天文學(xué)家第谷·布拉赫(Tycho Brahe)的學(xué)生約翰尼斯·開(kāi)普勒(Johannes Kepler)對其收集的天體運動(dòng)大數據進(jìn)行分析而得出行星運動(dòng)三大定律。隨著(zhù)實(shí)驗方法的進(jìn)一步發(fā)展以及更高通量和精度數據的產(chǎn)生,生物學(xué)將同物理學(xué)一般邁進(jìn)一個(gè)更加定量的時(shí)代。
另外,需要特別強調的是,dynamo 的核心技術(shù)是采用了機器學(xué)習和深度學(xué)習的方法,這些方法特別適合處理大數據。但問(wèn)題是,機器學(xué)習模型通常被認為是一個(gè)“黑箱”。因此,該團隊通過(guò)引入物理學(xué)方面的動(dòng)力系統分析方法,將“黑箱”拆解成一些直觀(guān)的、有物理意義且與細胞發(fā)育相關(guān)的具體變量。
圖 | 研究過(guò)程(來(lái)源:邱肖杰)
不過(guò),邱肖杰表示,相關(guān)研究論文的發(fā)表并非一帆風(fēng)順。該研究是 2018 年底邱肖杰加入喬納森·韋斯曼實(shí)驗室做博士后時(shí)立題,再從形成一個(gè)多學(xué)科的完整團隊到最后發(fā)表,總共歷時(shí)近 3 年半的時(shí)間。
而且,在論文審稿過(guò)程中,該團隊也遇到不少困難,他們收到了一些諸如“預測不夠令人印象深刻”“新意不夠”等的審稿人評價(jià)。為此,他們花了 3~4 個(gè)月的時(shí)間進(jìn)行造血發(fā)育的相關(guān)實(shí)驗,又花了了另外 4 個(gè)月左右的時(shí)間分析數據,在論文中增加了對不同細胞轉變的預測,并基本達到 85% 的準確率,論文最終順利被接收。
邱肖杰指出,這項研究的應用場(chǎng)景很廣,且不限于具體問(wèn)題,基本能夠用單細胞測序研究的生物動(dòng)態(tài)過(guò)程都適用。首先,dynamo 模型可以得出在細胞變化過(guò)程中發(fā)揮作用的特定基因,并預測將來(lái)這個(gè)細胞會(huì )怎么變化,所以可用于臨床上的重大疾病診斷,如只需提取患者的一點(diǎn)細胞就可以分析預測其得癌癥的概率及病發(fā)時(shí)間等。
其次,dynamo 模型能夠對不同造血細胞之間轉變所需要的途徑進(jìn)行預測,可用于再生醫療。例如,人在皮膚燒傷時(shí),研究人員可以將其他部位細胞轉變成皮膚細胞來(lái)進(jìn)行康復治療;對待精神類(lèi)疾病患者,研究人員可以將其大腦中的膠質(zhì)細胞轉變成神經(jīng)細胞來(lái)緩解病癥。
該團隊稱(chēng),后續他們希望把 dynamo 模型與空間組織、蛋白質(zhì)的表達和表觀(guān)遺傳及更多領(lǐng)域整合起來(lái),作進(jìn)一步的研究。此外,他們將嘗試使用這個(gè)工具解決更為具體的生物問(wèn)題,如衰老的防止,即把一個(gè)老年細胞變回年輕時(shí)的狀態(tài)。值得注意的是,邱肖杰最近還利用 dynamo 幫助科技前沿機構華大基因分析其大視場(chǎng)高精度的空間基因組學(xué)方法 Stereo-seq(https://www.biorxiv.org/content/10.1101/2021.01.17.427004v3),相關(guān)研究論文不久后會(huì )在 Cell 刊出。
圖 | 邱肖杰(來(lái)源:邱肖杰)
據了解,邱肖杰是湖南人,本科畢業(yè)于長(cháng)春工業(yè)大學(xué),隨后分別在華東師范大學(xué)和華盛頓大學(xué)獲得碩士和博士學(xué)位,目前在 MIT 攻讀博士后。此外,現在他已經(jīng)開(kāi)始在美國申請教授職務(wù),并希望在將來(lái)建立一個(gè)結合機器學(xué)習、單細胞技術(shù)和系統生物學(xué)的實(shí)驗室。
最后他談到,這項研究雖然屬于生物學(xué)領(lǐng)域,但還需要結合物理方面的學(xué)科知識,而他不是學(xué)物理出身。幸運的是,他遇到了論文的通訊作者之一的匹茲堡大學(xué)邢建華教授。邢建華所在的課題組長(cháng)期以來(lái)一直在用數學(xué)和物理的思維及手段解決生物學(xué)問(wèn)題,包括細胞分化的認識與調控方面。
隨后,又有張衍加入到研究中。張衍的數理功底特別好,做了許多模型上的工作,幫助加快了整個(gè)研究過(guò)程的推進(jìn)速度。
邱肖杰表示,“合作很重要,現在幾乎沒(méi)有通才,只有合作才能把研究做得更快和更加深入?!?/span>
-End-
支持:熊岳城
參考:
1.Xiaojie Qiu et al. Mapping Transcriptomic Vector Fields of Single Cells. Cell(2022)https://doi.org/10.1016/j.cell.2021.12.045
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。