<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 北京大學(xué)高歌:21世紀的生命科學(xué)屬于數據科學(xué)丨獨家專(zhuān)訪(fǎng)

北京大學(xué)高歌:21世紀的生命科學(xué)屬于數據科學(xué)丨獨家專(zhuān)訪(fǎng)

發(fā)布人:深科技 時(shí)間:2021-09-16 來(lái)源:工程師 發(fā)布文章
“21 世紀常常被視為生命科學(xué)的世紀,而我相信,21 世紀的生命科學(xué)將會(huì )是數據科學(xué)?!?高歌研究員告訴生輝。

 高歌現為北京大學(xué)生物醫學(xué)前沿創(chuàng )新中心 (BIOPIC)、北京未來(lái)基因診斷高精尖創(chuàng )新中心 (ICG)、生物信息中心 (CBI) 暨蛋白質(zhì)與植物基因研究國家重點(diǎn)實(shí)驗室研究員、博士生導師。他長(cháng)期從事新一代的生物信息方法和技術(shù)研究,其團隊正在基于大數據、統計學(xué)習等計算方法和單細胞多組學(xué)技術(shù),深入挖掘和整合高通量生物數據,在單細胞水平上精準解析細胞調控圖譜并探索其在生物醫****領(lǐng)域的應用方向。 
 他形象地將其團隊從事的事情描述為科學(xué)地 “看相” 和 “算命”,即利用計算的方法解析生物大數據中蘊含的新生命規律。具體來(lái)說(shuō)就是基于基因組、轉錄組等大規模組學(xué)測量數據 (科學(xué) “看相”),通過(guò)多種計算方法有效挖掘、整合、建模,發(fā)現新現象、總結新規律,形成對生命過(guò)程的統一解析和理解,進(jìn)而將其應用于生物醫****領(lǐng)域的診治中,實(shí)現 “科學(xué)算命”。 其技術(shù)路線(xiàn)可以總結為 “數據導向”(Data-Oriented)、“方法驅動(dòng)”(Methodology-Driven)、“干濕結合”(in silico for in vivo)。 細胞是構成生命的基本單元,細胞中多種調控機制造就了機體中功能形態(tài)豐富多樣的細胞群體,并進(jìn)而構成了早期發(fā)育、腫瘤發(fā)展等多種關(guān)鍵生理病理現象的生物學(xué)基礎。而現階段,要實(shí)現 “科學(xué)看相” 和 “科學(xué)算命”,核心工作就在于精準解析細胞調控圖譜。 “隨著(zhù)近年來(lái)以單細胞多組學(xué)數據為代表的新一代測量數據爆發(fā)式增長(cháng),以深度學(xué)習、因果推斷等為代表的統計建模方法不斷取得新進(jìn)展,以及以混合計算、彈性計算等為代表的計算技術(shù)快速鋪開(kāi),我們有望在近期內精準解析人類(lèi)細胞調控圖譜?!?/span>

“數據科學(xué)時(shí)代”

 “21 世紀的生命科學(xué)正在進(jìn)入數據科學(xué)時(shí)代,生命科學(xué)的整體研究方法或者研究思路很大程度上都將隨著(zhù)數據量的快速增長(cháng)而變化,這種改變將會(huì )帶來(lái)巨大、深遠的影響?!?高歌說(shuō)。 如何在海量的生物學(xué)數據中有效挖掘新的生物學(xué)知識是利用計算方法解析生命的關(guān)鍵,而無(wú)論是新型的深度學(xué)習模型、還是經(jīng)典的統計學(xué)習方法,都高度依賴(lài)高質(zhì)量的生物學(xué)數據。近年來(lái),單細胞多組學(xué)測量技術(shù)的快速發(fā)展是獲取高維度生物數據的關(guān)鍵之一。 
 單細胞多組學(xué)測量技術(shù)是指對單個(gè)細胞包含的基因組、表觀(guān)基因組、轉錄組、蛋白質(zhì)組和代謝組等組學(xué)信息進(jìn)行測量分析,從而獲得單個(gè)細胞在多個(gè)層面的運作狀態(tài)。 在此基礎上,科研人員可以進(jìn)一步開(kāi)發(fā)新的計算方法,從多個(gè)層面分析細胞,整合和解讀不同層面的數據,以全面理解細胞的組成成分和運作機制。進(jìn)一步地,在臨床上,多組學(xué)數據能夠幫助人們理解細胞在病理狀態(tài)和生理狀態(tài)之間的差異,并精準鎖定診斷標志物和治療性靶點(diǎn)。 “作為近年來(lái)生命科學(xué)技術(shù)領(lǐng)域最大進(jìn)展之一的單細胞多組學(xué)技術(shù)正在蓬勃發(fā)展。隨著(zhù)多組學(xué)技術(shù)產(chǎn)生的數據量持續增長(cháng),我們在歷史上第一次有可能從整體上構建細胞調控圖譜,進(jìn)而在單細胞水平上對基因表達調控及其生理、病理結果進(jìn)行精準解析,并最終實(shí)現在計算機中建立細胞調控的高精度模型,構造 Virtual Cell。” 高歌說(shuō)。

“數據導向,方法驅動(dòng)”

 “在生命科學(xué)領(lǐng)域,數據本身具有不可忽視的價(jià)值。然而,產(chǎn)生海量數據只是第一步;只有發(fā)展新的計算技術(shù)與方法解析、挖掘這些寶貴的數據,才能發(fā)現新的生物學(xué)現象與規律,并進(jìn)而將其運用于生物醫學(xué)的實(shí)踐中?!?高歌說(shuō)。 數據導向,方法驅動(dòng)” 是高歌團隊的核心研究路線(xiàn)。高歌相信,方法學(xué)(方法特指計算方法)的進(jìn)步是獲得新發(fā)現的有效途徑,并將為從根本上提升對生命系統的理解提供全新的視角與可能。 有鑒于此,該團隊近年來(lái)圍繞生物數據的解析、挖掘與整合,開(kāi)發(fā)了一系列生物信息學(xué)新方法與新技術(shù)。截止目前,其團隊已自主研發(fā) 10 余款生物信息新算法軟件和數據庫,外部有效訪(fǎng)問(wèn)量累計逾 10 億次。
具體來(lái)說(shuō),高歌團隊已經(jīng)開(kāi)發(fā)出了多款深度學(xué)習模型和組件,包括最新發(fā)表的新型卷積層 vConv、新型池化層 ePooling、單細胞轉錄組數據整合和注釋的新方法 Cell BLAST 等。據介紹,其基本思路是根據生物數據特點(diǎn),針對現有深度學(xué)習模型或者組件進(jìn)行調整和優(yōu)化,進(jìn)而從底層重構一套適用于生物學(xué)的深度學(xué)習框架。
高歌告訴生輝,對于一個(gè)計算模型的評價(jià)可以從兩個(gè)方面來(lái)看,一是計算模型本身的性能;二是可解釋性,也就是幫助科學(xué)家理解生物數據中所蘊含的信息與知識的能力。 今年 7 月,該團隊在線(xiàn)發(fā)表最新深度學(xué)習組件 —— 基于自適應卷積核的新型卷積層 vConv。標準卷積神經(jīng)網(wǎng)絡(luò )的卷積核長(cháng)度通常是固定的,但是在生物信號檢測過(guò)程中,信號本身的長(cháng)度并不固定?;诖?,該團隊針對生物醫****領(lǐng)域的數據對卷積神經(jīng)網(wǎng)絡(luò )里的常用卷積層進(jìn)行了改良。 高歌告訴生輝,該模型最大的創(chuàng )新之處在于通過(guò)針對細分領(lǐng)域的數據特點(diǎn)設計深度學(xué)習組件,將標準卷積神經(jīng)網(wǎng)絡(luò )中長(cháng)度固定的卷積核變?yōu)榭勺詣?dòng)調整長(cháng)度的卷積核。  ePooling 則是該團隊開(kāi)發(fā)的一種具有明確概率可解釋性的新型池化層,它從概率可解釋性出發(fā),通過(guò)理性設計,對當前主流的池化方法進(jìn)行了改進(jìn),不僅提升了可解釋性、也提高了性能。 2020 年 7 月,該團隊在 Nature Communications 上發(fā)表了一種基于深度對抗學(xué)習模型的數據檢索和注釋新方法 ——Cell BLAST,和一個(gè)高質(zhì)量單細胞轉錄組參考數據庫 ACA。今年3月,這項研究入選了《基因組蛋白質(zhì)組與生物信息學(xué)報》評選的 2020 年度 “中國生物信息學(xué)十大進(jìn)展”。
在比較跨數據集時(shí),批次效應往往會(huì )降低預測的準確性和可靠性,并影響現有數據的利用,借助對抗學(xué)習方法,Cell BLAST 可以有效地消除數據之間的批次效應。此外,Cell BLAST 還能夠發(fā)現存在于用戶(hù)提交的待查數據集、但不存在于 ACA 參考數據集中的細胞類(lèi)型。 據悉,該團隊還在開(kāi)發(fā)深度學(xué)習模型 GLUE 以整合包括轉錄組、表觀(guān)組、蛋白質(zhì)組等在內不同維度的單細胞多組學(xué)數據,最新研究結果近期已刊登于預印本網(wǎng)站 bioRxiv 上。

正在探索具有長(cháng)期價(jià)值的落地場(chǎng)景

 今年是高歌加入北京大學(xué)的第 10 個(gè)年頭。目前,高歌團隊的工作專(zhuān)注于構建解析細胞調控圖譜,并探索其在早期發(fā)育、消化道腫瘤和免疫相關(guān)疾病上的應用潛力。 科研成果更大的意義是走向轉化應用,真正為生命科學(xué)行業(yè)以及應用帶來(lái)變革。對于科研轉化落地,高歌也有自己的想法。 “從落地角度來(lái)看,我們希望可以找到更有意義和價(jià)值的應用場(chǎng)景和方向。對于具體應用方向,我們需要考慮自己能夠為行業(yè)提供哪些具有長(cháng)期價(jià)值、長(cháng)期競爭優(yōu)勢的科研成果。” 高歌說(shuō)。 雖然還沒(méi)有具體的規劃,但是該團隊現階段也有了一些前期的考慮和計劃。高歌認為,現階段多組學(xué)技術(shù)已經(jīng)應用于精準醫學(xué)研究,預計未來(lái) 5 年可能會(huì )進(jìn)一步應用于精準醫學(xué)臨床診斷與治療。
目前在產(chǎn)前診斷、靶向用****等領(lǐng)域廣泛應用的遺傳篩查仍主要基于對疾病易感基因遺傳變異的檢測,然而,不完全外顯 (reduced penetrance, 即基因型有缺陷的前提下沒(méi)有表型上的變化) 等情形會(huì )嚴重影響最終診斷的信度與效度。 高歌告訴生輝,現在實(shí)驗室的一項工作就是降低遺傳疾病診斷的誤差,現已初步獲得了一些可以降低誤差的發(fā)現。 目前高歌團隊仍將以基礎科研為主,不過(guò)他們正在探索場(chǎng)景落地的可能性。高歌繼續補充,“如果要找到具有長(cháng)期價(jià)值的方向,我覺(jué)得需要與高校的技術(shù)創(chuàng )新能力結合起來(lái)。從基礎到應用的過(guò)程中,高校往往聚焦于 0-1 的階段,大型企業(yè)會(huì )專(zhuān)注于 100-10000,而我們希望能著(zhù)眼于填補 1-100 之間的空白。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 北大

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>