<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 復現AlphaFold2?完全開(kāi)源新型蛋白結構預測工具的背后:算法不是寫(xiě)出來(lái)的,而是用出來(lái)的丨專(zhuān)訪(fǎng)深勢科技

復現AlphaFold2?完全開(kāi)源新型蛋白結構預測工具的背后:算法不是寫(xiě)出來(lái)的,而是用出來(lái)的丨專(zhuān)訪(fǎng)深勢科技

發(fā)布人:深科技 時(shí)間:2021-12-12 來(lái)源:工程師 發(fā)布文章
從一舉破解困擾生物學(xué)家長(cháng)達 50 年的 “蛋白質(zhì)折疊” 難題,再到向公眾開(kāi)源相關(guān)代碼,AlphaFold2、RoseTTAFold 等蛋白質(zhì)結構預測工具正在深刻變革著(zhù)結構生物學(xué)的發(fā)展。


站在巨人的肩膀上,國內的同行們也在不斷改進(jìn)和優(yōu)化算法性能,并相繼推出了自己的蛋白質(zhì)預測工具。
近日,國內人工智能初創(chuàng )公司深勢科技宣布正式推出蛋白質(zhì)結構預測工具 Uni-Fold,并開(kāi)源了推理代碼和訓練代碼。深勢科技表示,Uni-Fold 成功復現了 AlphaFold2 的全規模訓練,且已集成在其專(zhuān)有的****物設計平臺 Hermite,用戶(hù)可以在線(xiàn)試用。
值得一提的是,Uni-Fold 同時(shí)開(kāi)源了推理代碼和訓練代碼,這意味著(zhù)用戶(hù)不僅可以預測蛋白質(zhì)三維結構,還可以根據項目需求進(jìn)一步訓練和優(yōu)化模型。而早前 AlphaFold2 只開(kāi)源了推理代碼,用戶(hù)只能在現有數據庫基礎上使用。
據介紹,同等測試條件下,Uni-Fold 對 CASP14 蛋白質(zhì)序列數據集的 Cα-lDDT 達到 82.6,僅次于 AlphaFold2 的預測精度。此外,Uni-Fold 在運行硬件和代碼運行效率上具有明顯優(yōu)勢。
與 AlphaFold2 相比,本次開(kāi)源的 Uni-Fold 有何突破性?背后推手深勢科技在生物制****領(lǐng)域有著(zhù)怎么樣的布局?對計算生物學(xué)又有著(zhù)怎樣的見(jiàn)解?
就這些問(wèn)題,生輝與深勢科技首席執行官孫偉杰以及首席科學(xué)家張林峰博士進(jìn)行了探討。
孫偉杰與張林峰是典型的 90 后創(chuàng )業(yè)者,兩人既是本科同窗摯友,也是配合默契的創(chuàng )業(yè)伙伴。兩人本科均畢業(yè)于北大元培學(xué)院,此后,張林峰前往普林斯頓大學(xué)攻讀應用數學(xué)博士學(xué)位,孫偉杰則投身于投資和管理。2018 年底,兩人一拍即合,共同創(chuàng )辦了深勢科技。

這是一家定位為工業(yè)設計的初創(chuàng )公司,目前團隊規模約為 120 人左右。該公司計劃搭建微尺度工業(yè)設計平臺,目標是從電子、原子、分子等微觀(guān)尺度為傳統行業(yè)找尋解決方案,當前兩大落地場(chǎng)景是****物設計和材料設計。
“開(kāi)源兩大代碼更大的意義在于,可以為整個(gè)領(lǐng)域內提供與 AlphaFold2 相同的起點(diǎn),從這個(gè)起點(diǎn)出發(fā),大家可以做更多的事情。同時(shí),技術(shù)的演進(jìn)也會(huì )探索更多新場(chǎng)景,包括蛋白質(zhì)復合物、動(dòng)力學(xué)等。接下來(lái)可能會(huì )出現更令人興奮的解決方案,整個(gè)生物計算以及生物制****領(lǐng)域也會(huì )有更大的發(fā)展。我們相信,Uni-Fold 會(huì )讓接下來(lái)半年更加值得期待。” 張林峰說(shuō)。完全開(kāi)源,可不斷優(yōu)化算法
AlphaFold2 在第 14 屆蛋白質(zhì)結構預測大賽中(CASP14)的預測分值中位數為 92.4 GDT,預測水準與實(shí)驗室水平相差無(wú)幾。其預測精確度極高的一個(gè)重要原因就在于對數據的利用度非常高,幾乎應用了領(lǐng)域內所有數據。
張林峰告訴生輝,蛋白質(zhì)預測工具 Uni-Fold 成功復現了 AlphaFold2 的大規模數據訓練過(guò)程。也就是說(shuō)完全復刻了 AlphaFold2 的技術(shù)路線(xiàn),兩者的方法論一致,且屬于同一代技術(shù)。
基于此,Uni-Fold 對蛋白質(zhì)三維結構的預測精度、運行時(shí)間和對蛋白質(zhì)復合物的預測與 AlphaFold2 接近。據悉,在同等測試條件下,Uni-Fold 對 CASP14 蛋白質(zhì)序列數據集的平均 Cα-lDDT(局部比對指標)達到 82.6,僅次于 AlphaFold2,超越了 RoseTTAFold。

AlphaFold2 更擅長(cháng)預測和計算單個(gè)蛋白質(zhì)的結構,然而大多數蛋白質(zhì)往往是以復合物形式存在,并非單體存在。預測蛋白質(zhì)復合物是該領(lǐng)域比較棘手的問(wèn)題,RoseTTAFold 的研究人員曾表示下一步將會(huì )繼續提高算法預測蛋白質(zhì)復合物的能力。張林峰也坦言,目前 Uni-Fold 還沒(méi)有完全解決復合物預測問(wèn)題,這會(huì )是團隊未來(lái)一個(gè)重點(diǎn)努力方向。
據了解,更為關(guān)鍵的一點(diǎn)在于,Uni-Fold 是蛋白質(zhì)結構研究領(lǐng)域首款完全開(kāi)源的預測工具,同時(shí)開(kāi)源推理代碼和訓練代碼。相比之下,AlphaFold2 只開(kāi)源推理代碼,這就意味著(zhù)只能在給定場(chǎng)景下預測蛋白質(zhì)結構,一定程度上限制了算法的優(yōu)化以及應用邊界的擴展。
“這就好像一個(gè)用已有數據訓練出來(lái)的‘熟練工’,只能根據指令做一些指定的指令,可塑性較低。從訓練角度來(lái)看,完全開(kāi)源的算法更像一個(gè)高智商的‘孩童’”,我們可以在不同場(chǎng)景,不同需求之下,指引其成為某個(gè)領(lǐng)域的專(zhuān)家?!?/span>
算法不是寫(xiě)出來(lái)的,而是用出來(lái)的。我們希望在原有算法的基礎上擴展更多新的功能,包括蛋白質(zhì)復合物結構預測、蛋白質(zhì)與小分子相互作用預測、與電鏡實(shí)驗結合、抗體序列設計等場(chǎng)景。這是一個(gè)長(cháng)期的發(fā)展需求,需要不斷演進(jìn)迭代算法,開(kāi)源算法有助于我們在整個(gè)領(lǐng)域不斷迭代解決方案?!?張林峰補充道。
此外,AlphaFold2 所開(kāi)源的代碼與硬件生態(tài)耦合,需要通過(guò) Google 專(zhuān)有的硬件 TPU Pod 運行。據悉,相比之下,Uni-Fold 具備更加通用的硬件運行平臺,適配并支持 NVIDIA、AMD 以及一些國產(chǎn)硬件。同時(shí),在訓練和效率上也做了大量工作,比如說(shuō)推理代碼也更加輕量、高效,在同等運行硬件條件下,代碼運行效率提升約 2-3 倍。“新時(shí)代的薛定諤”
2019 年,張林峰在分子模擬算法上的取得了突破,這項由他作為核心開(kāi)發(fā)者的研究工作獲得 2020 年全球計算機高性能計算領(lǐng)域的最高獎項 “戈登?貝爾獎”,并當選 2020 年全球人工智能十大科技進(jìn)展。
生命科學(xué)、新能源、新材料和信息技術(shù)是人類(lèi)文明最基礎的行業(yè),發(fā)展的瓶頸普遍是分子層面的設計問(wèn)題。我們將量子物理模型、分子模擬算法、人工智能、高性能計算等新工具有機結合,搭建一個(gè)微尺度工業(yè)設計的平臺,從微觀(guān)層面出發(fā)解決這些行業(yè)問(wèn)題?!?孫偉杰說(shuō)。
兩位創(chuàng )始人更傾向于將深勢科技定位成一家工業(yè)設計公司。目前,該公司基于分子模擬算法搭建了專(zhuān)有的微尺度工業(yè)設計平臺,細分應用場(chǎng)景落地在****物設計和材料設計兩大領(lǐng)域。本文的重點(diǎn)將圍繞****物設計場(chǎng)景展開(kāi)。
官網(wǎng)信息顯示,****物設計平臺(Hermite)集中于臨床前計算機輔助****物設計的全部階段,涵蓋了蛋白結構解析、靶點(diǎn)發(fā)現和確證、虛擬篩選、先導化合物優(yōu)化、分子智能推薦和****代動(dòng)力學(xué)預測等功能。上文提到的 Uni-Fold 的相關(guān)解決方案已整合在 Hermite 平臺中。

孫偉杰告訴生輝,基于這些特色的算法和功能,深勢科技首先可以為生物制****公司提供軟件服務(wù),也會(huì )基于創(chuàng )新性算法和生物制****公司針對一些難成****靶點(diǎn)進(jìn)行聯(lián)合研發(fā),包括選擇性抑制劑、別構抑制劑,以及針對無(wú)固定構象蛋白靶點(diǎn)的****物設計和針對特定表位的抗體設計等。目前,已經(jīng)有多個(gè)合作項目在推進(jìn)中。
在****物設計場(chǎng)景下,從平臺角度來(lái)看,我們更愿意做新時(shí)代的‘薛定諤’。一方面,Hermite 平臺可以基本覆蓋到薛定諤計算化學(xué)工具的功能范圍,包括從蛋白質(zhì)結構解析、****物分子設計與優(yōu)化,再到****物諸多性質(zhì)評估的早期****物發(fā)現鏈條。另一方面,Hermite 平臺整合了源自?xún)炔縿?chuàng )新和外部合作者的多個(gè)先進(jìn)算法模塊,在多個(gè)方面都有超越薛定諤現有功能的潛力,帶來(lái)新的應用價(jià)值?!?孫偉杰說(shuō)。
薛定諤定成立于 1990 年,是計算化學(xué)領(lǐng)域的 “老兵”,在業(yè)內有 “計算****物研發(fā)上市第一股” 之稱(chēng)。該公司長(cháng)期專(zhuān)注于利用人工智能計算平臺加速****物開(kāi)發(fā)和材料設計,基于物理和化學(xué)分析的專(zhuān)有軟件可以精準預測模型,繼而以更低成本、更快發(fā)現更高質(zhì)量的分子,并開(kāi)發(fā)相關(guān)管線(xiàn)。“計算模擬的本質(zhì)是替代實(shí)驗”
通常來(lái)講,如果要研究一種材料或者一款候選化合物的性質(zhì),需要通過(guò)生化實(shí)驗分析驗證。分子模擬則是在計算機上完成這些的化學(xué)實(shí)驗?!?/span>本質(zhì)上,計算的價(jià)值就在于是否有能力替代此前在微觀(guān)分子層面難以完成的實(shí)驗或者低效的實(shí)驗。” 孫偉杰說(shuō)。
“對于計算平臺而言,無(wú)論是從 AI 概念出發(fā),還是從計算或者是 CADD(計算機輔助****物設計)出發(fā),關(guān)鍵在于平臺技術(shù)中的計算方法或者工具能否具備代替試驗的能力。
孫偉杰透露,算法設計也應該朝著(zhù)更有潛力代替實(shí)驗的方向出發(fā),只有這樣算法的價(jià)值才會(huì )更高,平臺技術(shù)才可以解決更多的問(wèn)題。從這個(gè)角度來(lái)看,雖然前路漫長(cháng),但我們對公司開(kāi)發(fā)的分子模擬算法充滿(mǎn)信心。
以****物設計場(chǎng)景為例,深勢科技未來(lái)的方向同樣也會(huì )聚焦兩個(gè)方面:一,部分代替此前成熟但相對低效的實(shí)驗,比如通過(guò) X 射線(xiàn)晶體學(xué)或者是冷凍電鏡解析結構,以及****物的篩選和優(yōu)化;二,解決難以進(jìn)行實(shí)驗的****物設計問(wèn)題,比如一些傳統意義上難成****的靶標,以及針對離子通道和特定表位的抗體****物設計。
現如今,CADD、AI 制****概念火熱,資本青睞,****企頻頻拋出橄欖枝。一方面,薛定諤、Relay、Recursion、AbCelera 等相繼上市,獲得資本熱捧;另一方面,英國 AI 制****領(lǐng)跑者 Exscientia 與 GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與****明康德、BMS、再鼎攜手...


這是否意味著(zhù)以 AI、CADD 為代表的計算生物學(xué)方式正在或者已經(jīng)可以代替傳統實(shí)驗手段,在生物制****領(lǐng)域發(fā)揮著(zhù)重大的價(jià)值?
“我認為現階段兩種方式會(huì )共存共生,互相促進(jìn)。從預測工具角度來(lái)看,首先需要區分不同的應用場(chǎng)景,評估算法的預測精度和置信區間;從生物體層面出發(fā),針對可以物理建模的生物問(wèn)題,可能會(huì )在未來(lái)幾年通過(guò)計算方法的發(fā)展得到較好的解決。而對于復雜且無(wú)法物理建模的生物學(xué)問(wèn)題,需要實(shí)驗技術(shù)揭示更深層的生物機理,提供更多高質(zhì)量的數據,才能讓 AI 和計算發(fā)揮更大的價(jià)值,進(jìn)而揭開(kāi)生物體運作的奧秘?!?孫偉杰總結道。
張林峰從計算的發(fā)展過(guò)程角度談一談自己的觀(guān)點(diǎn)。從傳統實(shí)驗到計算方法的演進(jìn)并非一蹴而就,這是一個(gè)循序漸進(jìn)的過(guò)程。以薛定諤為例,當前該公司的 Docking 解決方案在某種程度上已經(jīng)實(shí)現了對實(shí)驗的部分替代。此外,代替方案也需要考慮效率和成本問(wèn)題。
整體來(lái)看,計算正處于替代實(shí)驗的過(guò)程之中,這是一個(gè)存量和增量的問(wèn)題。對于一些新靶點(diǎn)或者比較大的蛋白,這些屬于存量問(wèn)題,計算工具精度可能還不夠,實(shí)驗方法必不可少;此外,新問(wèn)題層出不窮,結構生物學(xué)領(lǐng)域在可見(jiàn)的未來(lái)還是一個(gè)計算和試驗有機結合的生態(tài),雙方肯定是互相促進(jìn),共同發(fā)展?!?張林峰補充道。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 新型蛋白結構預測工具

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>