<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > MIT 最新研究:AlphaFold 蛋白質(zhì)預測能力太差,目前利用價(jià)值還很低

MIT 最新研究:AlphaFold 蛋白質(zhì)預測能力太差,目前利用價(jià)值還很低

發(fā)布人:大數據文摘 時(shí)間:2022-09-22 來(lái)源:工程師 發(fā)布文章

大數據文摘授權轉載自AI科技評論

作者 | 李梅、黃楠

編輯 | 陳彩嫻

2018 年,Deepmind 首次發(fā)布基于深度神經(jīng)網(wǎng)絡(luò )的蛋白質(zhì)結構預測數據庫 AlphaFold,在蛋白質(zhì)預測中實(shí)現了最先進(jìn)的性能;去年,AlphaFold 2 獲得了 98.5% 的蛋白質(zhì)預測率;前段時(shí)間,Deepmind 又重磅發(fā)布了數據集更新,稱(chēng)目前的 AlphaFold 已經(jīng)預測了幾乎所有已知的蛋白質(zhì)。

如何有效識別****物作用機制在今天仍然是一個(gè)巨大挑戰,計算對接的方法已被廣泛用于預測****物結合靶點(diǎn)。有了大規模蛋白質(zhì)結構預測技術(shù),****物發(fā)現將變得更容易。所以,自 AlphaFold 問(wèn)世以來(lái),稱(chēng)其將引發(fā)一場(chǎng)結構生物學(xué)的革命、徹底改變****物發(fā)現的聲音就不絕于耳。

本質(zhì)上,AlphaFold 是一個(gè)工具,我們目前真的能利用好這個(gè)工具嗎?

近日,來(lái)自 MIT 的研究團隊給出了否定的回答。

他們對使用 AlphaFold2 的分子對接模擬的模型性能進(jìn)行了評估,發(fā)現模型在識別真正的蛋白質(zhì)-配體相互作用方面的預測能力較弱,并證明需要使用基于機器學(xué)習的方法進(jìn)行建模來(lái)提高模型性能,以更好地利用AlphaFold2 進(jìn)行****物發(fā)現。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發(fā)表在了Molecular Systems Biology 期刊上。

圖片

論文地址:https://www.embopress.org/doi/epdf/10.15252/msb.202211081

使用AlphaFold 2 預測分子對接

所謂化合物的對接計算,是將候選化合物列表中的每一個(gè)對接到目標蛋白質(zhì)中,生成最有可能結合的化合物的粗略排序。這個(gè)過(guò)程可以在化合物集合上完成,獲得龐大的虛擬庫,這種虛擬篩選已經(jīng)成為計算化學(xué)領(lǐng)域的長(cháng)期目標。
篩選 218 種大腸桿菌活性化合物研究團隊首先篩選了一組化合物,包含大約 39128 種,其中包括已知****物(已知抗生素)、活性天然產(chǎn)物和一系列其他不同結構,并在針對大腸桿菌的篩選中發(fā)現了 218 種化合物培養物。僅僅有 218 個(gè)陽(yáng)性,這個(gè)結果是令人驚訝的,但考慮到抗菌****物發(fā)現工作的難度,這個(gè)數字也算比較難得了。在 218 種活性化合物中,有大約 80% 是已知抗生素類(lèi)別中的成員,剩下的部分則是已知細胞毒性化合物和一些新的通配類(lèi)型的混合。這為實(shí)驗的進(jìn)行提供了一個(gè)很好的背景,因為在大多數情況下,我們可以預測從反向對接篩選中獲得什么結果。將活性化合物與預測的蛋白質(zhì)結構對接接著(zhù),團隊研究了這些活性化合物的潛在結合靶標。多年來(lái),在大腸桿菌中進(jìn)行的大量基因組敲除掃描的共識評分已經(jīng)得出了 296 項基本蛋白質(zhì),所以,可以合理推斷所有真正抑制生長(cháng)的靶標蛋白質(zhì)都可能在這些列表當中。作者將 218 種活性化合物中與 AlphaFold 2 預測出的 296 種基本大腸桿菌蛋白質(zhì)結構進(jìn)行對接,并通過(guò)幾種不同的計算方法,對 218 種化合物與 296 種蛋白質(zhì)的組合進(jìn)行計算,預測了 64000 多個(gè)蛋白質(zhì)-配體對的結合位姿與結合親和力預測。圖片圖注:在 AlphaFold 結構上進(jìn)行分子對接從計算量來(lái)看,這是一個(gè)可靠度相當高的測試,尤其是考慮到內部控制的數量(具有已知靶標的化合物和在這些靶標內具有已知結合構象的化合物),這項計算是很有價(jià)值的。作為對照,研究團隊還從一組化合物中,隨機選擇了 100 種對細菌生長(cháng)完全沒(méi)有抑制作用的化合物進(jìn)行相同的計算,從而獲得對 29600 個(gè)蛋白質(zhì)-配體對的結合位姿與親和力預測。

基于 AlphaFold 2 預測結構的模型性能很弱

雖然這項工作預測了包括活性和非活性化合物的化合物與蛋白質(zhì)混雜性,但問(wèn)題是,這些預測中有多少是假陽(yáng)性?將模型預測與已知的抗生素結合目標進(jìn)行比較為了評估所用模型方法的性能,作者將模型預測與常用抗生素類(lèi)別的已知相互作用進(jìn)行比較。作者搜集了先前文獻中的抗生素-蛋白質(zhì)靶對,組成一個(gè)包含 142 種抗生素-蛋白質(zhì)相互作用的數據集。結果發(fā)現,他們的模型僅僅正確預測了 3 種具有強結合性(即結合親和力閾值為 -7 kcal/mol )的相互作用,以及 43 種具有一般結合性(即結合親和力閾值為 -5 kcal/mol )的相互作用。所以,模型預測的真陽(yáng)性率分別為 2.1% 和 30.3%。這種比較表明,基于 AlphaFold 2 預測結構的建模平臺性能很弱。測量 12 種基本蛋白質(zhì)的酶抑制作者接著(zhù)選取了 12 種基本蛋白質(zhì),它們可以用于酶促測定,通過(guò)測量 218 種活性化合物對這些蛋白質(zhì)的酶抑制,作者對模型預測的子集進(jìn)行進(jìn)一步的評估。圖片圖注:所有 218 種活性化合物的平均相對活性,12 種蛋白質(zhì)都經(jīng)過(guò)抑制實(shí)驗測試。結合相互作用命中是蛋白質(zhì)-配體相互作用(紅點(diǎn)),所有其他交互都被指定為非命中(灰點(diǎn))。結果表明,所有測試中的基本蛋白質(zhì)都被至少四種不同的化合物所抑制,涵蓋從強到弱的一系列結合親和力閾值,基于 AlphaFold 2 的模型所預測的對接顯示出了廣泛的混雜性。模型的基準測試最后,作者對建模平臺的性能進(jìn)行了統計基準測試?;诿敢种茰y量數據,作者將實(shí)驗觀(guān)察到的結合相互作用命中與他們預測的相互作用進(jìn)行比較,結合親和力閾值設定為小于 -5 kcal/mol 和 -7 kcal/mol。結果發(fā)現,更強結合性的親和力閾值會(huì )導致更少的結合相互作用預測,此時(shí)真陽(yáng)性率更低,準確性更高。模型性能根據所設定的結合親和力閾值從弱到中等變化。作者又在獨立于結合親和力閾值的條件下,使用接受者操作特征曲線(xiàn) (ROC) 和精確召回曲線(xiàn) (PR) 再次進(jìn)行評估,也都表明模型性能較弱。總之,模型的預測結果中不僅存在大量假陽(yáng)性(即非活性化合物被預測為與關(guān)鍵細菌蛋白質(zhì)的活性位點(diǎn)結合),而且還有大量的假陰性(即已知存在相互作用,但沒(méi)有被發(fā)現)。只有達到最嚴格的結合親和力閾值時(shí),模型才會(huì )比隨機預測表現得略好一些。

AlphaFold 本身沒(méi)錯,用好機器學(xué)習方法是關(guān)鍵

下來(lái)的問(wèn)題是,模型的弱性能是由 AlphaFold2 所提供的蛋白質(zhì)結構質(zhì)量導致的嗎?
問(wèn)題出自對接方法而非蛋白質(zhì)結構質(zhì)量為了驗證這個(gè)問(wèn)題,作者將 218 種活性化合物與八種實(shí)驗確定的蛋白質(zhì)結構中的每一種對接進(jìn)行了重復的對接模擬,并同樣對模型性能進(jìn)行了基準測試,結果是 auROC 值在數量上與先前相似,范圍從 0.25 ( glmU ) 到 0.69 ( gyrAB ),平均值為 0.46。auPRC 值也發(fā)現了類(lèi)似的結果,范圍從 0.03 ( ligA ) 到 0.56 ( gyrAB ),平均值為 0.22。這些發(fā)現表明,使用 AlphaFold2 預測結構的分子對接與使用實(shí)驗確定的結構是類(lèi)似的。這也與之前對 AlphaFold 對實(shí)驗確定的蛋白質(zhì)結構的保真度評估一致,由此可以得出,模型的性能弱是因為對接方法的原因,而不是蛋白質(zhì)結構的質(zhì)量差。使用機器學(xué)習方法可改進(jìn)模型性能基于分子對接的弱性能問(wèn)題,研究團隊探索了可以提高性能的方法。研究中使用了四種不同的基于機器學(xué)習的評分函數,分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore,以對模型性能進(jìn)行基準測試和改進(jìn)。相比于 RF-Score 和 RF-Score-VS - RF-Score 的虛擬篩選適應性--利用隨機森林或決策樹(shù)的組合來(lái)預測蛋白質(zhì)與配體的結合親和力,PLEC  score 采用了蛋白質(zhì)-配體對之間的擴展連接指紋,NNScore 是基于神經(jīng)網(wǎng)絡(luò )的集合。作者在研究中采用了評分函數,使用 PDBbind v2016 或有用的誘餌目錄對增強(DUD-E)數據庫進(jìn)行訓練,以重新評估 AutoDock Vina 預測的對接姿勢。此外,研究使用 DOCK6.9 和應用于 AutoDock Vina 姿勢的每個(gè)基于機器學(xué)習的評分函數,還預測了每種抗菌化合物與 12 種經(jīng)驗測試必需蛋白中每一種之間的結合親和力,并對每種方法的性能進(jìn)行基準測試。測試結果發(fā)現,平均 auROC 值在 0.46 和 0.63 之間(下圖 A)。其中,與 DOCK6.9 對接并使用 PLEC score 對 AutoDock Vina 姿勢進(jìn)行重新評分平均,導致 auROC 值低于單獨使用 AutoDock Vina 的結果,DOCK6.9 的 auROC 值為為 0.46(范圍為 0.25 至 0.61)和 0.47(范圍 PLEC score 為 0.28 至 0.63)(下圖 A)相比之下,使用 RF-Score、RF-Score-VS 或 NNScore 對 AutoDock Vina 姿勢進(jìn)行重新評分可提高模型性能,平均 auROC 值分別為 0.62(范圍為 0.53 至 0.69)、0.63(范圍為 0.46 至 0.75)和 0.58(范圍為 0.41 到 0.69)。研究結果也與 auPRC 相似,當使用 RF-Score 重新評分時(shí),其平均值高達 0.24。這些模型性能評估表明,某些基于機器學(xué)習的評分函數提高了預測準確性。圖片圖注:使用機器學(xué)習對模型性能進(jìn)行基準測試和改進(jìn)。A. 在不同的分子對接程序和不同的基于機器學(xué)習的姿勢評分函數。白點(diǎn)表示平均值;灰色條表第25-75個(gè)百分位值的范圍;灰色箱線(xiàn)圖須線(xiàn)表示不被視為異常值的值范圍;0.5 處的水平線(xiàn)表示隨機預測生成的基準。B. 通過(guò)在 AutoDock Vina 應用基于機器學(xué)習的重新評分函數建模的蛋白質(zhì)-配體對的排序結合親和力 。曲線(xiàn)根據 (A) 中使用的重新評分函數著(zhù)色;陰影區域表示 > 7 的結合親和力閾值。C-E. 預測準確性、預測陽(yáng)性數(蛋白質(zhì)-配體相互作用)和真陽(yáng)性率/假陽(yáng)性率對所用模型數量的依賴(lài)性。群體智慧方法可提高預測準確性由于某些基于機器學(xué)習的評分函數會(huì )增加 auROC 和 auPRC,研究還探討了在嚴格限制結合親和力閾值的情況下,結合“群體智慧”方法使用重新評分模型,是否可以提高預測準確性和真陽(yáng)性率。作者將預測的蛋白質(zhì)-配體相互作用,定義為滿(mǎn)足所有模型的結合親和力閾值,并將 AutoDock Vina 預測與上述四種基于機器學(xué)習的評分函數的預測相結合;研究通過(guò)使用這種共識方法發(fā)現,預測準確性可隨著(zhù)使用的模型數量而提高(上圖 C),這同預測的蛋白質(zhì)-配體相互作用數量的相應減少預期一致(上圖 D)。與此同時(shí),真陽(yáng)性率與假陽(yáng)性率的比率則是隨使用模型數量的增加而增加,在預期之外(上圖 E)。可以看到,該結果同使用某些基于機器學(xué)習的評分函數提高預測能力的發(fā)現一致,這也進(jìn)一步表明了,將分子對接與基于機器學(xué)習的模型結合起來(lái),可以讓人們更好地利用 AlphaFold2 預測的蛋白質(zhì)結構進(jìn)行****物篩選。所以,一些機器學(xué)習方法確實(shí)可以提高了預測的準確性。不過(guò),這只是部分的成功,當前研究所用的數據集中有很多已經(jīng)確定的蛋白質(zhì)和化合物的實(shí)驗事實(shí),如果涉及那些較少被關(guān)注的領(lǐng)域,這些方法是否仍然奏效就不可知了。雖然 AlphaFold 為我們提供了大量且合理的蛋白質(zhì)結構,但我們實(shí)現它的價(jià)值的能力還非常有限。所以至少在目前看來(lái),“AlphaFold 將徹底改變****物發(fā)現”的說(shuō)法還尚待證實(shí),成功還在未來(lái)。參考鏈接:https://www.science.org/content/blog-post/not-alphafold-s-fault


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>