<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 將人類(lèi)語(yǔ)言理解能力應用于藥物發(fā)現中以提高活性預測模型的性能

將人類(lèi)語(yǔ)言理解能力應用于藥物發(fā)現中以提高活性預測模型的性能

發(fā)布人:數據派THU 時(shí)間:2023-04-24 來(lái)源:工程師 發(fā)布文章

在藥物發(fā)現和材料科學(xué)中,活性和性質(zhì)預測模型是及其重要的工具,但目前采用的模型一般需要根據新需求在目標數據上進(jìn)行訓練或微調。語(yǔ)言模型可以通過(guò)零/少樣本能力處理新的任務(wù),但其活性預測的預測質(zhì)量較差。為此,作者提出了一種新型活性預測模型,通過(guò)理解描述任務(wù)的文本信息,能夠在推理時(shí)適應新的預測任務(wù)。

圖片

分子活性和分子性質(zhì)預測模型是計算藥物發(fā)現中的主要工具,類(lèi)似于自然語(yǔ)言處理(NLP)中的語(yǔ)言模型和計算機視覺(jué)(CV)中的圖像分類(lèi)模型,并且已經(jīng)發(fā)展了數年。

圖片

分子編碼器從化學(xué)結構中提取相關(guān)特征,并在生物活性數據上進(jìn)行訓練。由于活性數據的標簽來(lái)自于濕實(shí)驗,標注方式十分繁雜并且昂貴,因此人們對能夠在少量數據點(diǎn)上高效訓練活性預測模型的方法非常感興趣。最近提出的基準數據集FS-Mol為活性預測任務(wù)提供了僅四個(gè)標記分子,因此模型必須能夠有效地從其他任務(wù)中轉移知識,這顯然不試用于如上圖a部分所示的模型構建形式。同時(shí),濕實(shí)驗中有關(guān)活性預測任務(wù)的文本描述中可能也有大量信息,但目前的活性預測模型(以上圖a部分所示模型為代表)無(wú)法利用這些信息。


對于語(yǔ)言模型而言(上圖b部分所示),雖然其結合了自然語(yǔ)言和化學(xué)結構的信息,但它們在活性預測方面仍表現不佳,其效果受限于隱式分子編碼器和訓練數據量等因素。作者認為,選擇有效的分子編碼器并利用帶自然語(yǔ)言的化學(xué)數據庫作為訓練或預訓練數據,可以改進(jìn)上述兩種模型的缺點(diǎn),以提高活性預測的性能。為此,作者出了一種具有兩個(gè)獨立模塊的模型結構(CLMAP)。第一個(gè)模塊是分子編碼器,第二個(gè)模塊是文本編碼器,兩者在這兩種數據模態(tài)之間進(jìn)行基于對比學(xué)習的預訓練,如上圖c部分所示。值得注意的是,目前流行的對比學(xué)習框架(沒(méi)有標簽的成對數據),將匹配數據對與生成的不匹配數據對進(jìn)行對比,而作者在這里采用的是依據數據集已有的標簽來(lái)構建文本和分子的數據對(即分子對文本描述的任務(wù)有活性時(shí),設置為匹配的數據對,無(wú)活性時(shí),為不匹配對)。

實(shí)驗結果

圖片

零樣本遷移學(xué)習:作者在FS-Mol和PubChem這里兩個(gè)數據集上對CLAMP的能力與其他方法做了對比??梢钥吹?,基于純自然語(yǔ)言的模型GAL和KV-PLM并不能很好的做好零樣本下的遷移學(xué)習。值得注意的是,FH是目前最好的方法,CLAMP仍能夠在各種數據集劃分的方式下打敗它。

圖片

模型表示能力:為了檢查模型學(xué)習到的分子表示是否可轉移到其他任務(wù)上,文章選取MoleculeNet作為基準數據集,將CLAMP與其他方法進(jìn)行對比。通過(guò)在分子表示層特征進(jìn)行線(xiàn)性調整之后,CLAMP效果甚佳,在大部分情況遠超已有模型。

結論

作者提出的對比學(xué)習方法 CLAMP 在多個(gè)大型數據集上展現出了最佳的零樣本預測藥物活性的表現。除此之外,CLAMP 的預訓練分子編碼器能夠產(chǎn)生有效的分子編碼,可以遷移到其他分子屬性預測任務(wù)上。作者還指出,盡管語(yǔ)言模型原則上可以用于零樣本活性預測,但它們在這個(gè)任務(wù)上表現不佳,并且計算成本較高。


參考資料

Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>