將人類(lèi)語(yǔ)言理解能力應用于藥物發(fā)現中以提高活性預測模型的性能
在藥物發(fā)現和材料科學(xué)中,活性和性質(zhì)預測模型是及其重要的工具,但目前采用的模型一般需要根據新需求在目標數據上進(jìn)行訓練或微調。語(yǔ)言模型可以通過(guò)零/少樣本能力處理新的任務(wù),但其活性預測的預測質(zhì)量較差。為此,作者提出了一種新型活性預測模型,通過(guò)理解描述任務(wù)的文本信息,能夠在推理時(shí)適應新的預測任務(wù)。
分子活性和分子性質(zhì)預測模型是計算藥物發(fā)現中的主要工具,類(lèi)似于自然語(yǔ)言處理(NLP)中的語(yǔ)言模型和計算機視覺(jué)(CV)中的圖像分類(lèi)模型,并且已經(jīng)發(fā)展了數年。
分子編碼器從化學(xué)結構中提取相關(guān)特征,并在生物活性數據上進(jìn)行訓練。由于活性數據的標簽來(lái)自于濕實(shí)驗,標注方式十分繁雜并且昂貴,因此人們對能夠在少量數據點(diǎn)上高效訓練活性預測模型的方法非常感興趣。最近提出的基準數據集FS-Mol為活性預測任務(wù)提供了僅四個(gè)標記分子,因此模型必須能夠有效地從其他任務(wù)中轉移知識,這顯然不試用于如上圖a部分所示的模型構建形式。同時(shí),濕實(shí)驗中有關(guān)活性預測任務(wù)的文本描述中可能也有大量信息,但目前的活性預測模型(以上圖a部分所示模型為代表)無(wú)法利用這些信息。
對于語(yǔ)言模型而言(上圖b部分所示),雖然其結合了自然語(yǔ)言和化學(xué)結構的信息,但它們在活性預測方面仍表現不佳,其效果受限于隱式分子編碼器和訓練數據量等因素。作者認為,選擇有效的分子編碼器并利用帶自然語(yǔ)言的化學(xué)數據庫作為訓練或預訓練數據,可以改進(jìn)上述兩種模型的缺點(diǎn),以提高活性預測的性能。為此,作者出了一種具有兩個(gè)獨立模塊的模型結構(CLMAP)。第一個(gè)模塊是分子編碼器,第二個(gè)模塊是文本編碼器,兩者在這兩種數據模態(tài)之間進(jìn)行基于對比學(xué)習的預訓練,如上圖c部分所示。值得注意的是,目前流行的對比學(xué)習框架(沒(méi)有標簽的成對數據),將匹配數據對與生成的不匹配數據對進(jìn)行對比,而作者在這里采用的是依據數據集已有的標簽來(lái)構建文本和分子的數據對(即分子對文本描述的任務(wù)有活性時(shí),設置為匹配的數據對,無(wú)活性時(shí),為不匹配對)。
實(shí)驗結果
零樣本遷移學(xué)習:作者在FS-Mol和PubChem這里兩個(gè)數據集上對CLAMP的能力與其他方法做了對比??梢钥吹?,基于純自然語(yǔ)言的模型GAL和KV-PLM并不能很好的做好零樣本下的遷移學(xué)習。值得注意的是,FH是目前最好的方法,CLAMP仍能夠在各種數據集劃分的方式下打敗它。
模型表示能力:為了檢查模型學(xué)習到的分子表示是否可轉移到其他任務(wù)上,文章選取MoleculeNet作為基準數據集,將CLAMP與其他方法進(jìn)行對比。通過(guò)在分子表示層特征進(jìn)行線(xiàn)性調整之后,CLAMP效果甚佳,在大部分情況遠超已有模型。
結論
作者提出的對比學(xué)習方法 CLAMP 在多個(gè)大型數據集上展現出了最佳的零樣本預測藥物活性的表現。除此之外,CLAMP 的預訓練分子編碼器能夠產(chǎn)生有效的分子編碼,可以遷移到其他分子屬性預測任務(wù)上。作者還指出,盡管語(yǔ)言模型原則上可以用于零樣本活性預測,但它們在這個(gè)任務(wù)上表現不佳,并且計算成本較高。
參考資料
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。