MolGen: 化學反饋引導的預訓練分子生成
引言
藥物發現的核心環節之一是合成和設計具有理想化學特性的分子。隨著語言模型展現出在解析復雜分子分布方面的潛力,研究人員開始嘗試將分子的SMILES描述符與預訓練語言模型相結合。然而,SMILES描述符的語法特質并不總能保障所生成化學結構的有效性,經常導致生成化學上無意義的字符串。除此之外,雖然分子語言模型在預訓練過程中學習了大量的分子結構信息,它們仍難以準確捕捉到現實世界中化學與生物特性的復雜關系。這使得它們常常陷入“分子幻覺”,生成在結構上看似正確,但缺乏理想化學屬性的分子。為了應對上述挑戰,本文提出了新的分子生成框架MolGen。MolGen通過雙階段預訓練深入學習分子的結構與語法特征,并采用化學反饋機制優化分子生成過程,使其產生的分子既化學有效又具備預期屬性。
MolGen的訓練框架
MolGen的預訓練包含兩個關鍵階段:
- 首先,基于Seq2seq的模型架構,MolGen在超過一億的分子序列上執行掩碼操作,通過重構原始序列深度挖掘分子的結構本質,同時采用SELFIES作為分子描述符,確保生成的分子序列的100%有效性。
- 其次,引入一種通用的分子前綴策略,提升模型跨不同領域的適用性和靈活性。
在預訓練階段之后,盡管模型已經掌握了分子的基本語法規則,但它還需要學習如何根據實際化學需求優化分子結構。因此,MolGen引入了一種化學反饋機制,引導模型優先考慮那些更優候選分子,進而學習評估并糾正自己的生成過程,以實現與優化目標的一致性。這種方法確保了MolGen不僅能生成化學上有效的分子,而且這些分子具備所需的預期特性,適應實際的應用場景。
實驗分析
本文通過一系列實驗分析驗證了MolGen模型的有效性和實用性。實驗結果表明,MolGen能夠生成反映現實世界分子分布的多樣化且真實的分子,適用于構建虛擬分子庫。
通過優化實驗,MolGen證明了其能夠有效地生成與特定目標蛋白質高度親和的分子。結合親和力量化了分子與目標蛋白質之間的相互作用力。如圖(a)所示,MolGen專門針對初始結合親和力較低的1000個分子進行優化,成功提升了這些分子的親和力。其中親和力通過解離常數(K_D)來體現,K_D值越低表示親和力越強。圖(b)則進一步展示了在兩種不同目標蛋白質上,通過MolGen優化后分子結合親和力的顯著提高,從而突顯了MolGen在藥物設計和分子優化領域的應用潛力。
此外,MolGen也能夠優化相對簡單的化學性質,如p-logP和QED值。在天然產物與合成分子兩種設定下,不同配置的模型生成的分子化學性質發生了明顯的變化。在未應用化學反饋機制的情況下,預訓練模型傾向于生成與輸入分子化學性質相似的分子。然而,當引入化學反饋后,化學性質得分顯著提升,這表明通過化學反饋機制,模型能夠將其生成過程與化學上的實際偏好相對齊,從而有效地評估并調整其生成的分子,確保這些分子具備應用中所需的化學特性。
本文將MolGen得到的分子表示空間與基于深度圖生成的模型、基于變分自編碼器的模型以及基于SMILES的語言模型進行比較。總體而言,預訓練語言模型,尤其是MolGen,在維持生成分子多樣性的同時,成功捕獲了訓練集中分子的化學特性和結構特征,展現了其在精確模擬分子化學空間方面的優勢。
進一步地,本文還探討了使用不同分子語言(SMILES和SELFIES)進行預訓練的模型在感知分子結構方面的能力。下圖可視化了模型最后一個自注意力層的注意力權重。基于SMILES的預訓練模型可能會將注意力分配給缺乏內在化學意義的符號或數字,相比之下,MolGen在識別和理解具有化學意義的子結構方面表現出更高的有效性。
總結
本文介紹了一種新的分子生成框架MolGen。實驗分析表明,MolGen能夠有效生成符合化學偏好的分子,規避了“分子幻覺”問題。未來的研究方向包括將MolGen應用于逆合成、化學反應預測等生成任務,探索多模態預訓練技術,或融合更廣泛的知識資源。此外,為了進一步滿足從頭分子設計的需求,作者推出了最新的MolGen-7B版本。該版本基于LLaMA架構,無需依賴現有分子結構即可設計出多樣化的新分子,開拓了更為廣闊的化學探索空間。
本文轉載自:??ZJUKG??
作者:方尹
