彌合化學反應預訓練和條件分子生成之間的差距，北大&望石智慧提出「統一」模型

作者：機器學習 2023-12-09 15:21:47

與分子對接等虛擬篩選方法相結合，該生成模型可以實現高效的構效關系研究。該模型生成的巨大的可合成類藥物化學空間可以提高藥物再利用或命中分子搜索的真陽性率。

化學反應是藥物設計和有機化學研究的基礎。研究界越來越需要一種能夠有效捕獲化學反應基本規則的大規模深度學習框架。

近日，來自北京大學和望石智慧的研究團隊提出了一種新方法來彌合基于反應的分子預訓練和生成任務之間的差距。

受有機化學機制的啟發，研究人員開發了一個新的預訓練框架，使其能夠將歸納偏差納入模型中。所提框架在執行具有挑戰性的下游任務中取得了最先進的結果。通過掌握化學知識，生成框架克服了當前依賴少量反應模板的分子生成模型的局限性。在大量的實驗中，模型生成了高質量的可合成藥物樣結構。

總的來說，該研究向各種基于反應的應用程序的大規模深度學習框架邁出了重要一步。

該研究以《Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model》為題，于 2023 年 12 月 5 日發布在《Nature Machine Intelligence》上。

論文鏈接：https://www.nature.com/articles/s42256-023-00764-9

深度學習模型已在眾多科學研究領域得到應用。預訓練框架有助于新任務的無縫集成，從而加快建模過程，特別是對于標記數據有限的場景。

化學反應是藥物設計和有機化學研究的基礎。目前，數據挖掘研究和應用已經使深度學習模型能夠應用于化學反應。基于這些數據，已經有許多數據驅動的研究深入研究化學反應的表征學習。

表征學習是指從數據中自動學習有用的特征，然后將其用于各種下游任務。現有方法忽略了有機化學的基本理論，限制了其性能。

基于化學反應的分子生成

除了反應分類任務之外，基于化學反應的分子生成也是一個重要的應用。早期的研究總是采用基于模板的逐步分子生成策略。

這些基于模板的方法在很大程度上依賴于預定義的構建模塊和反應，這縮小了可訪問的化學空間。在反應產物預測領域也發現了類似的趨勢，其中基于模板的方法不能外推到復雜的反應；這個問題可以通過使用無模板方法來解決。

在基于反應的分子生成任務中，無模板方法也表現出了優于基于模板方法的泛化優勢。然而，現有的無模板分子生成方法只能基于預定義的反應物庫生成分子。除此之外，對于藥物設計中的先導化合物或先導化合物優化階段，利用化學反應作為編輯工具來修改給定的結構是更有利的。生成的化學庫將重點關注可以用更少的反應步驟合成的化學空間的子集。

一個新、全面的化學反應深度學習框架

在此，研究人員提出了一個新的、全面的化學反應深度學習框架，稱為 Uni-RXN。旨在解決兩個基本任務：自監督表征學習和條件生成建模。

圖示：Uni-RXN 的組成和方法。（來源：論文）

與現有方法不同，研究人員提出了一套專門針對化學反應精心設計的自監督任務。這些任務包括反應中心預測、主反應物與子反應物配對以及反應物-產物配對。在對具有挑戰性的反應任務的廣泛評估中，Uni-RXN 方法超越了最先進的水平，證明了其有效捕獲化學反應領域知識的能力。所獲得的有希望的結果為廣泛的下游應用鋪平了道路。

通過有效捕獲化學規則，Uni-RXN 非常適合生成任務。與依賴于從預定義反應物庫中選擇片段的傳統方法不同，Uni-RXN 將分子結構作為輸入條件并生成相應反應物的表示，同時保持反應內的排列不變性。利用密集向量相似性搜索包的強大功能，Uni-RXN 能夠從大型反應物和試劑庫中高效檢索反應物。隨后，采用反應預測模型來生成產物輸出。

與僅探索化學空間的有限子集的基于模板的方法相比，Uni-RXN 在生成更廣泛的可合成藥物樣結構方面表現出卓越的性能。這一特點使其特別適合虛擬 library 枚舉，并得到全面統計分析和案例研究的支持。

Uni-RXN 方法具有多種優勢，能夠為具有挑戰性的化學反應分類任務派生豐富的表示。Uni-RXN 大幅優于其他基線模型，在每類僅提供 4 個數據點的情況下實現了 58.7% 的準確率。

表 1：化學反應分類的準確度。（來源：論文）