藥物分子設計新策略,微軟條件擴散模型DiffLinker登Nature子刊
藥理學領域的化學空間高達 10^60,在廣闊的化學空間中進行搜索,給藥物設計帶來了巨大的挑戰(zhàn)。
基于片段的藥物發(fā)現(xiàn)一直是早期藥物開發(fā)的有效范例。然而,該領域面臨的一個挑戰(zhàn)是,如何設計斷開的感興趣分子片段之間的連接子(linker),生成化學上合理的候選藥物分子。
在此,來自微軟研究院科學智能中心(AI4Science)、洛桑聯(lián)邦理工學院、牛津大學和 MIT 的研究團隊,提出了一種用于分子 linker 設計的 E(3) 等變三維條件擴散模型 DiffLinker。
與以前只能連接分子片段對的方法不同,新方法可以連接任意數(shù)量的片段。此外,模型會自動確定 linker 中的原子數(shù)量及其與輸入片段的連接點。
DiffLinker 在標準數(shù)據(jù)集上優(yōu)于其他方法,可生成更多樣化且可合成的分子。在實際應用中對其方法進行實驗測試,表明它可以成功生成以靶標蛋白口袋為條件的有效 linker。
研究人員表示,術語「linker」泛指任何能夠連接起始分子片段的化學物質,并不特指與所討論任一領域相關術語的特定含義。
相關研究以《Equivariant 3D-conditional diffusion model for molecular linker design》為題,于 2024 年 4 月 11 日發(fā)布在《Nature Machine Intelligence》上。
論文鏈接:https://www.nature.com/articles/s42256-024-00815-9
據(jù)估計,藥理學相關分子的空間超過 10^60 個結構。減小該空間大小的一個成功方法是從「片段」開始,這些小分子化合物通常不超過 20 個重(非氫)原子。這種策略稱為基于片段的藥物設計 (FBDD)。
給定蛋白質口袋,通過計算確定與口袋相互作用的片段是比實驗篩選方法更便宜、更有效的替代方法。一旦相關片段被識別并與靶標蛋白對接,就需要將它們組合成單個連接的化合物。
機器學習方法方法可以超越可用數(shù)據(jù)并更有效地生成不同的 linkers。然而,這些方法在原子排列方面并不等變,并且只能組合片段對。迄今為止,還沒有考慮靶標蛋白口袋的分子 linker 設計計算方法。
最先進的生成方法:條件擴散模型 DiffLinker
在此,研究人員解決了放置在三維 (3D) 環(huán)境中的片段連接起來的問題,并可以將設計過程調節(jié)到靶標蛋白口袋。
DiffLinker 是一種條件擴散模型,可以為一組表示為 3D 原子點云的輸入片段生成分子 linker。
首先,模型生成預期 linker 的大小,然后從正態(tài)分布中采樣初始 linker 原子類型和位置。接下來,使用以輸入片段為條件的神經(jīng)網(wǎng)絡迭代更新連接原子類型和坐標。最終,去噪后的連接原子和輸入片段原子形成一個 linker 的分子。
圖 1:分子 linker 生成過程概述。(來源:論文)
DiffLinker 有幾個理想的屬性:它與平移、旋轉、反射和排列等價;它不受輸入片段數(shù)量的限制,不需要有關連接原子的信息,并且生成沒有預定義大小的 linker。
此外,研究人員提出了一種新的歐幾里得擴散模型的 3D 調節(jié)機制,這使得 DiffLinker 成為一種多功能且最先進的生成方法,適用于各種基于結構的藥物設計任務。
表 1:ZINC、CASF 和 GEOM 測試集的性能指標。(來源:論文)
研究表明,DiffLinker 在生成片段對之間的化學相關 linker 方面的性能優(yōu)于以前的方法。
該方法在合成可及性和藥物相似性方面取得了最先進的結果,這使得它在藥物設計管道中非常有用。
此外,DiffLinker 在生成的 linker 的化學多樣性方面明顯優(yōu)于其他方法。
圖 2:在口袋條件和非條件條件下使用 DiffLinker 生成配體。(來源:論文)
研究人員進一步提出了一個更具挑戰(zhàn)性的基準,并表明該方法能夠成功 link 兩個以上的片段,這是其他方法無法做到的。
研究還證明了 DiffLinker 可以以靶標蛋白口袋為條件;模型尊重周圍蛋白質原子施加的幾何約束,并生成在結構上與相應口袋兼容的分子。
三個案例研究
為了證明 DiffLinker 在實際藥物設計應用中的相關性,研究人員提供了三個案例研究:熱休克蛋白 90 (Hsp90) 和肌苷 5'-單磷酸脫氫酶 (IMPDH) 抑制劑的基于片段的設計,以及用于提高 c-Jun 氨基末端激酶 (JNK) 選擇性的支架跳躍(scaffold hopping)。
Hsp90 是一種分子 chaperone,參與多種蛋白質的折疊,包括那些參與致癌轉化的蛋白質。DiffLinker 成功復現(xiàn)了參考文獻中報告的抑制劑。重現(xiàn)參考抑制劑分子的所有三個 DiffLinker 樣品的對接分數(shù)與參考分數(shù)相當。
圖 3:Hsp90 作為基于片段的配體生成的實際示例。(來源:論文)
IMPDH 是一個有吸引力的結核病藥物靶點,在鳥嘌呤核苷酸的從頭合成中發(fā)揮著重要作用。DiffLinker 復現(xiàn)文獻報道的兩個最有效的抑制劑:化合物 30 和化合物 31。盡管 DiffLinker 沒有重現(xiàn)化合物 29,但它生成了 Tanimoto 距離相似的分子。
圖 4:基于片段的 IMPDH 抑制劑設計案例研究。(來源:論文)
JNK 是絲裂原激活蛋白激酶的一個重要蛋白家族,可調節(jié)多種細胞過程,包括細胞增殖、凋亡、自噬和炎癥。研究了 DiffLinker 生成一組不同支架的能力。
DiffLinker 復現(xiàn)了吲唑和氨基吡唑支架。此外,還確定了生成的支架的 238 個獨特拓撲,這表明 DiffLinker 能夠通過 linker 區(qū)域的采樣來廣泛探索潛在相關支架的空間。
圖 5:探索化學多樣性以提高 JNK 抑制劑的選擇性。(來源:論文)
研究人員表示,「DiffLinker 是第一個不受輸入片段數(shù)量限制并考慮口袋信息的方法。我們的總體目標是,為從業(yè)者提供在真實藥物設計中生成分子 linker 的有效工具。」