成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵 原創

發布于 2025-6-12 15:48
瀏覽
0收藏

在細胞這個「工廠」中,氮-氧-硫(NOS)鍵就像一個可逆的「智能開關」,能夠根據環境中的氧化還原變化調節酶活性。 2021 年,來自德國哥廷根喬治奧古斯特大學的團隊,通過研究淋病奈瑟氏球菌的轉醛醇酶,發現了存在于賴氨酸和半胱氨酸之間的 NOS 鍵。這項研究超越了單一病原體和酶的研究范疇,為跨學科的蛋白質科學、藥物設計和生物工程奠定了重要基礎。

然而,隨著蛋白質結構數據的爆炸式增長,以及科學界對蛋白質結構中化學鍵的持續研究,新的問題也隨之而來,是否還有被忽視的其他 NOS 鍵或化學相互作用呢?

基于以上思考,喬治奧古斯特大學的 Sophia Bazzi 、 Sharareh Sayyad 團隊通過開發創新性的計算生物學算法 SimplifiedBondfinder,開啟了蛋白質共價鍵探索的新篇章。該團隊通過整合機器學習、量子力學計算,構建高分辨率 X 射線晶體學數據庫,系統分析超 86,000 個高分辨率 X 射線蛋白質結構,不僅新發現了 69 個 NOS 鍵,其中還包括了此前從未觀察到的精氨酸(Arg)-半胱氨酸和甘氨酸(Gly)-半胱氨酸之間形成的新型 NOS 鍵。

這一革命性的發現拓寬了蛋白質化學的范圍,并使藥物設計和蛋白質工程中的靶向調節成為可能。與此同時,雖然該項研究的重點是 NOS 鍵,但這一方法同樣可以靈活地運用到研究其他廣泛的化學鍵和共價修飾中,包括結構可分解的翻譯后修飾(posttranslational modifications, PTMs)。

研究成果以「Revealing arginine-cysteine and glycine-cysteine NOS linkages by a systematic re-evaluation of protein structures」為題,發表于 Communications Chemistry 。

研究亮點:

* 打破了科學界認為 NOS 鍵僅存在于賴氨酸(Lys)-半胱氨酸之間的普遍認知,以創新性的方法首次揭示了精氨酸-半胱氨酸和甘氨酸-半胱氨酸 NOS 鍵的全新氧化還原調控機制 

* 所提方法集成機器學習、量子力學計算和高分辨率 X 射線晶體學數據,解決了該領域研究中缺乏系統性化學鍵發現算法的挑戰,擺脫了傳統實驗限制,為后續研究提供了可靠易用的工具

* 通過機器學習和人工智能技術,顯著降低了此類研究的成本,同時提升了研究效率,為機器學習驅動的技術在破譯蛋白質功能和識別新的蛋白質相互作用方面樹立了榜樣

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

論文地址:

??https://www.nature.com/articles/s42004-025-01535-w??

更多 AI 前沿論文:
??https://go.hyper.ai/UuE1o??

數據集:多層限制提取可靠數據集

SimplifiedBondfinder 所收集的數據來自于 3 個不同的蛋白質數據庫,分別是 PDB 、 PDB-REDO 和 BDB,收集到的數據會經過各種約束以過濾出可靠可用的數據集。其中,數據庫 PDB-REDO(截止 2024 年 1 月)通過對 PDB 中的靜態結構進行重新精修和優化,使其更符合當代晶體學標準,與原始的 PDB 條目相比,具有更高的準確性和可靠性。如下圖左側所示:

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

SimplifiedBondfinder 中的數據采集流程及 ML 方法

具體來看,研究團隊在最初含有 170,251 個蛋白質數據的數據庫中,使用多個相互關聯的函數驅動自動數據集生成。其首先利用 Biopython(v 1.79)進行結構解析(使用 MMCIFParser 和 PDBParse),并計算其他原子和殘基屬性。經過僅解析通過 X 射線確定的結構,研究團隊優化出 170,127 個蛋白質數據。

隨后,為了進一步提高預測準確性,研究團隊進一步篩選出分辨率 ≤ 2 ? 的蛋白質結構,最終得到 86,491 個結構用于實驗分析。

為了構建用于研究特定化學鍵的數據集,研究團隊根據組成原子類型、殘基名稱、原子間距離和占有率建立了標準。對于標準殘基中涉及硫(S)和氮(N)原子的 NOS 連接,研究團隊將 S-N 的原子間距離,即 dist(S,N),限制在 ≤ 3.2 ?,對應于賴氨酸和半胱氨酸之間供價相互作用的截止值,同時為了排除位置不確定性高的原子,將占用數閾值設置為 > 0.8 。經過這一標準,研究確定了 25,462 個 N-S 接觸。

為了確保所描繪的目標原子質量,研究團隊進一步應用了 real-space-R-value Z-score(RSRZ),閾值設置為 <2.0,確保能夠識別在真實空間中與數據可靠匹配的情況。至此,數據集進一步減少到 23,129 個 N-S 接觸。這使得實驗目標主要集中在半胱氨酸的兩種相互作用類型上:即半胱氨酸的硫原子與甘氨酸的主鏈氮之間的相互作用;半胱氨酸的硫原子與精氨酸和賴氨酸的側鏈氮之間的相互作用。

接下來,研究團隊利用 Biopython 中的 NeighborSearch 模塊提取結構參數,每個數據集中的每個樣本收集 15 個不同的描述符,包括角度(?CSN, ?CNS)、扭轉角(φCS-NC)、其他距離(dist(C, N), dist(S, N))以及利用 Bio.PDB.SASA 進一步計算得到的目標原子的溶劑可及表面積(Solvent Accessible Surface Area, SASA)值和相應的殘基等。

研究團隊在實驗中納入原子的 B-factors(Bfac),是為了在分析中有一個目標原子遷移率的參數,這些值來自于 2 個數據庫,分別是 RCSB PDB 和一個具有一致 B-factor 的 PDB 文件數據庫(BDB)。

值得一提的是,基于本研究特定要求,實驗僅選擇了 15 個描述符,但研究團隊表示,所提算法對它可以處理的描述符數量并沒有嚴格的限制,通過設計它可以容納任意數量的描述符,這使它能夠整合特定領域的知識或適應新的實驗方法。

模型架構:融合機器學習與量子力學計算

上述部分為研究所提方法關鍵步驟中的第一步部分,即構建針對特定化學鍵的目標數據集,并應用嚴格的標準。本部分著重介紹所提方法的第二個關鍵步驟,即使用機器學習技術來探索這些高維數據,識別有效的結構描述符并預測共價鍵形成的潛在位點。

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

SimplifiedBondfinder 中的 ML 方法

如上圖所示。首先,研究團隊應用了最大嵌入維度為 3 的無監督統一流行近似與投影(Uniform Manifold Approximation and Projection, UMAP)降維技術,然后對所有可能的描述符集合進行均值漂移聚類(mean-shift clustering)。

其中,UMAP 以最佳方式保留了高維數據流行的內在拓撲和幾何特性,可以確保在低維嵌入中保留基本的結構特征,便于進行有意義的下游分析。至于 UMAP 中嵌入維數的選擇,則取決于數據集及其原始高維流行的拓撲和幾何特性。在實際應用中,二維或三維嵌入的可解釋性最強,因為它們能夠實現直觀的可視化,并對聚類質量進行評估。

在本研究中,3 個嵌入維度提供了良好分離且有意義的聚類,證明了選擇的合理性。化學鍵分析和聚類結果表明,這種降維方法對于此實驗的數據集來說最優,選擇高于必要嵌入維度雖然能保留原始流行特征,但卻會徒增計算成本而不能提升可解釋性。相反,將維度降低到最優水平以下,則會導致大量信息丟失和聚類分離效果不佳。

隨后,研究團隊獲得所有三維嵌入坐標的輪廓系數(Silhouette Score),以評估每種組合聚類質量。該算法輸出聚類、輪廓系數以及每個聚類中的參考目標連接。每個候選對象通過目標原子的名稱、相應的殘基名稱、殘基編號、鏈和 PDB ID 來識別,以區分蛋白質內的所有目標原子。

為了找到最終且最小的特征空間,研究團隊采用了多個標準,包括輪廓系數的值、每個特征空間產生的聚類數量以及這些聚類中參考目標連接的分布。

具體來說,研究團隊旨在確定一個特征空間,該空間能有效地將數據分割為兩個或三個不同的聚類,且輪廓系數 ≥ 0.5 。在理想情況下,其中一個聚類中不包含任何參考目標連接,稱為「不可能聚類」,在實踐中,該聚類中參考樣本的數量最少是可以接受的。其余包含所有或大部分參考目標連接的聚類稱為「可能聚類」。

通過引入包含目標化學鍵可能和不可能候選簇,研究團隊能夠識別優化的特征空間,以區分可能形成新化學鍵的目標原子對和不太可能形成此類鍵的目標原子對。一旦確定一組能夠可靠區分這些情況的描述符,就無需再納入其他描述符。該方法在計算年效率和可解釋性方面均有優勢,可以大幅提升識別蛋白質結構內新化學鍵形成方面方法的預測準確性。

除了機器學習外,本次研究所提方法中還整合了量子力學計算。研究人員針對 Lys-NOS-Cys 、 Gly-NOS-Cys 、 ARG-NηOS-Cys 和 ARG-NεOS-Cys 復合物中 NOS 連接的潛在候選物進行了幾何優化。使用軟件包 Gaussian16 – A.03(Gaussian 16,修訂版 C.01),在水中采用 B3LYP-D3 (BJ)/def2-TZVPD 理論水平進行幾何優化。針對優化后的結構,實驗計算了數個幾何參數,包括硫原子與氮原子之間的距離(dist (S, N)),以及角度(?CSN 、?CNS 、?NOS)。

為了驗證所提聚類方法預測的 NOS 共價鍵的存在,研究團隊使用 phenix.refine (version 1.20.1-4487-000) 對 4 個具有代表性的蛋白質結構進行了重新優化;使用 phenix.molprobity 進行了全面的結構驗證,以評估幾何質量、沖突分數和空間相互作用,確保與高分辨率晶體學數據一致;使用 phenix.table1 生成了完整的驗證報告,總結了精修統計數據、模型質量指標和立體化學偏差。通過這些驗證步驟,證實了 NOS 連接的結構完整性及其與電子密度圖的兼容性。

實驗結果:Arg-NOS-Cys 和 Gly-NOS-Cys 鍵為合理共價鍵

為了證明所提方法的有效性,研究團隊進行了多項實驗,分別探討了機器學習技術用于描述符選擇、多為描述符空間的生化意義、聚類分析以及結構和熱力學驗證。

使用機器學習選擇描述符

研究團隊首先將其應用于可能存在 Lys-NOS-Cys 連接的數據,該數據集包含 527 個賴氨酸-半胱氨酸對,還包括經過實驗驗證的 NOS 鍵。經試驗確定,關鍵描述符為由氮原子的 B-factor(Bfac(BDB)(N)),以及賴氨酸(Ngb?)和半胱氨酸(Ngb?)的 Cα 原子在 4 ? 半徑內的相鄰殘基數。

研究團隊進一步將分析擴展到一個包含 313 個甘氨酸-半胱氨酸對的數據集,進而探索潛在的 Gly-NOS-Cys 連接。如下圖所示。

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

精氨酸-半胱氨酸和甘氨酸-半胱氨酸之間的 NOS 鍵的示意圖

在此,關鍵描述符集包括含硫殘基的 B-factor(BfacBDBS)、硫-氮距離(dist(S,N))和碳-硫-氮角度(?CSN)。

在預測精氨酸和半胱氨酸殘基之間形成 NOS 鍵的關鍵描述符方面,精氨酸側鏈有 Nη 和 Nε 兩種類型的氮原子,它們在幾何特征和化學性質上有所不同,因此研究分別分析了 Nη (Arg-NηOS-Cys) 和 Nε (Arg-Nε-Cys) 的數據集。

對于 Arg-NηOS-Cys,所選的描述符符合包含氮殘基(SASA?)的溶劑可及表面積、?CSN 以及與硫相鄰的殘基(Ngb?)和與氮相鄰的殘基(Ngb?);同樣對于 240 個 Arg-NεOS-Cys 對的數據集來說,關鍵描述符涉及 BfacBDBS 、 SASA?、氮原子的溶劑可及表面積、?CSN 和 ? CNS 。

這些發現通過 UMAP 降維可視化顯示出清晰的聚類分離,如下圖所示,其中天藍色和寶藍色表示為 NOS 鍵候選,橙色則表示為「不可能聚類」,黑色方點為參考數據集,由此清晰可見,可能形成 NOS 鍵的樣本與參考標準點的分布高度重合。

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

SimplifiedBondfinder 得到的密度分布圖和 UMAP 結果

多維描述符空間的生化意義

研究團隊探討了關鍵描述符的生化相關性。通過算法確定最小描述符集,關鍵描述符對區分 NOS 和非 NOS 鍵具有重要意義。

以 B-factor 為例,不同聚類中 B-factor 呈現出不同的分布模式,如上 A(a)中所示的那樣,對于「可能聚類」和「不可能聚類」,B-factor 的眾數并不相同,且 B-factor 與原子或區域的靈活性相關,活性位點殘基通常 B-factor 較低,說明了其與酶活性有關。不過研究團隊同樣指出,低 B-factor 可能指示 NOS 鍵合,但也可能反應其他的氮-硫相互作用。

針對不同氨基酸殘基形成的 NOS 鍵描述符特點,BfacBDB? 在 Lys-NOS-Cys 中是區分兩類聚類的主要因素;針對 Gly – NOS – Cys 連接,∠CSN 是區分可能的 NOS 連接聚類的主要描述符,多數可能樣本的 ∠CSN >80°,優化的 Gly – NOS – Cys 復合物的∠CSN 值約為 94°;∠CSN 仍是針對 Arg – NεOS – Cys 連接區分可能與不可能的 NOS 連接的關鍵決定因素。

聚類分析

在本環節評估中,研究團隊檢測到了 65 個 Lys-NOS-Cys 鍵、 2 個 Gly-NOS-Cys 鍵(下圖 a 和 b)和 2 個 Arg-NηOS-Cys 鍵(下圖 c 和 d)。

基于 8.6 萬蛋白質結構數據,融合量子力學計算的機器學習方法挖掘 69 個全新氮-氧-硫鍵-AI.x社區

預測 NOS 鍵細化前后的電子密度對比

研究團隊通過明確建模和重新精修,引入 NOS 鍵后 Rwork / Rfree 值平均改善 0.5%,未解釋的電子密度峰顯著減少。對于 3G2K,原始結構中精氨酸側鏈周圍有負電子密度峰,重新分配精氨酸構象后顯著減小,且兩個模型中精氨酸側鏈附近都有正差異峰,因其幅度大且存在 DMSO,可能代表當前模型中未建模的溶劑分子。

結構和熱力學驗證

研究團隊為進一步證實 Arg-NOS-Cys 和 Gly-NOS-Cys 之間的聯系,將量子力學幾何優化與 4 個代表性蛋白質復合物(6PGD, 6T3X, 3MWB, and 3G2K)的熱力學評估結合起來,從而系統地解釋體內可能存在的化學變異性。

在結構驗證方面,在 NOS 鍵優化模型中,S-N 距離范圍為 2.61 ~ 2.70 ?,與原始 PDB-REDO 結構的 2.63 ~ 2.89 ? 區間非常接近。而去除橋接氧原子的模擬導致 S-N 分離顯著增加,達到 3.36-4.26 ?,這表明了實驗觀察到的 S-N 距離較短與中間氧原子的存在一致。

在熱力學評估方面,研究團隊計算了不同質子化狀態下的吉布斯自由能(ΔG),顯示所有 NOS 鍵形成過程中都是負值。這表明在模擬狀態下,用氧取代一個氫形成 NOS 鍵在熱力學上是可行的。然而,ΔG 的大小隨質子化狀態以及精氨酸和甘氨酸衍生的復合物之間存在顯著差異。在這兩個體系中,中性的甘氨酸或精氨酸比帶正電荷的狀態更受青睞。基于甘氨酸的復合物表現出略高的 ΔG 值。雖然這些值仍意味著在熱力學上有利的聯系,但它們在系統上比相應的精氨酸復合物放能少。

總而言之,這些結構結果提供了一致的證據,表明了 Arg-NOS-Cys 和 Gly-NOS-Cys 鍵是合理的共價鍵,而不是簡單的非鍵接觸。同時,量子力學優化的幾何形狀和晶系的晶體學數據之間的一致性,以及負自由能的形成,有力地表明這些連接在相關蛋白質環境中,無論是在結構上還是能量上都是可行的。

機器學習打開蛋白質微觀世界新篇章

正如論文中所提到,快速發展的機器學習和人工智能技術在解決生物化學中的復雜問題方面,已經展現出了超越傳統生物化學方法的優越性,它以低廉的計算成本和高效的方式,促使著科研界展開了一場關于「生產方式」的大變革,也推動者機器學習驅動的技術在破譯蛋白質功能和識別新的蛋白質相互作用發揮更大的潛力。

無獨有偶,如美國加州理工學院的 Kevin K.Yang 等人發表于 Nat. Methods,題為「Machine learning-guided directed evolution for protein engineering」的文章,通過對比定向進化和機器學習輔助定向進化,闡述了機器學習的優越性。同時文中還列舉了如酶催化效率、細胞色素 P450 熱穩定性優化等實際案例,提到線性回歸、高斯過程、貝葉斯優化等多種機器學習方法,表明了機器學習可為蛋白質工程提供「數據驅動的智能導航」,通過建模序列-功能關系,顯著提升定向進化的效率和成功率。

論文地址:

??https://arxiv.org/pdf/1811.10775??

另外,意大利博洛尼亞大學的 Rita Casadio 等人以「Machine learning solutions for predicting protein–protein interactions」為題發表的文章,同樣詳細介紹了機器學習在蛋白質研究方面的探索。其中介紹了包括無監督和有監督學習的機器學習方法在蛋白質-蛋白質分子相互作用(PPI)中的應用,重點突出了其在數據質量、表示、訓練算法和驗證程序等方面的關鍵問題。

論文地址:

??https://wires.onlinelibrary.wiley.com/doi/full/10.1002/wcms.1618??

總的來說,在蛋白質的微觀世界中,仍有諸多關乎生命的密碼隱藏其中,而機器學習為主要手段的系統性數據驅動的方法無疑就像一把打開蛋白質微觀世界大門的鑰匙,激發著科研界對蛋白質功能、穩定性進行更深入的研究和探索,從而不斷破除人類對生命的認知局限。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一区二区 | av免费在线播放 | 在线国产一区二区三区 | 日韩欧美在线观看 | 三级视频网站 | 国产精品福利久久久 | 亚洲一区二区三区四区五区中文 | 婷婷中文在线 | 91精品国产91综合久久蜜臀 | 国产成人啪免费观看软件 | 99精品电影 | 国产一区二区在线播放视频 | 欧美日韩一区二区三区四区五区 | 黄色男女网站 | 精品一区二区三区在线观看 | 日韩欧美中文 | www久久| caoporn视频| 中文字幕视频在线观看 | 能免费看的av | 久久久久久久久久毛片 | 欧洲精品久久久久毛片完整版 | 亚洲精品欧美 | 亚洲欧美精品国产一级在线 | 99热这里有精品 | 亚洲精品一区二区三区中文字幕 | 能免费看的av | 亚洲精品一区中文字幕乱码 | 福利视频二区 | 欧美成年网站 | 久久久久久天堂 | 亚洲第一在线 | 国产不卡一区在线观看 | 久久国产精品久久国产精品 | 国产一区二区三区视频 | 大象一区 | 国产精品激情 | 久久一二区 | 91嫩草精品| 日韩精品极品视频在线观看免费 | 日本精品久久久久久久 |