成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高 原創

發布于 2025-5-13 15:28
瀏覽
0收藏

1977 年,英國生物化學家弗雷德里克·桑格(Frederick Sanger)在解析 ΦX174 噬菌體基因組時,首次發現了一個顛覆認知的現象:這個僅 5.4kb 的 DNA 分子編碼的蛋白質總長度,遠超其物理容量限制。測序結果揭示,兩對基因通過不同閱讀框架共享同一 DNA 區域——這種被稱為重疊基因(OLG)的現象,在病毒世界中極為普遍。例如,乙型肝炎病毒 3.2kb 基因組中,50% 區域被多對重疊基因覆蓋,超過半數已知病毒至少含有一個 OLG。

這種突破直覺的基因組設計,暗藏著病毒的生存智慧:當病毒在宿主細胞內爭奪有限空間時,OLG 通過「基因疊羅漢」策略,讓單個核苷酸同時參與兩個密碼子編碼,在緊湊序列中實現功能疊加。桑格團隊的發現開啟了相關研究,后續研究表明,OLG 編碼的蛋白質常具有高序列簡并性(degenerate),其氨基酸序列容錯性使兩種功能蛋白能在同一 DNA 鏈共存。更關鍵的是,即使需要形成明確三維結構的蛋白質,也能通過序列編排,在不同閱讀框架中實現折疊兼容。

然而,核心疑問始終存在:標準遺傳密碼下,氨基酸序列簡并性能否支持任意功能蛋白對在重疊框架中折疊?當核苷酸需兼顧雙重編碼時,蛋白質折疊的序列空間是否被嚴重限制?

美國華盛頓大學 David Baker 團隊近期利用先進生成模型,通過合成 OLG 設計研究,從工程化角度驗證其可行性。研究團隊針對兩個蛋白家族設計重疊序列,編碼高度有序的從頭設計蛋白結構,計算機模擬與實驗驗證均顯示出極高成功率:在重疊約束下,可變閱讀框架(alternative reading frames)不僅能容納明確三維折疊,同時其結構穩定性與功能完整性與非重疊序列相當。

相關研究成果以「Design of overlapping genes using deep generative models of protein sequences」為題,已在 bioRxiv 發表預印本。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

論文地址: 

??https://doi.org/10.1101/2025.05.06.652464??

開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數據集與工具:
???https://github.com/hyperai/awesome-ai4s??

數據集:整合多維度數據資源與分析方法

為解析遺傳密碼可塑性及其在蛋白質設計中的應用,研究整合多維度數據資源與分析方法,構建從理論設計到實驗驗證的完整研究鏈條。

在遺傳密碼隨機化研究中,該研究基于氨基酸置換(amino acid permutation)與密碼子重排(Codon shufflers)策略,生成 1,000 種替代密碼子組合。這一數據集通過明確的算法設計保障了樣本多樣性與均勻性,為評估密碼子重排的功能影響提供了統計學基準。

同時,研究選取 3 個具有代表性的二級結構目標蛋白,構建 9 組成對組合,在控制變量的前提下實現實驗條件的標準化,有效連接遺傳密碼變異與蛋白質結構功能的關聯性分析。

在蛋白質結構域序列分析環節,該研究從 Pfam 37.0 數據庫提取種子序列,通過隨機抽樣截取長度 100 氨基酸的子區域,并利用馬爾可夫模型生成保留 k-mer 分布的合成蛋白序列。該方法融合生物信息學篩選與統計建模,既保留天然蛋白質的序列特征,又通過引入可控隨機變量創建對照樣本,為后續分析提供了兼具自然屬性與人工設計特征的創新數據集。

在蛋白質語言模型嵌入分析中,研究人員提取 ESM2、ESM3 和 ProstT5 的隱藏層特征,經位置平均后通過 UMAP 算法投影至二維空間。通過精準設定 n_neighbors = 15 等參數,高維序列特征被轉化為直觀的拓撲圖譜,在保留序列相似性結構的同時,為跨模型比較提供了統一的可視化框架,展現了計算生物學與數據可視化的前沿結合。

在實驗驗證階段,研究人員對 192 個重疊基因進行克隆重組,生成 384 種框架位移蛋白變體。實驗嚴格控制關鍵參數:37°C 培養 20 小時確保大腸桿菌表達系統穩定,6M 鹽酸胍梯度復性方案保障包涵體蛋白正確折疊。這種從分子設計到純化表征的全流程量化控制,不僅提升了研究結論的可重復性,更為蛋白質工程提供了標準化實驗范式。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

OLG 的克隆重組示意圖

基于生成模型的 OLG 設計:多框架兼容的序列同步優化方法

該研究開發了一種計算算法,有效應對重疊基因(OLG)設計中因編碼框架相互依賴導致的序列空間受限難題,實現了兩個蛋白序列適應性的同步優化。

在算法設計層面,研究整合了 EvoDiff-MSA 和 ProteinMPNN 等生成模型。前者基于 MSA Transformer 架構,通過自回歸擴散目標訓練,能以目標蛋白多序列比對(MSA)為條件生成設計序列;后者作為結構條件生成模型,可在給定三維結構時設計對應蛋白序列。兩類模型均采用逐位置掩蔽與約束采樣策略,生成了涵蓋多種偏移量和框架排列的重疊序列庫。

如下圖 A 所示,針對 5 種可變閱讀框架(+1、+2、-0、-1、-2)的相位約束,該研究提出逐幀(Frame)迭代采樣策略。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

在同一核苷酸序列中編碼一對蛋白質的 5 種可能的可變閱讀框架

如下圖 B 所示,通過分析 -0 框架的氨基酸兼容性矩陣發現,參考框架中單個位置平均存在 2.6 種兼容氨基酸選擇,形成 52?(n 為序列長度)種潛在重疊序列對,凸顯遺傳密碼簡并性帶來的設計空間。借助蒙特卡洛近似(Monte Carlo approximation)量化其他框架自由度(degrees of freedom),如下圖 C 所示,結果顯示 +1 和 -1 框架自由度較高(分別約 2.8 和 2.9),而 -2 框架因密碼子簡并性利用效率低,自由度顯著受限(約1.4)。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

二維兼容性矩陣和蒙特卡洛近似圖

最終,如下圖 D 所示,算法通過系統掃描序列位置(Scan order),在每次掃描中結合相鄰氨基酸約束動態更新聯合概率(joint probability)矩陣,經多輪迭代后確保生成的重疊序列對滿足框架的兼容性(compatibility)。該策略可擴展至含相位偏移的復雜框架,通過偏置掃描順序優化設計質量,為生成模型的迭代解碼(iterative decoding)提供了關鍵約束條件。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

設計 OLG 的約束迭代采樣算法示意圖

超越天然模板限制:高效生成任意蛋白質對的合成 OLG

實驗設計涵蓋了多個方向,包括基于同源性的 OLG 設計評估、高度有序蛋白質主鏈結構的重疊可行性分析、OLG 序列的進化可及性研究以及實驗驗證。

在基于同源性的 OLG 設計評估中,如下圖 A 所示,研究團隊選取細菌莽草酸突變酶(CM)與翻譯起始因子 1(IF1)為目標,借助 EvoDiff-MSA 生成模型,以多序列比對(MSA)作為條件上下文,經逐位置掩蔽與約束采樣,生成 3,307 個完全重疊序列(Overlapping sequence)設計。

如下圖 B 所示,盡管設計序列與天然序列同源性僅 38.9%(CM)和 42.3%(IF1),但蛋白質語言模型嵌入分析顯示,其在二維空間分布與天然序列高度契合,表明這些設計序列是目標蛋白家族的可信成員,驗證了算法對天然蛋白家族的設計能力。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

基于同源性的 OLG 設計評估

在探究高度有序蛋白質主鏈結構的重疊可行性時,如下圖 A 所示,研究人員利用 ProteinMPNN 結構條件生成模型,針對 15 種從頭生成的主鏈結構(覆蓋 α、β 及混合折疊類別),分別生成 56,250 個重疊設計與 33,000 個非重疊設計。如下圖 B 所示,AlphaFold2 評估數據顯示,重疊設計的平均 pLDDT 值為 90.2,與非重疊設計的 92.0 接近。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

高度有序蛋白質主鏈結構的 OLG 序列設計分析

進一步分析發現,如下圖 C-D 所示,僅 -2 框架因密碼子(codons)簡并性利用效率低導致表現欠佳。隨機化遺傳密碼分析表明,天然遺傳密碼(SGC)在編碼 OLG 時優勢顯著,除 -2 框架外均表現良好,且對高簡并性氨基酸存在組成偏好,揭示了 SGC 結構對重疊序列可行性的影響機制。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

pldts 分布和 AlphaFold2 預測

在進化可及性研究中,研究團隊以固定突變數量的種子蛋白序列為起始。如下圖 G-F 所示,研究發現即便在零突變的極端條件下,仍有約 1% 的設計能達到高結構穩定性(pLDDT>85,TM>0.7);以天然 Pfam 序列作為親本時,成功率提升至 3%,且該結果與保留一階組成偏差的隨機序列一致。這充分表明,高度優化的天然蛋白無需大幅序列改變,即可在替代框架中容納新蛋白,驗證了 OLG 在進化層面的可行性。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

OLG 序列的進化可及性研究結果

最終的實驗驗證部分,研究團隊對 192 個重疊序列進行了重組表達和結構表征。結果表明,如下圖 B 所示,54% 的單個蛋白質成功表達,并且大多數具有預期的二級結構和高熱穩定性。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

成功表達的蛋白概述

此外,如下圖 D-F 所示,成功率因蛋白質的二級結構含量而異,其中 α 螺旋蛋白的成功率最高。此外,31% 的重疊對成功純化,且一個框架的成功并不影響另一個框架的成功。這些結果進一步支持了 OLG 序列的高可行性和實驗驗證率,證明了該算法在設計功能性和結構穩定重疊蛋白方面的有效性。

David Baker 團隊最新研究,利用蛋白質序列生成模型實現重疊基因設計,成功率極高-AI.x社區

從頭設計 OLG 蛋白對的實驗表征

合成生物學領域的前沿探索,OLG 工程化應用逐步深入

在合成生物學領域,全球多地的研究團隊與企業正投身于對重疊基因(OLG)工程化應用的深入探索之中。

例如,來自清華大學朱聽課題組在鏡像生物學系統研究方面取得了顯著進展,成功實現了全化學合成的鏡像 Pfu DNA 聚合酶,這不僅使得千堿基長度的鏡像 DNA 組裝成為現實,還開發出了基于鏡像 DNA 的信息存儲技術。這種技術運用鏡像基因的編碼策略,為 OLG 的雙向功能疊加提供了全新的思路。當鏡像 DNA 的雙螺旋結構同時承載天然與鏡像遺傳信息時,序列空間的利用率得到了顯著提升,為人工基因組的緊湊設計提供了重要的基礎。
* 論文鏈接:??https://www.nature.com/articles/s41587-021-00969-6??

此外,美國麻省理工學院的 Christopher Voigt 團隊開發了基于基因線路設計的合成生物學平臺。他們通過重構原核生物基因簇的調控邏輯,成功實現了代謝途徑的模塊化組裝。這種技術路徑與 OLG 的設計理念緊密契合。當多個功能基因通過重疊序列形成緊密的遺傳模塊時,既能減少基因組的冗余,又能通過協同表達提升系統的穩定性。例如,該團隊設計的人工固氮基因簇采用 OLG 策略,將多個關鍵酶的編碼序列壓縮至同一 DNA 區域,在保證催化效率的前提下,顯著降低了宿主細胞的代謝負擔。
* 論文鏈接:??https://www.nature.com/articles/s41467-022-33272-2??

需要關注的是,這些研究不僅揭示了 OLG 在自然進化中的廣泛存在,還通過工程化手段驗證了其生物物理上的可行性。在本文所介紹的研究中,David Baker 團隊利用深度學習模型設計的合成 OLG,在計算機模擬中展現出了與天然序列相當的結構穩定性。實驗驗證的高成功率進一步證明了重疊編碼的生物學兼容性。這種從基礎研究到應用轉化的完整閉環,正在重塑合成生物學的設計邏輯,有望在創新藥物研發、精準診斷、細胞治療等多個領域帶來全新突破。

參考資料:

1.??https://www.tsinghua.edu.cn/info/1181/86148.htm??2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.??https://news.bioon.com/article/4161e88572ad.html??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美久久 | а天堂中文最新一区二区三区 | aaaaaa大片免费看最大的 | 丁香综合 | 国产乱码精品一区二区三区中文 | 国产一区二区三区 | 精品国产欧美日韩不卡在线观看 | 日本精品免费 | 91精品一区二区三区久久久久久 | 高清av一区 | 欧美亚洲日本 | 中文字幕在线观看精品 | 日韩精品影院 | 亚洲午夜视频在线观看 | 伊人色综合久久天天五月婷 | 精品久久一区 | 日本精品一区二区三区视频 | 日本免费一区二区三区四区 | 天堂国产 | 精品九九| 欧美一区二区三区在线观看 | 久久久久亚洲精品 | 亚洲精品电影网在线观看 | 日韩欧美一级片 | 亚洲精品自拍视频 | 激情自拍偷拍 | 亚洲精品在| 91性高湖久久久久久久久_久久99 | 欧美日本在线观看 | 国产精品精品视频一区二区三区 | 狠狠伊人| 欧美精品乱码99久久影院 | 涩涩鲁亚洲精品一区二区 | 亚洲综合婷婷 | 国产美女视频 | 国产精品欧美一区二区 | 国产美女一区二区 | www.亚洲一区二区三区 | 男人天堂社区 | 国产传媒视频在线观看 | 国产色在线|