成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用語言模型模擬五億年的進化歷程 精華

發(fā)布于 2024-8-2 15:13
瀏覽
0收藏

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

一、結(jié)論寫在前面

論文標題:Simulating 500 million years of evolution with a language model

論文鏈接:??https://www.biorxiv.org/content/10.1101/2024.07.01.600583v1.full.pdf??

超過三十億年的進化歷程將生物學圖像編碼到天然蛋白質(zhì)的空間中。論文在由進化生成的token上訓(xùn)練的語言模型可以作為進化模擬器,生成與已知蛋白質(zhì)相距甚遠的功能性蛋白質(zhì)。

論文提出ESM3,一種前沿的多模態(tài)生成語言模型,該模型能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3能夠遵循復(fù)雜的多模態(tài)提示,并對生物學對齊高度響應(yīng)。論文引導(dǎo)ESM3生成熒光蛋白,并采用了一種思維鏈方法。    

在論文合成的生成物中,發(fā)現(xiàn)了一種亮度極高的熒光蛋白,其與已知熒光蛋白的相似度僅為58 q_o,而如此遠距離的天然熒光蛋白之間的進化間隔超過五億年。

?二、論文的簡單介紹

2.1 論文的背景?

現(xiàn)存的蛋白質(zhì)在數(shù)十億年的自然進化過程中演化成現(xiàn)今的形態(tài),歷經(jīng)了漫長的進化篩選。在地質(zhì)時間尺度上進行的平行實驗中,自然界創(chuàng)造隨機突變并應(yīng)用選擇,通過其多樣的序列、結(jié)構(gòu)和功能篩選蛋白質(zhì)。

因此,論文在蛋白質(zhì)中觀察到的模式反映了那些深藏不露的生物學隱變量,這些變量隨著時間的推移塑造了它們的演化。地球自然多樣性的基因測序調(diào)查正在編錄蛋白質(zhì)的序列和結(jié)構(gòu),包含數(shù)十億條序列和數(shù)億個結(jié)構(gòu),揭示了生命間的變異模式。目前形成了一種共識,即在這些序列之下存在著一種基本的蛋白質(zhì)生物學語言,可以利用語言模型來理解。

現(xiàn)已開發(fā)并評估了多種蛋白質(zhì)序列的語言模型。研究發(fā)現(xiàn),語言模型中涌現(xiàn)的表征反映了蛋白質(zhì)的生物結(jié)構(gòu)和功能,并且這些表征是在無監(jiān)督情況下學習得到的,與這些屬性無關(guān),隨著規(guī)模的擴大而改進。在人工智能領(lǐng)域,發(fā)現(xiàn)了預(yù)測能力隨規(guī)模增長的縮放定律,描述了計算、參數(shù)和數(shù)據(jù)的前沿。

論文介紹了ESM3,一種前沿的多模態(tài)生成模型,該模型能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3被訓(xùn)練為針對每種模態(tài)的離散token的生成式掩碼語言模型。通過將三維原子結(jié)構(gòu)編碼為離散token,而不是采用近期預(yù)測性和生成性模型中使用的復(fù)雜架構(gòu)和三維空間擴散,實現(xiàn)了結(jié)構(gòu)推理。對離散token的全對全建模是可擴展的,并允許ESM3根據(jù)其模態(tài)的任意組合進行提示,從而實現(xiàn)對新蛋白質(zhì)的可控生成,這些新蛋白質(zhì)能夠尊重提示的組合。

ESM3在其最大規(guī)模上,通過1.07 × 10^24次浮點運算(FLOPs)對27.8億個蛋白質(zhì)和7710億個獨特token進行了訓(xùn)練,并擁有980億個參數(shù)。將ESM3擴展到980億參數(shù)規(guī)模,不僅提升了序列、結(jié)構(gòu)和功能的表示能力,還在生成評估方面取得了改進。論文觀察到ESM3對提示極為敏感,并能創(chuàng)造性地解決復(fù)雜提示組合的問題,包括那些在自然界中找不到匹配結(jié)構(gòu)的問題。所有規(guī)模的模型都可以通過調(diào)整更好地遵循提示,而較大的模型在調(diào)整后對提示的響應(yīng)更為顯著,顯示出解決最困難提示的更大能力。    

論文報告了使用ESM3生成的一種新型綠色熒光蛋白(GFP)。熒光蛋白負責水母和珊瑚的發(fā)光顏色(29),是現(xiàn)代生物技術(shù)中的重要工具(30)。它們共享一個優(yōu)雅的結(jié)構(gòu):一個由十一股β桶和一個穿過中心的螺旋組成的結(jié)構(gòu),該結(jié)構(gòu)作為支架,促使蛋白質(zhì)自身原子形成發(fā)光的發(fā)色團。這種機制在自然界中是獨一無二的——沒有其他蛋白質(zhì)能自發(fā)地從其自身結(jié)構(gòu)中形成熒光發(fā)色團——這表明即使對于自然界而言,產(chǎn)生熒光也是一項艱巨的挑戰(zhàn)。              
論文的新蛋白質(zhì),命名為esmGFP,與水母綠色熒光蛋白(Aequorea victoria GFP)的序列相似度為36%。盡管綠色熒光蛋白作為蛋白質(zhì)工程的目標已受到數(shù)十年的廣泛關(guān)注,據(jù)論文所知,如此遠距離的新型GFP僅通過自然界中的發(fā)現(xiàn)獲得。

在可預(yù)測的時間尺度上,自然界中的GFP經(jīng)歷了類似的多樣化過程。從這個角度理解,在現(xiàn)有蛋白質(zhì)如此遠距離生成新的熒光蛋白似乎等同于模擬超過5億年的進化歷程。

2.2 ESM3

ESM3 模型在蛋白質(zhì)的序列、結(jié)構(gòu)和功能上進行推理。這三種模態(tài)均由token表示,并以獨立軌道形式輸入和輸出,在模型內(nèi)部融合成單一的潛在空間。ESM3 采用生成式掩碼語言建模目標進行訓(xùn)練:

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

對描述蛋白質(zhì)的token x 應(yīng)用隨機掩碼 m,模型被監(jiān)督以預(yù)測被掩碼的token身份。在訓(xùn)練過程中,掩碼采用噪聲調(diào)度采樣,變化掩碼位置的比例,使得ESM3能夠看到多種不同的掩碼序列、結(jié)構(gòu)和功能組合,并從任何其他模態(tài)預(yù)測任何模態(tài)的完成。這與傳統(tǒng)的掩碼語言建模不同,后者在所有可能的掩碼率上應(yīng)用監(jiān)督,而不是單一固定掩碼率。這種監(jiān)督機制分解了給定任意先前token組合下所有可能的下一個token預(yù)測的概率分布,確保了可以從任意起點以任意順序生成token。    

為了從ESM3生成token,token是迭代采樣的。從完全或部分掩碼的上下文開始,token可以在任何順序下逐個或并行采樣,直到所有位置完全未掩碼。除了實現(xiàn)生成功能外,ESM3的訓(xùn)練目標也適用于表示學習。較高的掩碼率提高了生成能力,而較低的掩碼率則提高了表示學習的效果。論文選擇使用一種平衡生成能力和表示學習的噪聲調(diào)度來訓(xùn)練ESM3。

ESM3是一個雙向Transformer模型。序列、結(jié)構(gòu)和功能token在輸入時嵌入并融合,然后通過一系列Transformer塊進行處理(圖1B)。在模型的輸出端,淺層多層感知器(MLP)頭將最終層表示投影為每個軌道token的概率。ESM3通過token化,而不是專門的架構(gòu)組件,來表示蛋白質(zhì)在學習的多元特征空間中的復(fù)雜性。這使得訓(xùn)練既高效又高度可擴展。

蛋白質(zhì)結(jié)構(gòu)通過離散自編碼器進行token化處理,該編碼器訓(xùn)練用于將三維結(jié)構(gòu)壓縮為離散token(圖1C)。論文提出了一種不變幾何注意力機制,以高效處理三維結(jié)構(gòu)。該機制在每個氨基酸的鍵幾何結(jié)構(gòu)定義的局部參考框架內(nèi)運行,并通過轉(zhuǎn)換為全局框架,允許局部框架進行全局交互。圍繞每個氨基酸的局部結(jié)構(gòu)鄰域被編碼為一系列離散token,每個氨基酸對應(yīng)一個token。

在預(yù)測或生成蛋白質(zhì)結(jié)構(gòu)時,ESM3輸出的結(jié)構(gòu)token通過解碼器傳遞,解碼器重建完整的原子結(jié)構(gòu)。自編碼器訓(xùn)練用于編碼和重建原子坐標,采用幾何損失函數(shù)監(jiān)督鍵向量和法線的成對距離及相對方向。

由于每個結(jié)構(gòu)token的局部鄰域包含有關(guān)結(jié)構(gòu)鄰近部分的信息,論文還提供了一種機制,使模型能夠通過第一個變換器塊中的幾何注意力直接基于主鏈原子坐標進行條件化。為了支持結(jié)構(gòu)的高級抽象,論文包含了二級結(jié)構(gòu)(SS8)token和溶劑可及表面面積token的軌道。描述生物學功能的關(guān)鍵詞token,如結(jié)合、酶功能以及域或折疊分類,允許對蛋白質(zhì)結(jié)構(gòu)和功能進行更高層次的語義描述。殘基水平注釋token指示單個殘基的功能,如催化位點和翻譯后修飾。    

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

圖1。LSM3 是一種生成式語言模型,能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。(A) 使用ESM3進行迭代采樣。生成一個α/β水解酶。序列、結(jié)構(gòu)和功能均可作為模型的提示。在每個時間步 t,一部分被遮蔽的位置會被采樣,直到所有位置都未被遮蔽。(B) ESM3架構(gòu)。序列、結(jié)構(gòu)和功能在輸入和輸出中表示為離散token的軌跡。模型由一系列變換器塊組成,所有軌跡在一個單一的潛在空間中融合;第一個塊中的幾何注意力允許基于原子坐標進行條件化。ESM3受到監(jiān)督,以預(yù)測被遮蔽的token。(C) 結(jié)構(gòu)token化。圍繞每個氨基酸的局部原子結(jié)構(gòu)被編碼成token。(D) 模型在三個規(guī)模上進行訓(xùn)練:1.4億、7億和98億參數(shù)。測試集上的負對數(shù)似然作為訓(xùn)練浮點運算次數(shù)的函數(shù),顯示了模型對每個輸入軌跡條件化的響應(yīng),隨著浮點運算次數(shù)的增加而改進。(E) 來自ESM3 98B的無條件生成序列(根據(jù)與訓(xùn)練集中最近序列的序列同一性著色),通過ESM3嵌入,并由UMAP投影,同時隨機從UniProt中采樣的序列(以灰色表示)。生成序列多樣性高、質(zhì)量好,并且覆蓋了自然序列的分布    

最大的ESM3模型是在從序列和結(jié)構(gòu)數(shù)據(jù)庫中收集的27.8億個自然蛋白質(zhì)上進行訓(xùn)練的。由于相對于序列,只有一小部分結(jié)構(gòu)是通過實驗確定的,論文利用了預(yù)測的結(jié)構(gòu)。序列通過使用隱馬爾可夫模型庫(40)注釋了功能關(guān)鍵詞。論文還為所有結(jié)構(gòu)(包括預(yù)測的結(jié)構(gòu))生成合成序列,使用了一個逆折疊模型。總體上,這使得訓(xùn)練數(shù)據(jù)增加到31.5億個蛋白質(zhì)序列,2.36億個蛋白質(zhì)結(jié)構(gòu),以及5.39億個帶有功能注釋的蛋白質(zhì),總計7710億個獨特token。

論文對ESM3模型進行了三種規(guī)模的訓(xùn)練:14億、70億和980億參數(shù)。在一系列初步實驗中,為了評估架構(gòu)超參數(shù)對表征學習性能的影響,論文發(fā)現(xiàn)增加深度比增加寬度有更大的響應(yīng)。這促使論文選擇了相對較深的網(wǎng)絡(luò)作為最終架構(gòu),其中980億參數(shù)模型包含了216個Transformer塊。

將ESM3從1.4億參數(shù)擴展到980億參數(shù),在測試集的所有軌跡上均帶來了顯著的損失改進,其中序列損失的改進最為顯著(圖1D)。這些測試損失的提升導(dǎo)致了更好的表征學習(表S7和圖S8)。在單序列結(jié)構(gòu)預(yù)測中,ESM3 98B超越了ESMFold(0.895 vs. 0.865平均局部距離差異測試,LDDT,CAMEO測試集;)。從模型中無提示生成(無條件生成)的序列產(chǎn)生了高質(zhì)量的蛋白質(zhì)——平均預(yù)測LDDT(pLDDT)為0.84,預(yù)測模板建模得分(pTM)為0.52——這些蛋白質(zhì)在序列(平均成對序列同一性0.155)和結(jié)構(gòu)(平均成對TM得分0.48)上均具有多樣性,涵蓋了已知蛋白質(zhì)的分布范圍(圖1E,圖S13)。

盡管已有大量研究致力于為蛋白質(zhì)創(chuàng)建專門的架構(gòu)和訓(xùn)練目標,論文的結(jié)果表明,通過token化、高效架構(gòu)和掩碼token預(yù)測實現(xiàn)的基于語言模型的擴展,在表征和生成應(yīng)用中持續(xù)帶來了改進。這種方法使得模型能夠構(gòu)建一個從數(shù)據(jù)中學習的多模態(tài)共享表征空間,而非顯式地硬編碼到其架構(gòu)中,這使得在計算和數(shù)據(jù)不斷增加的情況下,模型能夠?qū)W習到一個越來越豐富和通用的特征空間。在接下來的章節(jié)中,論文將展示這種方法在蛋白質(zhì)的可控生成中實現(xiàn)了高保真度。

2.3 可編程設(shè)計與ESM3

論文探究了ESM3遵循不同組合復(fù)雜提示的能力。ESM3可以接收來自其各個輸入軌跡的指令提示:序列、結(jié)構(gòu)坐標、二級結(jié)構(gòu)(SS8)、可溶性表面積(SASA)以及功能關(guān)鍵詞。這使得提示可以在多個抽象層次上指定,從原子級別的結(jié)構(gòu)到描述功能和折疊拓撲的高級關(guān)鍵詞。    

論文獨立評估ESM3在每個賽道中遵循提示的能力(圖2A)。為每個賽道構(gòu)建一組提示,使用從自然蛋白質(zhì)中暫時保留的測試集。生成的結(jié)果使用ESMFold進行評估,以確保與提示的一致性和結(jié)構(gòu)預(yù)測的置信度(pTM)。論文為每個賽道定義了一致性指標:受限位點RMSD(cRMSD),即提示坐標(即主鏈原子的位置)與生成中相應(yīng)坐標之間的RMSD;SS3準確性,提示與生成之間三類二級結(jié)構(gòu)匹配的殘基比例;SASA ρ,SASA提示與生成相應(yīng)區(qū)域之間的相關(guān)性;以及關(guān)鍵字恢復(fù),InterProScan恢復(fù)的提示關(guān)鍵字比例(40)。在所有賽道中,7B參數(shù)的ESM3找到了遵循提示且結(jié)構(gòu)被ESMFold自信預(yù)測的解決方案(pTM > 0.8)。

無條件生成反映了自然蛋白質(zhì)的分布。由于論文觀察到ESM3能夠忠實地遵循提示,論文推測提示可以引導(dǎo)模型生成與訓(xùn)練集和自然蛋白質(zhì)不同的蛋白質(zhì)。首先,論文測試模型遵循分布外提示的能力。論文構(gòu)建了一組結(jié)合SS8和SASA的提示,來自保留結(jié)構(gòu)(TM < 0.7至訓(xùn)練集)。在這些提示下,盡管模型繼續(xù)生成連貫的球狀結(jié)構(gòu)(平均pTM 0.85 ± 0.03),但與訓(xùn)練集相似度的分布(以TM-score和序列同一性衡量)變得更加新穎(與最近訓(xùn)練集蛋白質(zhì)的平均序列同一性<20%,平均TM-score 0.48 ± 0.09)。為了測試模型對超出自然蛋白質(zhì)分布結(jié)構(gòu)的泛化能力,論文使用從人工對稱蛋白質(zhì)設(shè)計數(shù)據(jù)集中提取的二級結(jié)構(gòu)提示,這些設(shè)計與訓(xùn)練數(shù)據(jù)集中的自然蛋白質(zhì)不同。同樣,ESM3生成了高置信度的生成(pTM > 0.8,pLDDT > 0.8),與訓(xùn)練集中的蛋白質(zhì)在序列和結(jié)構(gòu)上相似度低(序列同一性<20%,TM-score 0.52± 0.10),表明模型可以用于生成與自然界存在高度不同的蛋白質(zhì)序列和結(jié)構(gòu)。    

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

圖2. 使用ESM3進行生成式編程。(A) ESM3能夠遵循其輸入軌道的提示。每個軌道的提示忠誠度密度如圖所示。生成結(jié)果與提示保持一致(骨架cRMSD、SS3準確性、SASA Spearman ρ、關(guān)鍵詞恢復(fù)),并具有高結(jié)構(gòu)預(yù)測置信度(pTM)。(B) ESM3能夠根據(jù)提示生成在結(jié)構(gòu)(左)和序列(右)上與訓(xùn)練集和自然蛋白質(zhì)不同的蛋白質(zhì)。有提示的生成(藍色)相對于無提示的生成(紅色),在響應(yīng)來自分布外自然結(jié)構(gòu)(上部面板)和計算設(shè)計的對稱蛋白質(zhì)(下部面板)的提示時,向更新的空間轉(zhuǎn)移。(C) ESM3能夠為各種復(fù)雜提示的組合生成創(chuàng)造性解決方案。論文展示了通過關(guān)鍵詞或二級結(jié)構(gòu)指定的高級指令與原子級 motifs 的組合。提示的忠誠度通過與參考結(jié)構(gòu)的相似性(關(guān)鍵詞提示)和全原子RMSD(motif提示)來展示。解決方案與從中提取motif的支架不同(中位TM-score 0.36± 0.14),對于許多motifs(例如血清素、鈣、蛋白酶抑制劑和Mcl-1抑制劑結(jié)合位點),論文找不到與包含相同motif的其他蛋白質(zhì)有顯著相似性。(D) 一個特別具有創(chuàng)造性的行為的例子。ESM3將一種絲氨酸蛋白酶壓縮了33%,同時保持了活性位點結(jié)構(gòu)    

ESM3能夠遵循復(fù)雜的提示,并有能力從不同軌道和不同抽象層次組合提示。為了評估這一能力,論文向ESM3提供需要解決單個原子空間協(xié)調(diào)的motifs,包括參與序列中相距較遠的殘基之間的三級接觸的原子,如催化中心和配體結(jié)合位點。論文將motif提示與指定折疊架構(gòu)的提示相結(jié)合。對于每個獨特的motif和支架組合,論文生成樣本,直到成功(全原子RMSD < 1.5 AA,包括側(cè)鏈原子的原子坐標;TM > 0.6 到折疊級提示的代表性結(jié)構(gòu);SS3 準確性 > 80% 對于二級結(jié)構(gòu)提示;以及對支架的高置信度,pTM > 0.8,pLDDT > 0.8)。

論文發(fā)現(xiàn)ESM3能夠解決多種此類任務(wù)(圖2C)。它在不恢復(fù)原始支架的情況下完成這一任務(wù)(與參考蛋白的中位TM-score為0.40± 0.109)。在某些情況下,支架來自于具有相似基序的現(xiàn)有蛋白質(zhì)(例如,為鋅結(jié)合基序設(shè)計的ESM3-設(shè)計α螺旋支架與Ni_2+結(jié)合蛋白高度相似,PDB: 5DQW, 5DQY;圖2C,行3列1)。對于許多基序(例如,血清素、鈣、蛋白酶抑制劑和Mcl-1抑制劑的結(jié)合位點),F(xiàn)oldseek未發(fā)現(xiàn)與其他含有相同基序的蛋白質(zhì)有顯著相似性。在這些情況下,論文觀察到有時基序被嫁接到完全不同的折疊結(jié)構(gòu)中(例如,β桶中的蛋白酶抑制劑結(jié)合位點基序與膜結(jié)合銅轉(zhuǎn)運蛋白最為相似,PDB: 7PGE;圖2C,行3列3)。其他時候,支架似乎是完全新穎的,例如為Mcl-1抑制劑結(jié)合基序設(shè)計的α/β蛋白,其結(jié)構(gòu)與PDB、ESMAtlas和AlphaFold數(shù)據(jù)庫中的所有已知蛋白質(zhì)的相似性都很低(最大TM-score < 0.5;圖2C,行4列1)。總體而言,生成的解決方案具有高設(shè)計性,即在使用ESM-IF1(42)進行逆折疊和使用ESMFold進行重折疊后,能夠自信地恢復(fù)原始結(jié)構(gòu)(中位pTM 0.80± 0.08;scTM 0.96 - 0.04)。

通過實驗性的提示工程,論文觀察到對提示特別有創(chuàng)意的響應(yīng)。在這里,論文重點介紹一個蛋白質(zhì)壓縮的例子(圖2D)。從天然的胰蛋白酶(PDB 1Y3V)開始,論文使用催化三聯(lián)體的序列和坐標以及描述胰蛋白酶的功能關(guān)鍵詞進行提示,但將總體生成長度減少了三分之一(從223個殘基減少到150個殘基)。ESM3保持了活性部位的協(xié)調(diào)性(全原子RMSD 0.73A)和整體折疊的高設(shè)計性(pTM 0.84,scTM均值0.97,標準差0.006),盡管序列長度顯著減少且折疊僅由功能關(guān)鍵詞提示指定。

這些例子展示了ESM3在單獨或組合使用其輸入軌道中的任何提示時,找到創(chuàng)意解決方案的能力。這種能力使得蛋白質(zhì)設(shè)計能夠采用理性的方法,通過生成模型在提示和生物復(fù)雜性之間架起橋梁,從而在從高級拓撲結(jié)構(gòu)到原子坐標的各個抽象層次上提供控制。    

2.4 生物學對齊

雖然論文觀察到基礎(chǔ)模型性能隨著規(guī)模的增長而有意義的提升,但更大的模型可能具有論文尚未觀察到的更大潛在能力。基礎(chǔ)ESM3模型可以被提示執(zhí)行諸如三級 motif 支架搭建和提示組合等困難任務(wù),盡管這些模型并未針對這些目標進行明確優(yōu)化。由于論文評估生成輸出的屬性——如對提示的遵守程度或支架的置信度——僅在預(yù)訓(xùn)練期間間接被模型看到,通過微調(diào)將模型直接對齊到生成任務(wù)可能會在更大模型中引發(fā)更大的能力差異。

論文研究了如何將基礎(chǔ)模型對齊(43, 44)以生成滿足挑戰(zhàn)性提示的蛋白質(zhì)。對于每個模型,論文構(gòu)建了一個包含連續(xù)殘基片段和三級結(jié)構(gòu)基序(也指定了接觸氨基酸的身份)的主鏈原子坐標提示數(shù)據(jù)集。論文為每個提示生成多個蛋白質(zhì)序列,并使用ESM3對每個序列進行折疊,評分依據(jù)與提示的一致性(主鏈cRMSD)和結(jié)構(gòu)預(yù)測的置信度(pTM)。高質(zhì)量樣本與低質(zhì)量樣本配對,以構(gòu)建偏好數(shù)據(jù)集。隨后,ESM3通過偏好優(yōu)化損失(45, 46)進行微調(diào),使得模型相對于低質(zhì)量樣本更傾向于高質(zhì)量樣本。

在調(diào)整每個基礎(chǔ)模型后,論文評估它們的絕對性能,以及生成分布的偏移。論文關(guān)注一系列需要協(xié)調(diào)三級接觸中殘基主干原子的具有挑戰(zhàn)性的提示。論文評估生成高質(zhì)量支架(pTM > 0.8)的能力,這些支架能夠以高分辨率(主干cRMSD < 1.5A)遵循提示,使用ESM-Fold進行評估。論文使用從46個配體結(jié)合基序的保留數(shù)據(jù)集中提取的氨基酸身份和主干原子坐標來提示每個模型。對于每個基序,論文通過排列殘基順序、改變其在序列中的位置以及改變序列長度,創(chuàng)建了1024個提示。每個提示生成一個蛋白質(zhì)。每個基序的1024個生成結(jié)果用于構(gòu)建一個無偏估計量,估計在128次生成后解決三級協(xié)調(diào)任務(wù)的比例。    

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

圖3. 通過對齊,解決復(fù)雜任務(wù)的能力隨著規(guī)模增加而增強。ESM3通過一個由提示生成構(gòu)建的偏好對數(shù)據(jù)集來遵循三級協(xié)調(diào)提示,其中具有良好得分(高pTM,低cRMSD)的正樣本與得分較差的負樣本配對。偏好調(diào)諧損失鼓勵模型對正樣本賦予更高的似然。訓(xùn)練后,模型通過提示包含三級接觸中殘基的骨架原子坐標來進行評估。(A)論文展示了在128次生成中解決任務(wù)的比例(Pass@128;2個標準差誤差棒)的微調(diào)效果。隨著模型規(guī)模的擴大,兩者之間出現(xiàn)了顯著差距。對齊響應(yīng)顯示,最大模型中潛藏著解決復(fù)雜任務(wù)的能力。(B)為每個三級基序生成的獨特解決方案數(shù)量(在TM > 0.8 處聚類)。微調(diào)后,對于成功的配體,通常存在許多獨特的解決方案。(C)對于多個隨機選擇的配體,基礎(chǔ)模型(左)和對齊模型(右)在98B規(guī)模上的提示生成密度顯示。對齊后,生成結(jié)果對提示的忠實度(骨架cRMSD)和質(zhì)量(pTM)往往有顯著提升。

對齊模型解決的協(xié)調(diào)任務(wù)數(shù)量是基礎(chǔ)模型的兩倍(圖3A)。盡管基礎(chǔ)模型在解決任務(wù)的百分比上存在差異(1.4B為9.5%,7 B為19.0%,98B為26.8%;圖3A),但通過對齊揭示的能力差異更為顯著(分別從9.5%增加到18.8%,19.0%增加到37.49%,以及26.8%增加到65.5%)。偏好調(diào)優(yōu)模型不僅解決了更大比例的任務(wù),而且在每個任務(wù)中找到了更多的解決方案,這是通過不同結(jié)構(gòu)簇的數(shù)量來評估的(TM > 0.8,主鏈cRMSD < 1.5 AA,且pTM > 0.8;圖3B)。觀察到ESMFold pTM和主鏈cRMSD在每個配體結(jié)合基序的分布上發(fā)生了變化(圖3C;圖S17)。在98B規(guī)模上,微調(diào)模型在37個測試配體中的46個上產(chǎn)生了比基礎(chǔ)模型更多的獨特成功簇,而剩下的9個配體未被基礎(chǔ)模型或?qū)R模型解決,這表明對齊幾乎普遍提高了生成蛋白質(zhì)的結(jié)構(gòu)預(yù)測的忠實度和置信度。與僅最大化正樣本似然的監(jiān)督微調(diào)基線相比,偏好調(diào)優(yōu)在所有規(guī)模上都帶來了更大的改進。    

論文的實驗揭示了模型規(guī)模之間在能力上存在顯著差異。最大的對齊模型相對于對齊前的基礎(chǔ)模型以及對齊后的小模型都有了顯著的改進。通過對齊,模型學會了從少量示例中進行泛化:生成的分布發(fā)生了變化,以提高支架的質(zhì)量和與提示的一致性,增加了解決任務(wù)的比例和不同解決方案的數(shù)量。

對齊要求模型通過示例進行學習。模型能夠識別微調(diào)示例所展示的底層屬性,并將這些演示泛化到新任務(wù)中,這意味著微調(diào)能夠訪問這些屬性的內(nèi)部表示。這個表示空間是通過預(yù)訓(xùn)練過程學習的,其中模型在跨越進化的蛋白質(zhì)上進行訓(xùn)練,這表明它反映了并包含了蛋白質(zhì)生物學的巨大多樣性和復(fù)雜性。這樣的表示空間很可能包含支持多種生物屬性泛化的特征。較大模型對對齊的更高響應(yīng)性表明,它們的內(nèi)部表示空間更好地近似于那些底層屬性,這是通過預(yù)訓(xùn)練中學習的特征實現(xiàn)深度遷移能力的證據(jù),這種能力隨著規(guī)模的增加而提高。

2.5 生成一種新的熒光蛋白

論文試圖理解基礎(chǔ)預(yù)訓(xùn)練的ESM3模型是否具有足夠的生物學保真度來生成功能性蛋白質(zhì)。論文著手創(chuàng)建一種與現(xiàn)有熒光蛋白序列相似度低的、具有功能性的綠色熒光蛋白(GFP)。論文選擇熒光功能,因為它難以實現(xiàn),易于測量,并且是大自然中最美麗的機制之一。

負責水母熒光和珊瑚鮮艷色彩的GFP家族蛋白,具有獨特的生物學特性。    

使用語言模型模擬五億年的進化歷程-AI.x社區(qū)

圖4. 通過思維鏈生成新型熒光蛋白。(A) 論文向ESM3提供了形成和催化發(fā)色團反應(yīng)所需的殘基序列和結(jié)構(gòu),以及天然GFP中心α螺旋的一部分結(jié)構(gòu)(左)。通過思維鏈,ESM3生成了設(shè)計候選方案(右)。(B) ESM3在兩次實驗中找到了一個在亮度上遠離其他已知GFP的亮GFP。論文在E大腸桿菌裂解液中測量了熒光。頂部行,平板照片。底部行,平板閱讀器熒光定量。已知GFP的陽性對照用紫色圓圈token,無GFP序列或無E大腸桿菌的陰性對照用紅色圓圈token。在第一次實驗(左)中,論文表達了具有一系列序列同一性的設(shè)計。一個與已知熒光蛋白序列同一性較低(57%)的顯著設(shè)計出現(xiàn)在token為B8的孔中(底部黑圈,頂部白圈)。論文繼續(xù)從B8中的蛋白質(zhì)進行第二次實驗(右)。一個亮設(shè)計出現(xiàn)在token為C10的孔中(與已知熒光蛋白序列同一性為58%,底部黑圈,頂部白圈),論文將其命名為esmGFP。(C) esmGFP表現(xiàn)出與常見GFP相似的熒光強度。實驗2中部分蛋白質(zhì)的歸一化熒光顯示。(D) esmGFP的激發(fā)和發(fā)射光譜與EGFP的光譜疊加。(E) esmGFP預(yù)測結(jié)構(gòu)的中心α螺旋和β桶內(nèi)部的兩個切割視圖。esmGFP相對于其最近鄰tagRFP的96個突變以藍色顯示。(F) 跨分類群熒光蛋白序列同一性的累積密度。esmGFP與其他FP的相似度通常在比較不同目之間的序列時發(fā)現(xiàn),但在同一類別內(nèi)。(G) 三個示例珊瑚GFP和esmGFP的進化距離(以百萬年為單位)和序列同一性。(H) 根據(jù)GFP序列同一性估計的進化距離(以百萬年為單位)。論文估計esmGFP與最接近的已知蛋白質(zhì)相距超過5億年的自然進化    

在無需輔因子或底物的情況下形成熒光發(fā)色團的能力(30)。這一特性使得GFP序列能夠被插入到其他生物的基因組中,用于可視化token分子、細胞結(jié)構(gòu)或過程,提供了一個在生物科學領(lǐng)域廣泛應(yīng)用的基礎(chǔ)工具包。

GFP家族已成為數(shù)十年來蛋白質(zhì)工程研究的重點,但功能變體的多樣性絕大多數(shù)仍源自對自然界的探索。理性設(shè)計和突變技術(shù)已產(chǎn)生具有改進特性的GFP序列——如更高的亮度或穩(wěn)定性,或不同顏色的變體——這些變體通常只包含少量突變(通常為5到15個,總共238個氨基酸編碼序列)。在少數(shù)情況下,借助高通量實驗和機器學習,科學家能夠在保留熒光特性的同時引入多達40-50個突變(即80%序列同一性)(48-50)。

生成新的GFP需要實現(xiàn)其熒光特性背后的復(fù)雜生物化學和物理過程。所有GFP中,一個自催化過程在蛋白質(zhì)核心的三種關(guān)鍵氨基酸之間形成發(fā)色團。GFP獨特的結(jié)構(gòu),即一個彎曲的中央α螺旋被具有向內(nèi)協(xié)調(diào)殘基的十一股β桶包圍,促成了這一反應(yīng)。形成后,發(fā)色團不僅需要吸收光,還必須發(fā)射光以實現(xiàn)熒光。光發(fā)射對發(fā)色團周圍的局部電子環(huán)境極為敏感。GFP的適應(yīng)度景觀反映了實現(xiàn)其功能所需的活性位點和周圍三級相互作用的精確配置,因為少數(shù)隨機突變就足以將熒光降低至零。    

為了生成新的GFP序列,論文直接引導(dǎo)基礎(chǔ)預(yù)訓(xùn)練的7B參數(shù)ESM3模型,以Thr62、Thr65、Tyr66、Gly67、Arg96、Glu222這些對形成和催化發(fā)色團反應(yīng)至關(guān)重要的殘基為條件,生成一個229殘基的蛋白質(zhì)(圖4A)。此外,論文還以1 QY3實驗結(jié)構(gòu)中58至71殘基的結(jié)構(gòu)為條件,這些殘基已知對發(fā)色團結(jié)構(gòu)能的穩(wěn)定性具有重要影響(53)。具體而言,輸入包括序列token、結(jié)構(gòu)token以及骨架原子坐標,生成過程從一個幾乎完全被遮蔽的229殘基token數(shù)組開始,除了用于條件的token位置。

論文采用以下思維鏈過程生成設(shè)計:模型首先生成結(jié)構(gòu)token,有效創(chuàng)建蛋白質(zhì)骨架。具有活性位點充分良好原子協(xié)調(diào)但與1QY3骨架整體結(jié)構(gòu)有所差異的骨架通過篩選進入鏈式過程的下一步。論文將生成的結(jié)構(gòu)添加到原始提示中,以新提示為條件生成序列。隨后進行迭代聯(lián)合優(yōu)化,交替優(yōu)化序列和結(jié)構(gòu)。論文拒絕那些失去活性位點原子協(xié)調(diào)的思維鏈。論文從生成協(xié)議的迭代聯(lián)合優(yōu)化階段的中間和最終點抽取數(shù)十萬個候選GFP設(shè)計。論文根據(jù)與已知熒光蛋白的序列相似性對設(shè)計進行分類,并利用多種指標進行篩選和排序。

論文進行了一項初步實驗,涉及96孔板上的88種設(shè)計,評估了每個序列相似性桶中的頂級代。每個生成的蛋白質(zhì)都被合成,在E大腸桿菌中表達,并在485 nm激發(fā)波長下測量其熒光活性(圖4B左側(cè))。論文測量了一些設(shè)計的亮度,這些設(shè)計與天然存在的GFP具有更高的序列同一性,其亮度與陽性對照相似。論文還識別了一個位于B8孔的設(shè)計(以黑色圓圈高亮顯示),其與1QY3序列的序列同一性僅為36%,與最近的現(xiàn)有熒光蛋白tagRFP的序列同一性為57%。該設(shè)計的亮度比天然GFP低50倍,且其發(fā)色團成熟過程需要一周時間,而非不到一天,但它在新的一部分序列空間中表現(xiàn)出功能信號,據(jù)論文所知,這在自然界或通過蛋白質(zhì)工程尚未發(fā)現(xiàn)。

論文繼續(xù)從B8孔設(shè)計的序列出發(fā),通過相同的迭代聯(lián)合優(yōu)化和排序程序,生成亮度提高的蛋白質(zhì)。論文創(chuàng)建了第二塊96孔板的設(shè)計,并使用相同的板讀取器測定法發(fā)現(xiàn),這一批次中的少數(shù)設(shè)計具有與自然界中發(fā)現(xiàn)的GFP相當?shù)牧炼取5诙K板上位于C10孔的最佳設(shè)計(圖4B右側(cè)),論文將其命名為esmGFP。

論文發(fā)現(xiàn)esmGFP在天然GFP的亮度分布中表現(xiàn)出色。論文評估了在色團成熟第0天、第2天和第7天的熒光強度,并將這些測量結(jié)果繪制為esmGFP、B8的重復(fù)、B8的色團敲除變體,以及三種天然GFP(avGFP、cgreGFP、ppluGFP)的圖表(圖4C)。esmGFP比論文測量的已知GFP成熟時間更長,但在兩天后達到相當?shù)牧炼取榱蓑炞C熒光是通過預(yù)期的Thr65和Tyr66介導(dǎo)的,論文展示了當這些殘基被突變?yōu)楦拾彼釙r,B8和esmGFP變體失去了熒光活性(圖S21)。    

盡管兩種蛋白質(zhì)的發(fā)射峰值均為512 nm(圖4D)。光譜形狀表明,esmGFP的激發(fā)光譜的半峰全寬(FWHM)更窄(esmGFP為39 nm,而EGFP為56 nm),而它們的發(fā)射光譜的FWHM高度可比(分別為35 nm和39 nm)。總體而言,esmGFP表現(xiàn)出與已知GFP一致的光譜特性。

接下來,論文試圖了解esmGFP與已知蛋白質(zhì)的比較情況。通過非冗余蛋白質(zhì)序列數(shù)據(jù)庫的BLAST(54)搜索和ESM3訓(xùn)練集的MMseas(55)搜索,報告的相同最高命中是tagRFP,這也是B8的最近鄰,具有58%的序列同一性,代表序列中共有96個突變。tagRFP是一種設(shè)計變體,而從自然界中與esmGFP最接近的野生型序列是eqFP578,一種紅色熒光蛋白,與esmGFP在107個序列位置上有所不同(53%同一性)。esmGFP與tagRFP之間的序列差異在整個結(jié)構(gòu)中都有發(fā)生(圖4E),其中22個突變發(fā)生在蛋白質(zhì)內(nèi)部,由于發(fā)色團接近和高密度相互作用,該區(qū)域已知對突變高度敏感(56)。

對648種自然和設(shè)計GFP樣熒光蛋白的序列比對分析顯示,esmGFP與其他所有FPs的相似度水平通常在跨分類目比較序列時發(fā)現(xiàn),但在同一分類綱內(nèi)(圖4F)。例如,esmGFP與其他FPs的差異程度類似于石珊瑚目(石珊瑚)和海葵目(海葵)這兩個都屬于海洋無脊椎動物中更大的綱——珊瑚綱的FPs之間的差異水平(圖4G)。與esmGFP最接近的FPs來自珊瑚綱(珊瑚和海葵;平均序列同一性51.4%),但esmGFP也與水螅綱(水母)中的FPs共享一定程度的序列同一性,其中avGFP被發(fā)現(xiàn)(平均序列同一性33.4%)。

論文可以從進化生物學中獲得啟示,了解通過自然進化產(chǎn)生具有相似序列同一性的蛋白質(zhì)所需的時間。在圖4G中,論文將esmGFP與三種刺胞動物的GFP并列展示。論文利用對刺胞動物進行的時間校準系統(tǒng)發(fā)育分析(參考文獻5),估計了這些物種之間進化時間的百萬年前(MYA)至最近共同祖先的時間。使用包含六個刺胞動物GFP和物種的數(shù)據(jù)集,這些物種的最近共同祖先的MYA和GFP序列同一性準確,論文構(gòu)建了一個簡單的估計器,將FP之間的序列同一性與物種之間的進化時間(MY)相關(guān)聯(lián)(圖4H),以校準自然進化。基于此分析,論文估計esmGFP代表了超過5億年的進化等效時間。

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲高清在线 | 亚洲国产成人av好男人在线观看 | 五月婷婷丁香 | 成人一区二区在线 | 一区二区播放 | 亚洲免费在线 | 观看av| 综合婷婷| 欧美一级黑人aaaaaaa做受 | 国产三级 | 成人一区二区在线 | 亚洲成人午夜电影 | 欧美一区二区成人 | 国产高清在线精品 | 99国产精品一区二区三区 | 国产在线观看一区二区三区 | 国产欧美久久精品 | 欧美黄色大片在线观看 | 狠狠干五月天 | 二区av | a视频在线观看 | 久久一区二区三区四区 | 欧区一欧区二欧区三免费 | 激情欧美一区二区三区 | 国产精品九九视频 | 国产一区二区在线91 | 成人精品视频 | 国产精品久久久久久52avav | 一区二区免费 | 亚洲欧美v | 精品一区二区三区四区 | 99色视频| av不卡一区| 日韩一区在线视频 | 日韩精品在线播放 | 999精品视频| 最新中文字幕第一页视频 | 午夜小视频免费观看 | av一区在线观看 | 日本在线一区二区三区 | 一级毛片黄片 |