《Science》:用大語言模型模擬5億年生命進化
超過三十億年的進化形成了一幅由天然蛋白質編碼的生物學圖景。本文展示了在進化數據上大規模訓練的語言模型可以生成遠離已知蛋白質的功能性蛋白質。我們介紹了ESM3,這是一種前沿的多模態生成語言模型,可以對蛋白質的序列、結構和功能進行推理。ESM3能夠響應復雜提示,結合其多種模態,并通過校準顯著提高生成結果的精確性。我們利用ESM3生成了熒光蛋白。在合成的生成結果中,我們發現了一種與已知熒光蛋白具有遠距離相似性(58%序列同一性)的明亮熒光蛋白。我們估計,這相當于模擬了5億年的進化過程。
近日,科學界迎來了一項重大突破,人工智能公司 Evolutionary Scale 在《Science》雜志上發布了其最新的研究成果 ——ESM3 模型,該模型能夠模擬超過 5 億年的自然進化過程,為生命科學領域帶來了前所未有的變革與機遇。
ESM3 模型由人工智能初創公司 Evolutionary Scale 研發,旨在幫助科學家理解、構思和創造蛋白質。研究人員使用了超過 31.5 億條蛋白質序列、2.36 億個蛋白質結構,以及 5.39 億個帶有功能注釋的蛋白質數據來訓練 ESM3 模型,該模型總共有三種不同的規模,分別為 14 億、70 億和 980 億參數。實驗表明,隨著模型參數規模的增加,ESM3 在生成能力和表示學習上的性能有顯著提升,特別是在生成蛋白質結構時,980 億參數的模型表現出超越現有模型的強大能力。
重大突破:模擬 5 億年進化生成全新蛋白質
在本次研究中,ESM3 模型展示了其強大的能力,成功設計出了全新的綠色熒光蛋白。綠色熒光蛋白在生物學研究中是非常重要的工具,用于標記和跟蹤細胞內的分子與結構。然而,現有的熒光蛋白大多數來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。
為了突破這一瓶頸,研究人員通過對 ESM3 模型進行特定的功能提示,嘗試生成一個全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。ESM3 模型在接收到這些提示后,會生成一個蛋白質的三維結構,尤其是確保活性位點的氨基酸位置協調良好。然后,基于生成的結構,模型進一步推理生成合適的氨基酸序列,并嘗試保持活性位點的正確結構。
經過一系列的生成和優化步驟,研究人員獲得了多個新的綠色熒光蛋白,其中一個特別的設計被命名為 esmGFP。這個全新的蛋白質與現有的熒光蛋白之間的序列相似性為 58%,與最接近的天然蛋白之間的序列差異為 107 個氨基酸,序列相似性為 53%。研究人員還進一步驗證了生成的綠色熒光蛋白是否具有實際的熒光功能,結果表明,盡管 esmGFP 發光特性有所延遲,成熟時間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩定的熒光特性。
研究人員還提供了時間校準系統發育分析,指出如果通過現有蛋白的自然界進化過程得到 esmGFP,則需要超過 5 億年的等效時間。這一成果充分展示了 ESM3 模型在模擬生命進化和生成全新蛋白質方面的巨大潛力,為蛋白質設計和藥物開發開辟了新的路徑。
多模態能力:開啟蛋白質研究新視角
ESM3 不僅僅是一個傳統的序列生成模型,而是一個多模態生成模型,能夠同時處理蛋白質的序列、三維結構和功能。它使用了一種名為 “生成掩碼語言模型” 的方法,在輸入中對蛋白質的序列、結構和功能進行隨機掩碼,然后通過模型推理生成缺失的部分。研究人員通過隨機掩碼并生成序列和結構,對比生成結果與真實蛋白質的匹配情況,發現模型能夠生成高質量的蛋白質序列和結構,其與真實結構的平均差異僅為 0.5?。
此外,ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。與傳統的三維空間中的復雜建模方法不同,ESM3 將三維結構離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進行處理,這種方法避免了復雜的三維空間擴散架構,使得生成過程更加高效、可控。
ESM3 的多模態能力在蛋白質研究領域尚屬首次,為科學家們提供了一個全新的視角和工具。通過這種多模態的分析和生成方式,科學家們能夠更深入地理解蛋白質的序列、結構和功能之間的關系,進而更好地進行蛋白質設計、藥物研發等工作。例如,在藥物設計領域中,生成具有特定功能的蛋白質是一個重要的研究方向,而通過 ESM3,研究人員能夠設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本。
開源與合作:推動全球科研創新
ESM3 模型的開源策略,加上與 AWS 和 NVIDIA 等云計算平臺的合作,極大地方便了全球開發者和科研人員的應用和部署。模型代碼已在 GitHub 上公開,盡管 API 目前還處于內測階段,但開放科學的精神已經體現在 ESM3 的推廣中。
這種開源和合作的模式,將吸引更多的科研人員和開發者參與到蛋白質研究和生命科學領域的創新中來。全球各地的科學家們可以利用 ESM3 模型進行自己的研究和實驗,進一步挖掘該模型的潛力,推動生命科學領域的快速發展。同時,與云計算平臺的合作也為科研人員提供了強大的計算支持,使得他們能夠更高效地進行模型訓練和數據分析。
行業影響:加速生命科學領域發展
ESM3 模型的出現,對生命科學領域產生了深遠的影響。在蛋白質設計方面,它打破了傳統方法的局限,能夠生成與自然界已知蛋白序列不同的全新蛋白質,為蛋白質工程提供了更多的可能性。在藥物開發領域,ESM3 可以幫助研究人員快速設計出具有特定功能的蛋白質藥物,縮短藥物研發的周期,降低研發成本。在合成生物學領域,ESM3 能夠為開發新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑,推動合成生物學的發展。
此外,ESM3 模型的成功也為人工智能與生命科學的交叉研究提供了一個范例。它展示了人工智能技術在模擬和理解自然界復雜過程中的巨大潛力,為未來更多的跨學科研究提供了借鑒和啟示。隨著人工智能技術的不斷發展和生命科學領域對大數據分析和預測的需求增加,這種跨學科的研究模式將成為未來科學發展的重要趨勢。
然而,ESM3 模型的應用也面臨一些挑戰和問題。例如,模型的準確性和可靠性還需要進一步提高,特別是在處理復雜的生物系統和疾病機制時。此外,隨著模型的廣泛應用,數據隱私和安全問題也需要引起足夠的重視。科研人員需要在利用模型進行創新研究的同時,關注和解決這些潛在的問題,確保模型的安全和合理使用。
未來展望:潛力無限的 ESM3 模型
隨著模型規模和數據量的進一步增加,ESM3 有潛力生成更加復雜和創新的蛋白質。未來,ESM3 的應用可能涵蓋從基礎研究到藥物設計等更多領域,為蛋白質工程開辟全新的可能性。例如,在基礎研究方面,ESM3 可以幫助科學家更好地理解蛋白質的進化機制和生物功能的起源;在疾病治療方面,ESM3 可以用于設計個性化的蛋白質藥物,針對特定患者的基因突變和疾病特征進行精準治療。
此外,ESM3 模型的發展也將促進生命科學領域與其他學科的交叉融合。例如,與物理學、化學、計算機科學等學科的結合,將為解決生命科學中的復雜問題提供新的思路和方法。同時,ESM3 模型的應用也將推動生物技術產業的創新和發展,為生物制藥、生物能源、生物環保等領域帶來新的機遇和挑戰。
總之,ESM3 模型的發布是生命科學領域的一個重要里程碑,它為我們理解和模擬生命進化提供了一個全新的工具和視角。在未來的研究中,我們期待 ESM3 模型能夠繼續發揮其巨大的潛力,為生命科學領域的發展做出更大的貢獻。同時,我們也需要關注和解決模型應用中面臨的挑戰和問題,確保其安全、可靠和合理地使用,讓這項技術更好地造福人類。
本文轉載自??歐米伽未來研究所??,作者:歐米伽未來研究所
