繼AlphaFold之后,DeepMind再放“大招”:AlphaGenome直擊疾病根源
谷歌今天一口氣放出兩個王炸,一個對標Claude Code 和 Cursor的開源編程神器Gemini CLI,另一個就是AlphaGenome,專門用來精準預測基因變異。
谷歌DeepMind宣布推出一款名為AlphaGenome的全新人工智能(AI)模型。該模型旨在更深入、更準確地理解基因組,通過預測DNA序列的微小變化如何影響復雜的基因調控過程,為疾病研究、基因治療和基礎生命科學開辟了新的可能性。目前,AlphaGenome已通過API向非商業研究領域開放。
基因組是指導生命體生長、發育、運作和繁殖的終極“細胞說明書”。這本由DNA構成的“說明書”中的細微變化,即基因變異,可能深刻影響我們對環境的反應,甚至決定我們對某些疾病的易感性。然而,破譯基因組指令在分子層面被讀取的全過程,以及一個微小的DNA變異究竟會引發何種連鎖反應,至今仍是生物學最大的謎團之一。
為了攻克這一難題,谷歌DeepMind推出了AlphaGenome——一個全新的AI工具。它能夠更全面、更精確地預測人類DNA序列中的單個變異或突變如何影響廣泛的基因調控生物過程。這一突破得益于模型架構的技術進步,使其能夠處理超長的DNA序列并輸出高分辨率的預測結果。
DeepMind相信,AlphaGenome將成為科學界的重要資源,幫助科學家更好地理解基因組功能、疾病生物學,并最終推動新的生物學發現和新療法的開發。
AlphaGenome如何工作?
AlphaGenome的核心工作流程是:接收一段長達100萬個堿基對的DNA序列作為輸入,并預測數千種表征其調控活性的分子特性。同時,它還能通過對比突變序列和原始序列的預測結果,來評估特定基因變異或突變所帶來的影響。
其預測的特性范圍極廣,包括:
? 在不同細胞和組織中,基因的起始和終止位置。
? RNA的剪接方式。
? RNA的生成數量。
? DNA堿基的可及性、空間上的接近程度,以及是否與特定蛋白質結合。
為了實現這些功能,AlphaGenome在來自ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共數據庫的海量實驗數據上進行了訓練。這些數據覆蓋了數百種人類和老鼠細胞及組織中重要的基因調控模式。
在技術架構上,AlphaGenome采用了卷積層來初步檢測基因組序列中的短模式,再利用Transformer模型來整合序列上所有位置的信息,最終通過一系列輸出層將這些模式轉化為對不同分子特性的具體預測。
值得一提的是,該模型建立在DeepMind之前的基因組學模型Enformer之上,并與專注于解讀蛋白質編碼區(僅占基因組2%)變異影響的AlphaMissense形成完美互補。AlphaGenome則專注于解讀占基因組98%的廣闊非編碼區,這些區域對調控基因活動至關重要,并包含了大量與疾病相關的變異。
AlphaGenome的四大獨特優勢
相較于現有的DNA序列模型,AlphaGenome展現出幾個顯著的特點:
1. 長序列上下文與高分辨率: 模型能分析長達100萬個DNA堿基對的序列,并以單個堿基的分辨率進行預測。這對于捕捉遠距離基因調控元件和精細的生物學細節至關重要。與以往模型需要在序列長度和分辨率之間做出取舍不同,AlphaGenome在不顯著增加訓練成本的情況下(訓練時間僅為4小時,計算預算為原Enformer模型的一半)實現了二者的統一。
2. 全面的多模態預測: 通過解鎖對長序列的高分辨率預測,AlphaGenome能夠同時預測最多樣化的分子特性,為科學家提供關于基因調控復雜步驟的更全面信息。
3. 高效的變異評分: 模型可以在一秒內高效評估一個基因變異對所有相關分子特性的影響。它通過對比突變前后的預測差異來實現這一點,并為不同特性提供了高效的差異總結方法。
4. 新穎的剪接點建模: 許多罕見遺傳?。ㄈ缂顾栊约∥s癥)由RNA剪接錯誤引起。AlphaGenome首次能夠直接從DNA序列中明確地模擬剪接點的位置和表達水平,為理解遺傳變異如何影響RNA剪接提供了更深刻的見解。
在多項基準測試中,AlphaGenome均表現出業界頂尖(State-of-the-art)的性能。無論是預測DNA序列功能,還是評估變異影響,它在絕大多數評測中都優于或持平于當前最優的專用模型,充分展示了其強大的通用性。
圖:AlphaGenome在選定的DNA序列任務和變異效應任務上,相對于當前最佳方法的性能提升百分比
研究潛力
AlphaGenome的通用性使其成為一個強大的科研工具,有望在多個領域發揮關鍵作用:
疾病理解: 通過更精確地預測遺傳變異的功能影響,幫助研究人員精確定位疾病的潛在原因,更好地解釋與特定性狀相關的變異,甚至發現新的治療靶點。尤其適用于研究那些效應較大的罕見孟德爾疾病。
合成生物學: 其預測能力可用于指導設計具有特定調控功能的合成DNA。例如,設計一段只在神經細胞中激活某個基因,而在肌肉細胞中保持沉默的DNA序列。
基礎研究: 加速我們對基因組的理解,幫助繪制關鍵功能元件圖譜,并定義它們在調控特定細胞類型功能中的確切作用。
當前的局限性
盡管AlphaGenome是重要的一步,但DeepMind也坦誠其存在局限性。例如,精確捕捉超過10萬個堿基對的超遠距離調控元件仍是挑戰。此外,該模型目前并未針對個人基因組預測進行設計或驗證,也不能完全描繪出遺傳變異如何導致復雜性狀或疾?。ㄟ@些通常涉及更廣泛的生物過程及環境因素)。
開放社區
為了推動科學進步,AlphaGenome現已通過AlphaGenome API向全球研究人員提供非商業性使用。DeepMind誠邀學術界、工業界和政府組織的研究人員試用該模型,并通過社區論壇分享潛在用例、提出問題或提供反饋。
DeepMind希望通過與更廣泛的科學界合作,共同深化對DNA序列中復雜細胞過程的理解,推動基因組學和醫療健康的顛覆性新發現。
paper:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
AlphaGenome API 使用:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/