谷歌AlphaGenome橫空出世!40億年生命代碼一鍵破解,或再奪諾獎(jiǎng)
基因組,宛如生命的藍(lán)圖,藏在我們每一個(gè)細(xì)胞之中。
這套完整的DNA指令集,主導(dǎo)著生命體從外觀功能到生長(zhǎng)繁殖的幾乎每一個(gè)方面,甚至是對(duì)疾病抵御的能力。
2003年,人類基因組測(cè)序完成,讓人類首次窺見(jiàn)了DNA的全貌。
然而,如何破譯這些指令,一個(gè)微小DNA變異如何改變生命軌跡,至今仍是生物學(xué)的未解之謎。
現(xiàn)在,這個(gè)局面將被徹底改寫。
昨天,谷歌DeepMind重磅發(fā)布AlphaGenome——一款革命性的AI工具,以及103頁(yè)的詳細(xì)技術(shù)報(bào)告。
論文地址:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
一個(gè)模型,可讀取100萬(wàn)個(gè)DNA堿基,并預(yù)測(cè)任何基因變異/突變?nèi)绾胃淖兎肿拥墓δ堋?/span>
它不僅限于單個(gè)基因預(yù)測(cè),而是貫穿了整個(gè)調(diào)控基因組。
誠(chéng)如網(wǎng)友所言,「DNA就是代碼,而你就是軟件」。
比如,它可以回答「某個(gè)基因的活性是會(huì)增強(qiáng)還是減弱」。而這,正是生物學(xué)家們?cè)趯?shí)驗(yàn)室中,需要通過(guò)大量實(shí)驗(yàn)來(lái)反復(fù)驗(yàn)證的問(wèn)題。
那么,這是如何做到的?
AlphaGenome以長(zhǎng)DNA序列為輸入,經(jīng)過(guò)數(shù)據(jù)處理后,通過(guò)表征其調(diào)控活性來(lái)預(yù)測(cè)數(shù)千種分子特性。
諾獎(jiǎng)得主Demis Hassabis曾在采訪中堅(jiān)定地表示,「未來(lái)十年,AI將會(huì)治愈所有疾病」。
如今,AlphaGenome的誕生,讓這一宏偉的愿景更進(jìn)一步。
它可以讓科學(xué)家快速預(yù)測(cè)基因變化可能帶來(lái)的影響,推動(dòng)生物學(xué)的全新發(fā)現(xiàn)與新療法的誕生。
解密生命密碼
DeepMind開(kāi)啟DNA研究新紀(jì)元
在解密生命「密碼」這一領(lǐng)域,谷歌DeepMind早已展開(kāi)布局。
5年前,蛋白質(zhì)預(yù)測(cè)模型AlphaFold出世,在業(yè)界曾掀起海嘯級(jí)巨震,還登上了Nature、Science年度十大科學(xué)發(fā)現(xiàn)榜單。
從初代AlphaFold到AlphaFold 3,階躍式進(jìn)化,成功預(yù)測(cè)了人類98.5%蛋白質(zhì),并拿下2024年諾貝爾獎(jiǎng)。
這項(xiàng)世界級(jí)成果催生了專注于藥物發(fā)現(xiàn)的衍生公司Isomorphic Labs,引領(lǐng)了用AI設(shè)計(jì)新藥的浪潮。
AlphaGenome的出世,再一次拓展了AI在NDA領(lǐng)域的研究。
人類基因約有30億個(gè)堿基,但其中只有不到2%的序列,用于編碼蛋白質(zhì),其余98%被稱為非編碼區(qū)。
然而,它們對(duì)調(diào)控基因的活性至關(guān)重要,并包含了大量與疾病相關(guān)的變異位點(diǎn)。
直到現(xiàn)在,生物學(xué)家實(shí)際上無(wú)法看清它是如何運(yùn)作的。
AlphaGenome正是為解讀這些廣闊的非編碼序列及其內(nèi)部變異,提供了全新的視角。
這是該領(lǐng)域的里程碑式突破。我們首次擁有了一個(gè)統(tǒng)一模型,能在各類基因組任務(wù)中同時(shí)實(shí)現(xiàn)長(zhǎng)程上下文關(guān)聯(lián)、堿基級(jí)精度和最先進(jìn)的性能表現(xiàn)。
如今,AlphaGenome能夠接收長(zhǎng)達(dá)100萬(wàn)個(gè)堿基字母(即堿基對(duì))的DNA序列作為輸入,并據(jù)此預(yù)測(cè)用以表征其調(diào)控活性的數(shù)千種分子特性。
通過(guò)比對(duì)突變序列與原始序列的預(yù)測(cè)結(jié)果,模型還能量化評(píng)估基因變異或突變所帶來(lái)的影響。
AlphaGenome將一百萬(wàn)個(gè)DNA堿基作為輸入,并預(yù)測(cè)不同組織和細(xì)胞類型中的多種分子特性
這款模型的預(yù)測(cè)范圍非常廣泛,包括了在不同的細(xì)胞類型和組織中,基因的起始與終止位點(diǎn)、基因的剪接位置、RNA的生成數(shù)量,以及哪些DNA堿基是可訪問(wèn)的、哪些在空間上相互靠近、哪些與特定的蛋白質(zhì)結(jié)合等。
AlphaGenome能夠同時(shí)做出多方面的預(yù)測(cè),得益于其頗具層次的核心架構(gòu)。
如下圖所示,首先通過(guò)卷積層初步檢測(cè)基因組序列中的短模式,再利用Transformer架構(gòu)在整個(gè)序列的任意位置之間高效傳遞信息。
最后,經(jīng)由一系列輸出層,將識(shí)別出的模式轉(zhuǎn)化為對(duì)不同調(diào)控維度的具體預(yù)測(cè)。
在訓(xùn)練過(guò)程中,針對(duì)單個(gè)序列的龐大計(jì)算量,會(huì)被分散到多個(gè)互聯(lián)的張量處理單元(TPU)上協(xié)同完成。
模型基于谷歌先前的基因組學(xué)模型Enformer構(gòu)建,并與AlphaMissense模型形成互補(bǔ)——后者專注于分類蛋白質(zhì)編碼區(qū)內(nèi)的變異所造成的影響。
順便提一句,模型的訓(xùn)練數(shù)據(jù)源自多個(gè)大型公共科研項(xiàng)目,如ENCODE、GTEx、4D Nucleome和FANTOM5。
這些項(xiàng)目通過(guò)實(shí)驗(yàn),測(cè)量并覆蓋了數(shù)百種人類及小鼠細(xì)胞與組織中基因調(diào)控的多種關(guān)鍵維度。
一次100萬(wàn)DNA堿基,瞬間預(yù)測(cè)
與現(xiàn)有的DNA序列模型相比,AlphaGenome具備幾項(xiàng)顯著的獨(dú)特優(yōu)勢(shì):
- 兼顧長(zhǎng)序列與高分辨率
處理長(zhǎng)序列對(duì)于覆蓋遠(yuǎn)距離的基因調(diào)控區(qū)至關(guān)重要,而堿基級(jí)別的分辨率則是捕捉精細(xì)生物學(xué)細(xì)節(jié)的關(guān)鍵。
以往的模型不得不在序列長(zhǎng)度和分辨率之間做出艱難取舍,這限制了它們能夠同時(shí)建模和準(zhǔn)確預(yù)測(cè)的生物學(xué)維度。
而谷歌的技術(shù)突破成功克服了這一限制,且并未顯著增加訓(xùn)練所需的資源。
訓(xùn)練一個(gè)完整的AlphaGenome模型(未經(jīng)蒸餾)僅需4小時(shí),算力開(kāi)銷僅為最初訓(xùn)練Enformer模型時(shí)的一半。
結(jié)果就是,AlphaGenome已經(jīng)可以實(shí)現(xiàn)長(zhǎng)達(dá)100萬(wàn)個(gè)DNA堿基字母的序列的分析,并能以單個(gè)堿基的分辨率進(jìn)行精細(xì)預(yù)測(cè)。
- 全面的多維度預(yù)測(cè)
通過(guò)解鎖對(duì)長(zhǎng)輸入序列的高分辨率預(yù)測(cè)能力,AlphaGenome得以對(duì)迄今最多樣化的生物學(xué)維度進(jìn)行預(yù)測(cè)。
這為科學(xué)家們提供了關(guān)于基因調(diào)控復(fù)雜過(guò)程的、更全面的信息。
- 變異效應(yīng)的高效評(píng)估
除了能預(yù)測(cè)多種分子特性,AlphaGenome還能在短短一秒內(nèi),高效評(píng)估某個(gè)基因變異對(duì)所有這些特性的影響。
它通過(guò)對(duì)比突變序列與原始序列的預(yù)測(cè)結(jié)果,并針對(duì)不同維度采用相應(yīng)的分析方法,來(lái)高效地量化這種差異。
- 創(chuàng)新的剪接點(diǎn)建模
許多罕見(jiàn)的遺傳性疾病,如脊髓性肌萎縮癥和某些類型的囊性纖維化,病因就可能源于RNA剪接過(guò)程的錯(cuò)誤——在該過(guò)程中,RNA分子的一部分被移除,剩余的兩端再重新連接。
值得一提的是,AlphaGenome首次實(shí)現(xiàn)了直接從DNA序列出發(fā),預(yù)測(cè)剪接點(diǎn),并將其用于變異效應(yīng)預(yù)測(cè)。
這為深入理解遺傳變異對(duì)RNA剪接的后果提供了前所未有的視角。
Jun Cheng是共同一作中唯一的華人
刷新SOTA,覆蓋多種生物模態(tài)
AlphaGenome在基因?qū)W組學(xué)基準(zhǔn)測(cè)試中,表現(xiàn)又如何?
無(wú)論是在預(yù)測(cè)DNA分子中哪些部分會(huì)在空間上相互靠近,還是在判斷某個(gè)基因變異是會(huì)增強(qiáng)或減弱基因表達(dá),抑或是改變其剪接模式等任務(wù)上,這款模型均刷新了SOTA。
AlphaGenome在部分DNA序列及變異效應(yīng)預(yù)測(cè)任務(wù)上,性能大幅提升
- 在生成單個(gè)DNA序列的預(yù)測(cè)時(shí),24項(xiàng)評(píng)估中有22項(xiàng)的表現(xiàn)都超越了當(dāng)前最優(yōu)的外部模型。
- 在預(yù)測(cè)基因變異的調(diào)控效應(yīng)時(shí),26項(xiàng)評(píng)估中有24項(xiàng)的表現(xiàn)都達(dá)到或超過(guò)了頂尖的外部模型。
值得一提的是,上述比較中的外部模型大多是為單一任務(wù)專門優(yōu)化的。
而AlphaGenome是唯一能夠同時(shí)對(duì)所有評(píng)估維度進(jìn)行聯(lián)合預(yù)測(cè)的模型,這充分凸顯了其強(qiáng)大的通用性。
一個(gè)模型,全搞定
要知道,AlphaGenome的創(chuàng)新不僅在于準(zhǔn)確性,還在于統(tǒng)一性。
以前,科學(xué)家可能需要10多個(gè)模型,才能了解一個(gè)突變的作用。而現(xiàn)在,一次API調(diào)用,還是全分辨率。
科學(xué)家僅通過(guò)一次API調(diào)用,就能同時(shí)探究某個(gè)基因變異對(duì)多種不同調(diào)控維度的影響。
這意味著科學(xué)家可以更迅速地提出并驗(yàn)證科學(xué)假說(shuō),無(wú)需再為了研究不同維度而調(diào)用多個(gè)不同的模型。
此外,AlphaGenome的強(qiáng)勁表現(xiàn)表明,它已在基因調(diào)控的框架下,學(xué)習(xí)到了一種相對(duì)通用的DNA序列特征表示。這使其成為一個(gè)堅(jiān)實(shí)的基礎(chǔ),便于更廣泛的科研社區(qū)在此之上進(jìn)行構(gòu)建和拓展。
而且, AlphaGenome還可以支持特定場(chǎng)景、自己的數(shù)據(jù)集上,進(jìn)行適配和微調(diào),從而更有效地解決他們獨(dú)特的科研難題。
最后,這種統(tǒng)一的方法為未來(lái)提供了一個(gè)靈活且可擴(kuò)展的架構(gòu)。
通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù),AlphaGenome的能力還可以被進(jìn)一步擴(kuò)展,以獲得更優(yōu)的性能、覆蓋更多的物種,或納入額外的生物學(xué)維度,從而使模型變得更加全面和強(qiáng)大。
DNA預(yù)測(cè),生物學(xué)的新曙光
毋庸置疑,AlphaGenome的強(qiáng)大預(yù)測(cè)能力,將為未來(lái)多個(gè)科研領(lǐng)域的研究提供助力。
首先,它能加深人類對(duì)疾病的理解。
通過(guò)更精準(zhǔn)地預(yù)測(cè)基因功能擾動(dòng),AlphaGenome能幫助研究人員更精確地定位疾病的潛在根源,并更好地闡釋與特定性狀相關(guān)的變異所造成的功能性影響,從而有望揭示新的治療靶點(diǎn)。
由此谷歌認(rèn)為,AlphaGenome將尤其適合用于研究那些可能引發(fā)嚴(yán)重后果的罕見(jiàn)變異,例如導(dǎo)致孟德?tīng)栠z傳病的變異。
其次,AlphaGenome還可以賦能「合成生物學(xué)」。
模型的預(yù)測(cè)結(jié)果可用于指導(dǎo)設(shè)計(jì)具備特定調(diào)控功能的合成DNA。例如,設(shè)計(jì)出僅在神經(jīng)細(xì)胞中激活某個(gè)基因,而在肌肉細(xì)胞中保持沉默的DNA序列。
最最重要的是,AlphaGenome將會(huì)推動(dòng)未來(lái)的生物學(xué)基礎(chǔ)研究。
通過(guò)協(xié)助繪制基因組的關(guān)鍵功能元件圖譜并闡明其作用,以及識(shí)別調(diào)控特定細(xì)胞功能所必需的核心DNA指令,該模型將加速我們對(duì)基因組的理解。
舉個(gè)例子,在一項(xiàng)針對(duì)T細(xì)胞急性淋巴細(xì)胞白血病(T-ALL)患者的現(xiàn)有研究中,科研人員發(fā)現(xiàn)基因組特定位點(diǎn)的突變。
隨后在AlphaGenome的加持下,谷歌的研究人員預(yù)測(cè)這些突變會(huì)通過(guò)引入一個(gè)MYBDNA結(jié)合基序,來(lái)異常激活鄰近的一個(gè)名為TAL1的基因。
這一預(yù)測(cè)結(jié)果與已知的致病機(jī)制完全吻合,充分展現(xiàn)了AlphaGenome將特定非編碼變異與致病基因聯(lián)系起來(lái)的強(qiáng)大能力。
AlphaGenome將是這個(gè)領(lǐng)域的一款強(qiáng)大工具。要確定不同非編碼變異的重要性極具挑戰(zhàn)性,尤其是在大規(guī)模研究的背景下。這款工具將補(bǔ)上這塊拼圖上至關(guān)重要的一塊,讓我們能夠建立更清晰的聯(lián)系,從而更深入地理解癌癥等復(fù)雜疾病。
每一次失敗的療法,每一次罕見(jiàn)的疾病,每一種復(fù)雜性狀,都始于被誤讀的DNA。
如今,人類終于可以看清生命這一系統(tǒng)。
當(dāng)你能清晰洞見(jiàn)系統(tǒng)全貌時(shí),就能開(kāi)始重新設(shè)計(jì)它。生物學(xué)也就不再神秘莫測(cè),開(kāi)始變得可編程。
這是從「認(rèn)知」到「掌控」的躍遷。AlphaGenome,正是這個(gè)轉(zhuǎn)折點(diǎn)。