Meta打造首個「蛋白質(zhì)宇宙」全景圖!用150億參數(shù)語言模型,預(yù)測了6億+蛋白質(zhì)結(jié)構(gòu)
?Meta在蛋白質(zhì)結(jié)構(gòu)的探索上又前進(jìn)了一步!
這次他們瞄準(zhǔn)的是更大的目標(biāo)領(lǐng)域:宏基因組學(xué)。
蛋白質(zhì)宇宙的「暗物質(zhì)」
根據(jù)NIH人類基因組研究所的解釋,宏基因組學(xué)(Metagenomics,又譯宏基因組學(xué))研究從大宗樣品中的所有生物體(通常是微生物)中分離和分析的整個核苷酸序列的結(jié)構(gòu)和功能,通常用于研究特定的微生物群落,比如居住在人類皮膚上、土壤中或水樣中的微生物身上的蛋白質(zhì)。
在過去的幾十年里,隨著我們對生活在人類體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學(xué)一直是一個非常活躍的領(lǐng)域。
由于宏基因組學(xué)的研究對象無所不包,遠(yuǎn)遠(yuǎn)超過了構(gòu)成動植物生命的蛋白質(zhì),可以說是地球上最不為人知的蛋白質(zhì)。
為此,Meta AI用上了最新的大型語言模型、打造了一個超過6億個宏基因組結(jié)構(gòu)的數(shù)據(jù)庫,并提供一個API,讓科學(xué)家輕松檢索與工作相關(guān)的特定蛋白質(zhì)結(jié)構(gòu)。
論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
Meta表示,解碼宏基因組結(jié)構(gòu),有助于解開長期存在的人類進(jìn)化史之謎,幫助人類更有效地治愈疾病、凈化環(huán)境。
蛋白質(zhì)結(jié)構(gòu)預(yù)測,提速60倍!
宏基因組學(xué)主要研究如何從所有這些在環(huán)境中共存的生物體中獲得DNA,這有點像一盒拼圖,但并不只是一盒拼圖,實際上是所有10組較小的拼圖堆在一起,放在一個盒子里。
宏基因組學(xué)同時獲取這10種生物的基因組時,實際上是試圖同時解決10個謎題,了解同一個基因組盒子里的所有不同的拼圖。
正是這種結(jié)構(gòu)和生物作用的未知性,通過宏基因組學(xué)發(fā)現(xiàn)的新蛋白質(zhì),甚至可以稱為蛋白質(zhì)宇宙的「暗物質(zhì)」。
近些年,基因測序方面的進(jìn)步讓編目數(shù)十億宏基因組蛋白質(zhì)序列成為可能。
然而,盡管已經(jīng)知道這些蛋白質(zhì)序列的存在,但想要進(jìn)一步了解它們的生物學(xué)特性,卻是一個巨大的挑戰(zhàn)。
為了要得到這些數(shù)以億計的蛋白質(zhì)序列結(jié)構(gòu),預(yù)測速度的突破是至關(guān)重要的。
這個過程,即便是用目前最先進(jìn)的工具,再搭上一個大型研究機(jī)構(gòu)的計算資源,也可能需要數(shù)年時間。
于是,Meta訓(xùn)練了一個大型語言模型,來學(xué)習(xí)進(jìn)化模式,并直接從蛋白質(zhì)序列中端到端地生成準(zhǔn)確的結(jié)構(gòu)預(yù)測,在保持準(zhǔn)確性的同時,預(yù)測速度比當(dāng)前最先進(jìn)的方法快60倍。
事實上,借助于這種新的結(jié)構(gòu)預(yù)測能力,Meta在短短兩周內(nèi)用一個由大約2000個GPU組成的集群上,預(yù)測出了圖譜中超過6億個宏基因組蛋白質(zhì)的序列。
Meta發(fā)布的宏基因組圖譜名為ESM Atlas,幾乎涵蓋了整個宏基因組序列公共數(shù)據(jù)庫MGnify90的預(yù)測。
Meta表示,ESM Atlas是迄今為止最大的高分辨率預(yù)測結(jié)構(gòu)數(shù)據(jù)庫,比現(xiàn)有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫大3倍,而且是第一個全面和大規(guī)模地覆蓋宏基因組蛋白質(zhì)的數(shù)據(jù)庫。
這些蛋白質(zhì)結(jié)構(gòu)為了解自然界的廣泛性和多樣性提供了一個前所未有的視角,并有可能加速發(fā)現(xiàn)蛋白質(zhì)在醫(yī)學(xué)、綠色化學(xué)、環(huán)境應(yīng)用和可再生能源等領(lǐng)域的實際應(yīng)用。
此次用于預(yù)測蛋白質(zhì)結(jié)構(gòu)的新語言模型擁有150億個參數(shù),是迄今為止最大的「蛋白質(zhì)語言模型」。
這個模型實際上是Meta今年7月發(fā)布的ESM Fold蛋白質(zhì)預(yù)測模型的延續(xù)。
在當(dāng)初ESMFold發(fā)布時,已經(jīng)和AlphaFold2、RoseTTAFold等主流蛋白質(zhì)模型不相上下。但ESMFold預(yù)測速度要比AlphaFold2快一個數(shù)量級!
一下說數(shù)量級可能不好理解三者之間速度的對比,看看下面這張圖就懂了。
而這次ESM Atlas數(shù)據(jù)庫的發(fā)布,更是讓150億參數(shù)的大語言模型有了最廣泛的用武之地。
由此,科學(xué)家便可以在數(shù)億個蛋白質(zhì)的規(guī)模上搜索和分析以前沒有被定性的結(jié)構(gòu),并發(fā)現(xiàn)在醫(yī)學(xué)和其他應(yīng)用中有用的新蛋白質(zhì)。
語言模型,真是「萬能」的
就像文本一樣,蛋白質(zhì)也可以被寫成字符序列。
其中,構(gòu)成蛋白質(zhì)的每個「字符」都對應(yīng)于20個標(biāo)準(zhǔn)化學(xué)元素之一——氨基酸。而每個氨基酸又都有不同的特性。
但想要讀懂這種「生物學(xué)語言」是個很大的挑戰(zhàn)。
雖然就像剛剛說的,蛋白質(zhì)序列和一段文字都可以寫成字符,但它們之間卻存在著深刻而根本的區(qū)別。
一方面,這些「字符」的不同組合方式的數(shù)量是個天文數(shù)字。例如,對于由200個氨基酸組成的蛋白質(zhì),有20^200種可能的序列,比目前可探索的宇宙中的原子數(shù)量還要多。
另一方面,氨基酸的每個序列都會根據(jù)物理定律折疊成一個三維形狀。而且,不是所有的序列都會折疊成連貫的結(jié)構(gòu),其中有很多會折疊成無序的形式,但正是這種讓人捉摸不透形狀決定了蛋白質(zhì)的功能。
舉個例子,如果一個位置出現(xiàn)了某種氨基酸,而這種氨基酸通常又會與另一個位置的某種氨基酸配對。那么,在之后的折疊結(jié)構(gòu)中,它們就很可能存在相互作用。
而人工智能,便可以通過觀察蛋白質(zhì)序列來可以學(xué)習(xí)和閱讀這些模式,進(jìn)而推斷出蛋白質(zhì)的實際結(jié)構(gòu)。
在2019年,Meta提出了語言模型學(xué)習(xí)蛋白質(zhì)屬性的證據(jù),例如它們的結(jié)構(gòu)和功能。
論文地址:https://www.pnas.org/doi/10.1073/pnas.2016239118
利用掩膜這種自監(jiān)督學(xué)習(xí)形式訓(xùn)練的模型,可以正確地填補(bǔ)一段文字中的空白,如「要不要__,這是________」。
通過這種方法,Meta在數(shù)百萬天然蛋白質(zhì)序列的基礎(chǔ)上上訓(xùn)練了一個語言模型,從而實現(xiàn)了填補(bǔ)蛋白質(zhì)序列中的空白,如「GL_KKE_AHY_G」。
實驗表明,這種模型經(jīng)過訓(xùn)練,可以發(fā)現(xiàn)關(guān)于蛋白質(zhì)的結(jié)構(gòu)和功能的信息。
2020年,Meta發(fā)布ESH1b,這是當(dāng)時最先進(jìn)的蛋白質(zhì)語言模型,目前已被用于各種應(yīng)用,包括幫助科學(xué)家預(yù)測新冠病毒的進(jìn)化,以及發(fā)現(xiàn)遺傳病的病因。
論文地址:https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1
現(xiàn)在,Meta擴(kuò)大了這種方法的規(guī)模,創(chuàng)建了下一代蛋白質(zhì)語言模型ESM-2,這是一個150億參數(shù)的大模型。
隨著模型從800萬個參數(shù)擴(kuò)展到1500萬個參數(shù),內(nèi)部表征中出現(xiàn)的信息能夠在原子分辨率下進(jìn)行三維結(jié)構(gòu)預(yù)測。
讀懂「蛋白質(zhì)語言」,讓生命更透明
從幾十億年前起,生物的進(jìn)化就形成了一種蛋白質(zhì)語言,這種語言可以通過簡單的構(gòu)件形成復(fù)雜而動態(tài)的分子機(jī)器。學(xué)習(xí)閱讀蛋白質(zhì)的語言是我們理解自然界的一個重要步驟。
AI可以為我們提供理解自然世界的新工具,就像顯微鏡一樣,讓我們以幾乎無限小的尺度來觀察世界,并開啟了對生命的全新理解。AI可以幫助我們理解自然界多樣性的巨大范圍,并以一種新的方式看待生物學(xué)。
目前,大部分的AI研究都是讓計算機(jī)以類似于人類的方式來理解世界。蛋白質(zhì)的語言是人類無法理解的,甚至最強(qiáng)大的計算工具也無法理解。
所以,Meta的這項工作的意義在于揭示了AI在跨領(lǐng)域時的巨大優(yōu)勢,即:在機(jī)器翻譯、自然語言理解、語音識別和圖像生成方面取得進(jìn)展的大型語言模型,也能夠?qū)W習(xí)有關(guān)生物學(xué)的深刻信息。
此次Meta公開這項工作,分享數(shù)據(jù)和成果,并以他人的見解為基礎(chǔ),希望這個大規(guī)模結(jié)構(gòu)圖集和快速蛋白質(zhì)折疊模型的發(fā)布,可以推動進(jìn)一步的科學(xué)進(jìn)步,使我們更好地了解周圍的世界。
參考資料:
https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog