Meta打造首個「蛋白質(zhì)宇宙」全景圖！用150億參數(shù)語言模型，預(yù)測了6億+蛋白質(zhì)結(jié)構(gòu)

作者：新智元 2022-11-02 13:41:46

在過去的幾十年里，隨著我們對生活在人類體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解，宏基因組學(xué)一直是一個非常活躍的領(lǐng)域。

?Meta在蛋白質(zhì)結(jié)構(gòu)的探索上又前進(jìn)了一步！

這次他們瞄準(zhǔn)的是更大的目標(biāo)領(lǐng)域：宏基因組學(xué)。

蛋白質(zhì)宇宙的「暗物質(zhì)」

根據(jù)NIH人類基因組研究所的解釋，宏基因組學(xué)（Metagenomics，又譯宏基因組學(xué)）研究從大宗樣品中的所有生物體（通常是微生物）中分離和分析的整個核苷酸序列的結(jié)構(gòu)和功能，通常用于研究特定的微生物群落，比如居住在人類皮膚上、土壤中或水樣中的微生物身上的蛋白質(zhì)。

由于宏基因組學(xué)的研究對象無所不包，遠(yuǎn)遠(yuǎn)超過了構(gòu)成動植物生命的蛋白質(zhì)，可以說是地球上最不為人知的蛋白質(zhì)。

為此，Meta AI用上了最新的大型語言模型、打造了一個超過6億個宏基因組結(jié)構(gòu)的數(shù)據(jù)庫，并提供一個API，讓科學(xué)家輕松檢索與工作相關(guān)的特定蛋白質(zhì)結(jié)構(gòu)。

論文地址：https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

Meta表示，解碼宏基因組結(jié)構(gòu)，有助于解開長期存在的人類進(jìn)化史之謎，幫助人類更有效地治愈疾病、凈化環(huán)境。

蛋白質(zhì)結(jié)構(gòu)預(yù)測，提速60倍！

宏基因組學(xué)主要研究如何從所有這些在環(huán)境中共存的生物體中獲得DNA，這有點像一盒拼圖，但并不只是一盒拼圖，實際上是所有10組較小的拼圖堆在一起，放在一個盒子里。

宏基因組學(xué)同時獲取這10種生物的基因組時，實際上是試圖同時解決10個謎題，了解同一個基因組盒子里的所有不同的拼圖。

正是這種結(jié)構(gòu)和生物作用的未知性，通過宏基因組學(xué)發(fā)現(xiàn)的新蛋白質(zhì)，甚至可以稱為蛋白質(zhì)宇宙的「暗物質(zhì)」。

近些年，基因測序方面的進(jìn)步讓編目數(shù)十億宏基因組蛋白質(zhì)序列成為可能。

然而，盡管已經(jīng)知道這些蛋白質(zhì)序列的存在，但想要進(jìn)一步了解它們的生物學(xué)特性，卻是一個巨大的挑戰(zhàn)。

為了要得到這些數(shù)以億計的蛋白質(zhì)序列結(jié)構(gòu)，預(yù)測速度的突破是至關(guān)重要的。

這個過程，即便是用目前最先進(jìn)的工具，再搭上一個大型研究機(jī)構(gòu)的計算資源，也可能需要數(shù)年時間。

于是，Meta訓(xùn)練了一個大型語言模型，來學(xué)習(xí)進(jìn)化模式，并直接從蛋白質(zhì)序列中端到端地生成準(zhǔn)確的結(jié)構(gòu)預(yù)測，在保持準(zhǔn)確性的同時，預(yù)測速度比當(dāng)前最先進(jìn)的方法快60倍。

事實上，借助于這種新的結(jié)構(gòu)預(yù)測能力，Meta在短短兩周內(nèi)用一個由大約2000個GPU組成的集群上，預(yù)測出了圖譜中超過6億個宏基因組蛋白質(zhì)的序列。

Meta發(fā)布的宏基因組圖譜名為ESM Atlas，幾乎涵蓋了整個宏基因組序列公共數(shù)據(jù)庫MGnify90的預(yù)測。

Meta表示，ESM Atlas是迄今為止最大的高分辨率預(yù)測結(jié)構(gòu)數(shù)據(jù)庫，比現(xiàn)有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫大3倍，而且是第一個全面和大規(guī)模地覆蓋宏基因組蛋白質(zhì)的數(shù)據(jù)庫。

這些蛋白質(zhì)結(jié)構(gòu)為了解自然界的廣泛性和多樣性提供了一個前所未有的視角，并有可能加速發(fā)現(xiàn)蛋白質(zhì)在醫(yī)學(xué)、綠色化學(xué)、環(huán)境應(yīng)用和可再生能源等領(lǐng)域的實際應(yīng)用。

此次用于預(yù)測蛋白質(zhì)結(jié)構(gòu)的新語言模型擁有150億個參數(shù)，是迄今為止最大的「蛋白質(zhì)語言模型」。

這個模型實際上是Meta今年7月發(fā)布的ESM Fold蛋白質(zhì)預(yù)測模型的延續(xù)。

在當(dāng)初ESMFold發(fā)布時，已經(jīng)和AlphaFold2、RoseTTAFold等主流蛋白質(zhì)模型不相上下。但ESMFold預(yù)測速度要比AlphaFold2快一個數(shù)量級！

一下說數(shù)量級可能不好理解三者之間速度的對比，看看下面這張圖就懂了。

而這次ESM Atlas數(shù)據(jù)庫的發(fā)布，更是讓150億參數(shù)的大語言模型有了最廣泛的用武之地。

由此，科學(xué)家便可以在數(shù)億個蛋白質(zhì)的規(guī)模上搜索和分析以前沒有被定性的結(jié)構(gòu)，并發(fā)現(xiàn)在醫(yī)學(xué)和其他應(yīng)用中有用的新蛋白質(zhì)。

語言模型，真是「萬能」的

就像文本一樣，蛋白質(zhì)也可以被寫成字符序列。

其中，構(gòu)成蛋白質(zhì)的每個「字符」都對應(yīng)于20個標(biāo)準(zhǔn)化學(xué)元素之一——氨基酸。而每個氨基酸又都有不同的特性。

但想要讀懂這種「生物學(xué)語言」是個很大的挑戰(zhàn)。

雖然就像剛剛說的，蛋白質(zhì)序列和一段文字都可以寫成字符，但它們之間卻存在著深刻而根本的區(qū)別。

一方面，這些「字符」的不同組合方式的數(shù)量是個天文數(shù)字。例如，對于由200個氨基酸組成的蛋白質(zhì)，有20^200種可能的序列，比目前可探索的宇宙中的原子數(shù)量還要多。

另一方面，氨基酸的每個序列都會根據(jù)物理定律折疊成一個三維形狀。而且，不是所有的序列都會折疊成連貫的結(jié)構(gòu)，其中有很多會折疊成無序的形式，但正是這種讓人捉摸不透形狀決定了蛋白質(zhì)的功能。

舉個例子，如果一個位置出現(xiàn)了某種氨基酸，而這種氨基酸通常又會與另一個位置的某種氨基酸配對。那么，在之后的折疊結(jié)構(gòu)中，它們就很可能存在相互作用。

而人工智能，便可以通過觀察蛋白質(zhì)序列來可以學(xué)習(xí)和閱讀這些模式，進(jìn)而推斷出蛋白質(zhì)的實際結(jié)構(gòu)。

在2019年，Meta提出了語言模型學(xué)習(xí)蛋白質(zhì)屬性的證據(jù)，例如它們的結(jié)構(gòu)和功能。

論文地址：https://www.pnas.org/doi/10.1073/pnas.2016239118

利用掩膜這種自監(jiān)督學(xué)習(xí)形式訓(xùn)練的模型，可以正確地填補(bǔ)一段文字中的空白，如「要不要__，這是________」。

通過這種方法，Meta在數(shù)百萬天然蛋白質(zhì)序列的基礎(chǔ)上上訓(xùn)練了一個語言模型，從而實現(xiàn)了填補(bǔ)蛋白質(zhì)序列中的空白，如「GL_KKE_AHY_G」。

實驗表明，這種模型經(jīng)過訓(xùn)練，可以發(fā)現(xiàn)關(guān)于蛋白質(zhì)的結(jié)構(gòu)和功能的信息。

2020年，Meta發(fā)布ESH1b，這是當(dāng)時最先進(jìn)的蛋白質(zhì)語言模型，目前已被用于各種應(yīng)用，包括幫助科學(xué)家預(yù)測新冠病毒的進(jìn)化，以及發(fā)現(xiàn)遺傳病的病因。

論文地址：https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1

現(xiàn)在，Meta擴(kuò)大了這種方法的規(guī)模，創(chuàng)建了下一代蛋白質(zhì)語言模型ESM-2，這是一個150億參數(shù)的大模型。

隨著模型從800萬個參數(shù)擴(kuò)展到1500萬個參數(shù)，內(nèi)部表征中出現(xiàn)的信息能夠在原子分辨率下進(jìn)行三維結(jié)構(gòu)預(yù)測。

讀懂「蛋白質(zhì)語言」，讓生命更透明

從幾十億年前起，生物的進(jìn)化就形成了一種蛋白質(zhì)語言，這種語言可以通過簡單的構(gòu)件形成復(fù)雜而動態(tài)的分子機(jī)器。學(xué)習(xí)閱讀蛋白質(zhì)的語言是我們理解自然界的一個重要步驟。

AI可以為我們提供理解自然世界的新工具，就像顯微鏡一樣，讓我們以幾乎無限小的尺度來觀察世界，并開啟了對生命的全新理解。AI可以幫助我們理解自然界多樣性的巨大范圍，并以一種新的方式看待生物學(xué)。

目前，大部分的AI研究都是讓計算機(jī)以類似于人類的方式來理解世界。蛋白質(zhì)的語言是人類無法理解的，甚至最強(qiáng)大的計算工具也無法理解。

所以，Meta的這項工作的意義在于揭示了AI在跨領(lǐng)域時的巨大優(yōu)勢，即：在機(jī)器翻譯、自然語言理解、語音識別和圖像生成方面取得進(jìn)展的大型語言模型，也能夠?qū)W習(xí)有關(guān)生物學(xué)的深刻信息。

此次Meta公開這項工作，分享數(shù)據(jù)和成果，并以他人的見解為基礎(chǔ)，希望這個大規(guī)模結(jié)構(gòu)圖集和快速蛋白質(zhì)折疊模型的發(fā)布，可以推動進(jìn)一步的科學(xué)進(jìn)步，使我們更好地了解周圍的世界。

參考資料：

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog

責(zé)任編輯：武曉燕來源：新智元

蛋白質(zhì)宇宙語言模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta打造首個「蛋白質(zhì)宇宙」全景圖！用150億參數(shù)語言模型，預(yù)測了6億+蛋白質(zhì)結(jié)構(gòu)

蛋白質(zhì)結(jié)構(gòu)預(yù)測，提速60倍！

語言模型，真是「萬能」的

讀懂「蛋白質(zhì)語言」，讓生命更透明