成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta打造首個「蛋白質(zhì)宇宙」全景圖!用150億參數(shù)語言模型,預(yù)測了6億+蛋白質(zhì)結(jié)構(gòu)

人工智能
在過去的幾十年里,隨著我們對生活在人類體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學(xué)一直是一個非常活躍的領(lǐng)域。

?Meta在蛋白質(zhì)結(jié)構(gòu)的探索上又前進(jìn)了一步!

這次他們瞄準(zhǔn)的是更大的目標(biāo)領(lǐng)域:宏基因組學(xué)。

圖片

蛋白質(zhì)宇宙的「暗物質(zhì)」

根據(jù)NIH人類基因組研究所的解釋,宏基因組學(xué)(Metagenomics,又譯宏基因組學(xué))研究從大宗樣品中的所有生物體(通常是微生物)中分離和分析的整個核苷酸序列的結(jié)構(gòu)和功能,通常用于研究特定的微生物群落,比如居住在人類皮膚上、土壤中或水樣中的微生物身上的蛋白質(zhì)。

在過去的幾十年里,隨著我們對生活在人類體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學(xué)一直是一個非常活躍的領(lǐng)域。

由于宏基因組學(xué)的研究對象無所不包,遠(yuǎn)遠(yuǎn)超過了構(gòu)成動植物生命的蛋白質(zhì),可以說是地球上最不為人知的蛋白質(zhì)。

為此,Meta AI用上了最新的大型語言模型、打造了一個超過6億個宏基因組結(jié)構(gòu)的數(shù)據(jù)庫,并提供一個API,讓科學(xué)家輕松檢索與工作相關(guān)的特定蛋白質(zhì)結(jié)構(gòu)。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

Meta表示,解碼宏基因組結(jié)構(gòu),有助于解開長期存在的人類進(jìn)化史之謎,幫助人類更有效地治愈疾病、凈化環(huán)境。

蛋白質(zhì)結(jié)構(gòu)預(yù)測,提速60倍!

宏基因組學(xué)主要研究如何從所有這些在環(huán)境中共存的生物體中獲得DNA,這有點像一盒拼圖,但并不只是一盒拼圖,實際上是所有10組較小的拼圖堆在一起,放在一個盒子里。

宏基因組學(xué)同時獲取這10種生物的基因組時,實際上是試圖同時解決10個謎題,了解同一個基因組盒子里的所有不同的拼圖。

正是這種結(jié)構(gòu)和生物作用的未知性,通過宏基因組學(xué)發(fā)現(xiàn)的新蛋白質(zhì),甚至可以稱為蛋白質(zhì)宇宙的「暗物質(zhì)」。

圖片

近些年,基因測序方面的進(jìn)步讓編目數(shù)十億宏基因組蛋白質(zhì)序列成為可能。

然而,盡管已經(jīng)知道這些蛋白質(zhì)序列的存在,但想要進(jìn)一步了解它們的生物學(xué)特性,卻是一個巨大的挑戰(zhàn)。

圖片

為了要得到這些數(shù)以億計的蛋白質(zhì)序列結(jié)構(gòu),預(yù)測速度的突破是至關(guān)重要的。

這個過程,即便是用目前最先進(jìn)的工具,再搭上一個大型研究機(jī)構(gòu)的計算資源,也可能需要數(shù)年時間。

于是,Meta訓(xùn)練了一個大型語言模型,來學(xué)習(xí)進(jìn)化模式,并直接從蛋白質(zhì)序列中端到端地生成準(zhǔn)確的結(jié)構(gòu)預(yù)測,在保持準(zhǔn)確性的同時,預(yù)測速度比當(dāng)前最先進(jìn)的方法快60倍。

事實上,借助于這種新的結(jié)構(gòu)預(yù)測能力,Meta在短短兩周內(nèi)用一個由大約2000個GPU組成的集群上,預(yù)測出了圖譜中超過6億個宏基因組蛋白質(zhì)的序列。

圖片

Meta發(fā)布的宏基因組圖譜名為ESM Atlas,幾乎涵蓋了整個宏基因組序列公共數(shù)據(jù)庫MGnify90的預(yù)測。

Meta表示,ESM Atlas是迄今為止最大的高分辨率預(yù)測結(jié)構(gòu)數(shù)據(jù)庫,比現(xiàn)有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫大3倍,而且是第一個全面和大規(guī)模地覆蓋宏基因組蛋白質(zhì)的數(shù)據(jù)庫。

這些蛋白質(zhì)結(jié)構(gòu)為了解自然界的廣泛性和多樣性提供了一個前所未有的視角,并有可能加速發(fā)現(xiàn)蛋白質(zhì)在醫(yī)學(xué)、綠色化學(xué)、環(huán)境應(yīng)用和可再生能源等領(lǐng)域的實際應(yīng)用。

此次用于預(yù)測蛋白質(zhì)結(jié)構(gòu)的新語言模型擁有150億個參數(shù),是迄今為止最大的「蛋白質(zhì)語言模型」。

這個模型實際上是Meta今年7月發(fā)布的ESM Fold蛋白質(zhì)預(yù)測模型的延續(xù)。

在當(dāng)初ESMFold發(fā)布時,已經(jīng)和AlphaFold2、RoseTTAFold等主流蛋白質(zhì)模型不相上下。但ESMFold預(yù)測速度要比AlphaFold2快一個數(shù)量級!

一下說數(shù)量級可能不好理解三者之間速度的對比,看看下面這張圖就懂了。

圖片

而這次ESM Atlas數(shù)據(jù)庫的發(fā)布,更是讓150億參數(shù)的大語言模型有了最廣泛的用武之地。

由此,科學(xué)家便可以在數(shù)億個蛋白質(zhì)的規(guī)模上搜索和分析以前沒有被定性的結(jié)構(gòu),并發(fā)現(xiàn)在醫(yī)學(xué)和其他應(yīng)用中有用的新蛋白質(zhì)。

語言模型,真是「萬能」的

就像文本一樣,蛋白質(zhì)也可以被寫成字符序列。

其中,構(gòu)成蛋白質(zhì)的每個「字符」都對應(yīng)于20個標(biāo)準(zhǔn)化學(xué)元素之一——氨基酸。而每個氨基酸又都有不同的特性。

但想要讀懂這種「生物學(xué)語言」是個很大的挑戰(zhàn)。

圖片

雖然就像剛剛說的,蛋白質(zhì)序列和一段文字都可以寫成字符,但它們之間卻存在著深刻而根本的區(qū)別。

一方面,這些「字符」的不同組合方式的數(shù)量是個天文數(shù)字。例如,對于由200個氨基酸組成的蛋白質(zhì),有20^200種可能的序列,比目前可探索的宇宙中的原子數(shù)量還要多。

另一方面,氨基酸的每個序列都會根據(jù)物理定律折疊成一個三維形狀。而且,不是所有的序列都會折疊成連貫的結(jié)構(gòu),其中有很多會折疊成無序的形式,但正是這種讓人捉摸不透形狀決定了蛋白質(zhì)的功能。

舉個例子,如果一個位置出現(xiàn)了某種氨基酸,而這種氨基酸通常又會與另一個位置的某種氨基酸配對。那么,在之后的折疊結(jié)構(gòu)中,它們就很可能存在相互作用。

而人工智能,便可以通過觀察蛋白質(zhì)序列來可以學(xué)習(xí)和閱讀這些模式,進(jìn)而推斷出蛋白質(zhì)的實際結(jié)構(gòu)。

在2019年,Meta提出了語言模型學(xué)習(xí)蛋白質(zhì)屬性的證據(jù),例如它們的結(jié)構(gòu)和功能。

圖片

論文地址:https://www.pnas.org/doi/10.1073/pnas.2016239118

利用掩膜這種自監(jiān)督學(xué)習(xí)形式訓(xùn)練的模型,可以正確地填補(bǔ)一段文字中的空白,如「要不要__,這是________」。

通過這種方法,Meta在數(shù)百萬天然蛋白質(zhì)序列的基礎(chǔ)上上訓(xùn)練了一個語言模型,從而實現(xiàn)了填補(bǔ)蛋白質(zhì)序列中的空白,如「GL_KKE_AHY_G」。

實驗表明,這種模型經(jīng)過訓(xùn)練,可以發(fā)現(xiàn)關(guān)于蛋白質(zhì)的結(jié)構(gòu)和功能的信息。

2020年,Meta發(fā)布ESH1b,這是當(dāng)時最先進(jìn)的蛋白質(zhì)語言模型,目前已被用于各種應(yīng)用,包括幫助科學(xué)家預(yù)測新冠病毒的進(jìn)化,以及發(fā)現(xiàn)遺傳病的病因。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1

現(xiàn)在,Meta擴(kuò)大了這種方法的規(guī)模,創(chuàng)建了下一代蛋白質(zhì)語言模型ESM-2,這是一個150億參數(shù)的大模型。

隨著模型從800萬個參數(shù)擴(kuò)展到1500萬個參數(shù),內(nèi)部表征中出現(xiàn)的信息能夠在原子分辨率下進(jìn)行三維結(jié)構(gòu)預(yù)測。

讀懂「蛋白質(zhì)語言」,讓生命更透明

從幾十億年前起,生物的進(jìn)化就形成了一種蛋白質(zhì)語言,這種語言可以通過簡單的構(gòu)件形成復(fù)雜而動態(tài)的分子機(jī)器。學(xué)習(xí)閱讀蛋白質(zhì)的語言是我們理解自然界的一個重要步驟。

AI可以為我們提供理解自然世界的新工具,就像顯微鏡一樣,讓我們以幾乎無限小的尺度來觀察世界,并開啟了對生命的全新理解。AI可以幫助我們理解自然界多樣性的巨大范圍,并以一種新的方式看待生物學(xué)。

目前,大部分的AI研究都是讓計算機(jī)以類似于人類的方式來理解世界。蛋白質(zhì)的語言是人類無法理解的,甚至最強(qiáng)大的計算工具也無法理解。

所以,Meta的這項工作的意義在于揭示了AI在跨領(lǐng)域時的巨大優(yōu)勢,即:在機(jī)器翻譯、自然語言理解、語音識別和圖像生成方面取得進(jìn)展的大型語言模型,也能夠?qū)W習(xí)有關(guān)生物學(xué)的深刻信息。

此次Meta公開這項工作,分享數(shù)據(jù)和成果,并以他人的見解為基礎(chǔ),希望這個大規(guī)模結(jié)構(gòu)圖集和快速蛋白質(zhì)折疊模型的發(fā)布,可以推動進(jìn)一步的科學(xué)進(jìn)步,使我們更好地了解周圍的世界。

參考資料:

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2022-12-23 15:04:33

Meta模型

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2022-11-02 13:42:08

AI語言模型

2023-07-06 13:23:49

2023-07-06 16:59:56

英特爾

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2025-02-04 11:11:07

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2024-06-26 13:21:50

2023-08-08 10:17:16

人工智能

2022-10-08 12:38:23

模型開源

2020-10-26 10:51:09

人工智能AI語言

2023-07-18 09:54:43

模型語言

2023-07-13 12:53:02

FrameDiffAI

2022-07-28 19:31:39

AlphabetDeepMind擴(kuò)展數(shù)據(jù)庫

2024-04-22 07:20:00

訓(xùn)練開源

2021-11-22 09:39:21

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2022-12-25 13:36:47

論文

2024-08-26 12:43:46

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩精品在线看 | 91精品国产综合久久精品图片 | 在线看一区二区 | 国产欧美精品一区 | 国产精品一区二区三区在线播放 | 日韩精品视频在线观看一区二区三区 | 欧洲亚洲视频 | 久久精品 | caoporn国产精品免费公开 | 日韩在线视频免费观看 | 国产日韩欧美一区二区 | 欧美视频免费在线观看 | 一区二区三区国产 | 日本爱爱视频 | 全部免费毛片在线播放网站 | 久久久久久久久淑女av国产精品 | 免费成人高清 | 久久不卡 | 久久精品国产99国产精品 | 国产一区 | 夜夜爽99久久国产综合精品女不卡 | 天天躁日日躁xxxxaaaa | 天天综合网天天综合色 | 国产综合第一页 | 黄a免费网络 | 欧美视频第三页 | 男人天堂视频在线观看 | 成人免费淫片aa视频免费 | 国产免费一区二区 | 日本一本视频 | 国产午夜精品久久久久免费视高清 | 国产91在线播放 | 视频二区在线观看 | 亚洲一区二区在线播放 | 免费a v网站 | 精品国产女人 | 艹逼网| 啪视频在线 | 日韩精品一区二区三区在线播放 | 精品免费国产 | 国产999精品久久久久久 |