成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

哈佛、哥大開源1600萬組蛋白質(zhì)序列,解決AlphaFold 2訓練數(shù)據(jù)私有難題!

人工智能 新聞
這個叫OpenProteinSet的開源數(shù)據(jù)集,提供1600萬個開源蛋白質(zhì)多序列對齊(MSA)和相關數(shù)據(jù)。它涵蓋了所有蛋白質(zhì)數(shù)據(jù)庫的蛋白質(zhì)和各種UniProt集群,可以實現(xiàn)廣泛的AI模型訓練。

蛋白質(zhì)是生命的主力軍,了解它們的序列和結(jié)構(gòu),是設計新酶、開發(fā)救命藥物等生物學和醫(yī)學挑戰(zhàn)的關鍵。

DeepMind的AlphaFold 2,能夠以前所未有的準確性預測蛋白質(zhì)結(jié)構(gòu)。

然而,由于缺乏開放的訓練數(shù)據(jù),這一領域的進展被嚴重阻礙。

但來自哈佛大學、哈佛醫(yī)學院、哥倫比亞大學、紐約大學和Flatiron Institute的研究者,引入了一個開源數(shù)據(jù)庫。

這個名為OpenProteinSet的開源數(shù)據(jù)庫,可以通過大規(guī)模提供蛋白質(zhì)比對數(shù)據(jù),來大大改善這種狀況。

它提供的數(shù)據(jù)集,和用于訓練AlphaFold 2的數(shù)據(jù)集質(zhì)量相同。

因為AlphaFold 2,MSA的實用性爆炸性增長

蛋白質(zhì)的功能,就編碼在氨基酸序列中。

在進化過程中,這些序列會積累一些微小的變化,而蛋白質(zhì)的整體結(jié)構(gòu)和功能卻一直保持不變。

多序列對齊(MSA)是一組和進化相關的蛋白質(zhì)序列,通過插入間隙進行對齊,使匹配的氨基酸最終出現(xiàn)在同一列中。

通過分析這些MSA中的模式,可以深入了解蛋白質(zhì)的結(jié)構(gòu)和功能。

MSA的每一行,都是一個蛋白質(zhì)序列。蛋白質(zhì)是由20個氨基酸(或「殘基」)組成的一維字符串,每個氨基酸或「殘基」由一個字母表示。

目標或「查詢」 蛋白質(zhì)在MSA的第一行中給出。后續(xù)行是根據(jù)與查詢序列的相似性,從大型序列數(shù)據(jù)庫中檢索到的進化相關(「同源」) 蛋白質(zhì)。

為了改進比對、適應長度隨時間變化的同源序列,MSA比對軟件可以在同源序列中插入「缺口」(此處用破折號表示)或刪除殘基。

MSA中同源序列的數(shù)量(「深度」)及其多樣性,都有助于MSA的實用性。

圖片MSA引物

長期以來,MSA對蛋白質(zhì)研究都至關重要,不過在2021年,因為AlphaFold 2的出現(xiàn),MSA的實用性呈現(xiàn)了爆炸性增長。

通過MSA,AlphaFold 2能夠以近乎實驗級的準確性預測蛋白質(zhì)結(jié)構(gòu)。

然而有一個問題:雖然AlphaFold 2是開源的,但它的訓練數(shù)據(jù)仍然是私有的。

這樣做的計算成本很高。根據(jù)目標序列長度和正在搜索的序列數(shù)據(jù)庫的大小生成一個具有高靈敏度的MSA,可能需要幾個小時。

這樣,蛋白質(zhì)機器學習和生物信息學的前沿研究除了少數(shù)大型研究團隊外,其他所有人都無法訪問。

1600萬個MSA全部開源

因此,團隊提出了OpenProteinSet,這是一個在AlphaFold 2及其以上規(guī)模訓練生物信息學的模型。

它包含了AlphaFold 2未發(fā)布的訓練集,包括所有唯一的蛋白質(zhì)數(shù)據(jù)庫(PDB)鏈的MSAs和結(jié)構(gòu)模板。

現(xiàn)在,OpenProteinSet提供了1600萬個MSA和相關數(shù)據(jù),并且全部開源。

PDB是實驗確定的蛋白質(zhì)結(jié)構(gòu)的權(quán)威數(shù)據(jù)庫,而OpenProteinSet包括PDB中所有140,000種蛋白質(zhì)的MSA。

它甚至還包括來自UniProt知識庫的序列,該序列按相似性聚類。

對于PDB蛋白質(zhì),OpenProteinSet能夠提供來自多個序列數(shù)據(jù)庫的原始MSA。

通過搜索PDB,它還能找到結(jié)構(gòu)相似的蛋白質(zhì)。

AlphaFold 2預測的結(jié)構(gòu),包括270,000個不同的UniProt集群。

使用開源數(shù)據(jù)集重新創(chuàng)建AlphaFold 2

開發(fā)者還會使用OpenProteinSet來訓練OpenFold,這是AlphaFold 2的一個開放版本。

他們發(fā)現(xiàn),OpenFold的性能與DeepMind的原始數(shù)據(jù)相當,證明了這種開放數(shù)據(jù)的充分性。

團隊表示,「通過OpenProteinSet,我們大大提高了分子機器學習社區(qū)可用的預計算MSA的數(shù)量和質(zhì)量,」

該數(shù)據(jù)集可直接應用于結(jié)構(gòu)生物學的各種任務。

實驗方法

OpenProteinSet由超過1600萬個獨特的MSAs組成,這些MSAs是根據(jù)AIphaFold2論文中的程序生成的。

這一計數(shù)包括截至2022年4月PDB中所有14萬個唯一鏈的MSAs,以及針對同一數(shù)據(jù)庫為Uniclust30中的每個序列集群計算的1,600萬個MSAs。

從后一組中,研究者確定了270,000個最大多樣性代表性集群,比如可以適用于AphaFold2訓練過程中的自我蒸餾集。

對于每個PDB鏈,研究者使用了不同的對齊工具和序列數(shù)據(jù)庫計算三個MSAs。

使用OpenFold中的腳本,可以從公開可用的PDBmmCIF文件中,檢索相應的結(jié)構(gòu)。

與用于生成AIphaFold2訓練集的過程一樣,研究者更改了MSA生成工具的一些默認選項。

隨后,產(chǎn)生了大約1600萬個MSAs,每個集群一個。

為了創(chuàng)建一個不同的、深度的MSAs子集,研究者通過迭代去除代表性鏈出現(xiàn)在其他MSAs中最多的MSAs。

這樣重復,直到每個代表鏈只出現(xiàn)在它自己的MSA中。

為了與對應的(未發(fā)布的)AlphaFold 2集進行奇偶性檢驗,研究者進一步刪除了代表序列大于1024個殘基或小于200個殘基的簇。

最后,他們剔除了相應MSAs少于200個序列的簇,只剩下270,262個MSAs。

總的來說,OpenProteinSet中的MSAs代表了超過400萬小時的計算。

OpenProteinSet大大提高了分子機器學習社區(qū)可用的預計算MSAs的數(shù)量和質(zhì)量,它可以直接應用于結(jié)構(gòu)生物學中的各種任務。

隨著模型對數(shù)據(jù)的需求越來越大,像OpenProteimnSet這樣的數(shù)據(jù)庫既可以作為多模態(tài)語言模型的生物知識寶庫,也可以作為多模態(tài)訓練本身的實證研究工具。

總之,OpenProteinSet將進一步推動生物信息學、蛋白質(zhì)機器學習等領域的研究。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-07-24 10:21:46

模型人工智能深度學習

2024-04-22 07:20:00

訓練開源

2023-06-05 15:41:10

AI算法

2022-02-14 00:04:24

AI蛋白質(zhì)結(jié)構(gòu)

2023-07-06 16:59:56

英特爾

2023-07-06 13:23:49

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2021-09-09 17:57:04

AI

2022-06-21 11:48:13

AI隱私計算

2024-08-26 12:43:46

2021-07-21 17:13:17

DeepMind開源AlphaFold 2

2023-03-02 13:49:25

開發(fā)蛋白質(zhì)

2023-10-04 09:23:21

微軟開發(fā)

2022-02-22 16:33:58

深度學習人工智能模型

2024-06-26 13:21:50

2021-07-30 15:36:54

開源技術 軟件

2022-11-02 13:41:46

2022-03-07 14:45:21

昇思MindSpore開源

2022-06-23 15:48:02

AI開源GitHub
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线成人av | 黄色网址在线免费观看 | 婷婷在线网站 | 精品一区二区三区电影 | 人人干人人玩 | 中国一级特黄真人毛片 | 国产精品乱码一区二区三区 | 人人擦人人 | 五月婷婷丁香婷婷 | 中文字幕精品一区 | 91av国产在线视频 | 成人精品在线观看 | 操人网站| 精品伦精品一区二区三区视频 | 一区二区三区精品在线视频 | 日韩中文字幕免费在线观看 | av黄色在线 | 国产成人精品一区二区三区在线 | 日韩欧美在线视频一区 | 久久精品二区亚洲w码 | 精品1区2区3区4区 | 91一区二区三区 | 国产精品色综合 | 亚洲不卡一 | 在线成人精品视频 | 精品不卡 | xxx.在线观看 | 亚洲综合在线视频 | 欧美精品日韩精品 | 青青草av网站 | 亚洲成人999 | 中文字幕在线观看第一页 | 欧美国产日韩在线观看 | 色网在线看 | 一区二区免费视频 | 九九久久精品 | 久久99视频免费观看 | 亚洲网址| 精品中文字幕一区二区三区 | 免费看黄色片 | 欧美日韩成人网 |