成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!

發(fā)布于 2024-5-30 10:33
瀏覽
0收藏

把169861個生物物種數(shù)據(jù)裝進大模型,大模型竟get到了生物中心法則的奧秘——

不僅能識別DNA、RNA與相應蛋白質(zhì)之間的內(nèi)在聯(lián)系,在基因分類、蛋白質(zhì)相互作用預測、熱穩(wěn)定性預測等7種不同類型任務中也能比肩SOTA模型。


模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。


相比AlphaFold 3因未開源遭到650多名學者聯(lián)名批評,LucaOne訓練推理代碼及相關(guān)數(shù)據(jù)目前均已開源

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

LucaOne是目前首個全生物系統(tǒng)的核酸語言+蛋白語言的融合基座模型。換句話說,LucaOne由核酸(DNA、RNA)和蛋白質(zhì)序列聯(lián)合訓練而來。


通過一系列實驗,研究人員發(fā)現(xiàn)它能廣泛適用各種下游任務。


在含13個物種、關(guān)系對總數(shù)量為24000的核酸序列和其對應蛋白的正負樣本數(shù)據(jù)集中,LucaOne提供表征的模型達到0.85的預測準確率


遠高于目前業(yè)內(nèi)最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


其他任務如針對流感H3N2病毒疫苗有效性(免疫逃逸風險)的預測,LucaOne準確率可達100%?

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

量子位也聯(lián)系到了論文一作,聊了聊LucaOne的實現(xiàn)細節(jié),以及AI for Science在生物科學領(lǐng)域的發(fā)展。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

核酸和蛋白質(zhì)序列聯(lián)合訓練

總的來說,LucaOne圍繞中心法則的數(shù)據(jù)進行構(gòu)建,能夠?qū)W習到中心法則背后的原理和邏輯,可提取基因轉(zhuǎn)錄和蛋白質(zhì)翻譯過程中固有的復雜模式和關(guān)系,在使用層面相當于提供了一個對DNA、 RNA、蛋白質(zhì)的無差別表征


PS:


分子生物學的中心法則即遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質(zhì)的過程,這一過程包括DNA的復制、RNA的轉(zhuǎn)錄和蛋白質(zhì)的翻譯。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

展開來看,LucaOne整個工作流是這樣嬸兒的:

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

從技術(shù)上講,構(gòu)建LucaOne的難點首先是數(shù)據(jù)集的構(gòu)建


在生命科學領(lǐng)域,真實存在的只是分子數(shù)據(jù)。


例如,核酸的表示方式是4種堿基。DNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白質(zhì)由氨基酸組成,自然界存在的氨基酸大約有20-22種,每種氨基酸也用一個字母表示。


而人類為理解這些分子的性質(zhì)與作用,通常需要添加很多注釋信息,包括一些圖片的注釋。注釋信息屬于人類語言,自然界本身不存在,從而就形成了一種生命科學領(lǐng)域的從“自然界”語言到“人類文化”語言的跨模態(tài)。


因此,LucaOne的預訓練數(shù)據(jù)不僅包含DNA、RNA、蛋白質(zhì)這三類分子的序列(核苷酸序列或者氨基酸序列)數(shù)據(jù),同時還使用了這些分子的注釋信息


總共涵蓋了169861個物種的核酸和蛋白質(zhì)序列和注釋信息,分為兩部分:

核酸數(shù)據(jù)集來自RefSeq,包括核酸序列及注釋;蛋白質(zhì)數(shù)據(jù)集來自InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白質(zhì)序列、注釋和三維結(jié)構(gòu)。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

據(jù)介紹,在數(shù)據(jù)集的收集處理方面,阿里云飛天實驗室與中山大學、浙江大學等多個團隊進行了合作。


另一大難點是生物分子序列的預測和大語言模型預測下一個token不同,在模型訓練階段還需要一些專門的設計。


LucaOne采用了Transformer-Encoder架構(gòu),由20個編碼器塊組成,嵌入維度為2560,總參數(shù)量1.8B


研究人員在此基礎(chǔ)上進行了一些優(yōu)化:

  • 使用Pre-Layer歸一化代替Post-Layer歸一化,以便更好地訓練深層網(wǎng)絡;
  • 使用旋轉(zhuǎn)位置嵌入(RoPE)代替?zhèn)鹘y(tǒng)絕對位置編碼,以推理更長序列。


此外,在數(shù)據(jù)處理和模型訓練過程中,核苷酸和氨基酸用統(tǒng)一的方式進行表征或編碼。通過token-type embeddings實現(xiàn)核酸和蛋白質(zhì)序列的混合訓練,區(qū)分核苷酸(0)和氨基酸(1)。


在兩個自監(jiān)督掩碼任務的基礎(chǔ)上,研究人員還增加了八個半監(jiān)督預訓練任務,通過序列注釋增強模型對數(shù)據(jù)的理解。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

已能理解基因和蛋白對應關(guān)系

為驗證核酸和蛋白質(zhì)數(shù)據(jù)混合訓練的優(yōu)勢,研究人員分別使用核酸和蛋白質(zhì)數(shù)據(jù)單獨訓練了兩個額外的模型——LucaOne-Gene和LucaOne-Prot,并使用相同的5.6M checkpoint在分子生物學中心法則任務中進行了比較。


使用t-SNE可視化說明,與其他模型相比,LucaOne的嵌入在兩個數(shù)據(jù)集上呈現(xiàn)出更緊密的聚類,可能包含了更多上下文信息。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

為驗證LucaOne通過廣泛學習基因及蛋白語言,已具備對生物學中心法則里的基因和蛋白對應關(guān)系的理解能力,研究人員設計了一個數(shù)據(jù)集及評測任務。


選取13個物種的核酸序列和其對應蛋白的正負樣本數(shù)據(jù)集,關(guān)系對總數(shù)量為24000,其中正負樣本比例1:2。基因序列數(shù)據(jù)是其在基因組的原始數(shù)據(jù),包括了大量的非編碼區(qū)(內(nèi)含子,調(diào)控元件,及“垃圾片段”等)。


采用訓練:驗證:測試比例為:4:3:25;即僅3200組數(shù)據(jù)作為訓練,18750組數(shù)據(jù)作為測試集來預測其核酸序列是否可以翻譯成數(shù)據(jù)組里的蛋白序列


結(jié)果LucaOne提供表征的模型達到0.85的預測準確率,不僅遠高于目前業(yè)內(nèi)最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也明顯高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


這表明這兩種大分子數(shù)據(jù)聯(lián)合訓練可以顯著增強模型的學習效果。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

有意思的是,研究人員發(fā)現(xiàn)在模型細分表現(xiàn)里,LucaOne海鞘這種生物里的預測表現(xiàn)比較差(其他模型也類似),進一步分析海鞘的特性表明,因為進化適應性等各種原因,海鞘利用中心法則的具體規(guī)則-密碼子偏好性,和其他生物明顯不同。


他們猜測LucaOne可能用的是另一種中心法則語法“方言”,而這種“方言”在訓練數(shù)據(jù)集里僅有100條,因此模型沒有很好的學習到這種規(guī)則。


在其他下游任務中,LucaOne對不同類型輸入的下游任務也廣泛適用。


具體來說,研究人員評估了7個不同類型的下游生物計算任務,包括:

  • 單序列任務:GenusTax(屬分類)、ncRNAFam(ncRNA家族分類)、ProtLoc(蛋白質(zhì)亞細胞定位)、ProtStab(蛋白質(zhì)熱穩(wěn)定性預測)
  • 同源序列對任務:InfA(流感血凝素分析)、PPI(蛋白質(zhì)相互作用預測)
  • 異源序列對任務:ncRPI(ncRNA-蛋白質(zhì)相互作用預測)


為簡化下游任務,研究人員使用了三種對應不同輸入形式的簡單網(wǎng)絡架構(gòu):

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

結(jié)果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI任務上,LucaOne顯著優(yōu)于其他模型;ProtLoc任務上,LucaOne與ESM2-3B相當,優(yōu)于SOTA;ncRPI任務上,LucaOne優(yōu)于DNABert2+ESM2-3B的組合:

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

值得一提的是,在流感H3N2病毒的免疫逃逸風險預測中,研究人員采用了1968年至2010年間分離的大規(guī)模H3N2病毒HA序列數(shù)據(jù)進行了基于流感毒株抗原關(guān)系的預測模型。


通過病毒HA抗原序列來預測其是否會誘導HIA實驗的血凝現(xiàn)象,進而預測其是否在特定人群中會發(fā)生免疫逃逸。

AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!-AI.x社區(qū)

要知道,目前預防與控制流感最有效的方法是接種流感疫苗,但是由于流感病毒極快的變異速度,導致不能及時與準確地推薦與流行病毒相匹配的流感疫苗株。根據(jù)WHO和CDC的監(jiān)測,流感疫苗的有效性在40%-60%之間。因此準確預測流行毒株,判斷免疫逃逸風險是一個重要且困難的命題。


研究人員使用基于LucaOne+一層感知機的模型達到了100%的準確率。


這也說明LucaOne學習的大量核酸序列信息,包括大量其他病毒序列,為計算特定任務提供了很好的信息補充。


更多細節(jié),感興趣的家人們可查看原論文。

“Science for AI”

如前文所述,LucaOne背后開發(fā)團隊來自阿里云飛天實驗室LucaTeam,LucaTeam也與多個團隊展開了深度合作。


中山大學醫(yī)學院施莽教授及其團隊參與了LucaOne模型的數(shù)據(jù)設計與驗證。施莽教授認為:

LucaOne是一項極為重要的嘗試。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne確實能夠更有效地學習中心法則中核酸與蛋白質(zhì)之間的對應關(guān)系。


中國醫(yī)學科學院北京協(xié)和醫(yī)學院病原生物學研究所所長、美國微生物科學院會士舒躍龍教授及其團隊參與了LucaOne在流感病毒方面的分析與驗證工作。舒躍龍教授表示:

將前沿的AI技術(shù)與病原生物學相結(jié)合具有重大的科學意義和社會價值。通過這種緊密的跨學科協(xié)作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規(guī)律,為傳染病防控和生物安全做出更大的貢獻。


此外,論文一作賀勇是阿里云飛天實驗室生物計算高級算法專家,我們也就LucaOne與其展開聊了聊AI for Science在生物科學領(lǐng)域的發(fā)展。


在他看來,AI for Science在生物科學領(lǐng)域正處于剛起步的階段,考慮到AI可解釋性的問題,基本上現(xiàn)在他們還只是把AI當做一個工具,但同時現(xiàn)在是發(fā)展AI for Science的一個很好的時間節(jié)點。

因為現(xiàn)在測序技術(shù)發(fā)展非常迅速,測序成本下降很多,分子序列數(shù)據(jù)很容易就能獲得。有了數(shù)據(jù)大量的積累,就可以數(shù)據(jù)驅(qū)動的AI for Science相關(guān)工作。


不過,目前的局限在于測序得到還是分子的序列數(shù)據(jù),而真實世界每個分子的存在是一個空間結(jié)構(gòu),這可能就需要更復雜的模型來處理。


而不同學科間的研究方法不同、探索微觀世界也受限于目前的設備技術(shù),賀勇認為人類對生物科學這個領(lǐng)域的認識目前也只是冰山一角,還無法從全局角度構(gòu)建一個全面通用的系統(tǒng)。


最后他還補充道:

目前大家對AI for Science越來越重視,相當于用AI去解決具體的問題。我想接下來還應該回過頭來看Science能為AI帶來什么?解決具體問題是第一步,最后通過問題反哺技術(shù)本身其實可能也是應該考慮的。


論文鏈接:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1
GitHub鏈接:https://github.com/LucaOne


本文轉(zhuǎn)自量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/6EUwsy5k3j1v8wdjz7RHjA??

收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 91久久精品一区 | 国产91久久精品一区二区 | 在线中文字幕亚洲 | 91精品国产色综合久久不卡98 | 久久久久免费精品国产小说色大师 | 国产日韩精品一区二区 | 欧美日韩精品久久久免费观看 | 欧美在线视频一区 | 一级黄色片在线免费观看 | 亚洲a在线视频 | 日本特黄a级高清免费大片 成年人黄色小视频 | 成人精品一区二区三区中文字幕 | 羞羞视频网站免费看 | 中文字幕精品视频在线观看 | 欧美国产日韩在线 | 欧美一级二级三级 | 99视频在线免费观看 | 国产精品久久久久久久久久不蜜臀 | 久久久久久久久毛片 | 国产精品观看 | 成人午夜免费福利视频 | 久久国产精品视频观看 | 国产1区 | 中文在线一区二区 | 亚洲一区二区三区在线免费观看 | www.国产日本| 欧美性网 | 成人亚洲一区 | 国产精品久久久爽爽爽麻豆色哟哟 | 日日操日日干 | 免费在线观看一区二区 | 欧美精品中文字幕久久二区 | av香港经典三级级 在线 | 久久综合九九 | 亚洲国产一 | 91亚洲精| 中文字幕 在线观看 | 欧美专区在线 | 涩涩导航 | 欧美日韩在线播放 | 欧美情趣视频 |