成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模擬5億年自然進化史,全新蛋白質大模型ESM3誕生!前Meta老將力作LeCun轉贊

人工智能 新聞
能抗衡AlphaFold 3的生命科學大模型終于出現了。初創公司Evolutionary Scale AI發布了他們最新的98B參數蛋白質語言模型ESM3。不僅支持序列、結構、功能的all-to-all推理,團隊還在實驗中發現,它設計的新蛋白質相當于模擬自然界5億年的進化。

繼AlphaFold 3更新后,我們又看到了一個生命科學領域的大模型ESM3。

模型開發團隊來自于名為Evolutionary Scale AI的初創公司,團隊負責人Alex Rives在推特上官宣了模型發布的消息。

圖片

這個令人振奮的消息也得到了Yann LeCun的轉發,他表示,你們這個公司有點「悶聲發大財」的意思。

圖片

相比AlphaFold系列,ESM3有什么競爭優勢?

首先就是Meta團隊輕車熟路的——開源。

圖片

雖然模型API仍處于內測階段,需要申請試用資格,但模型代碼已經放到了GitHub上。而且公司還會與AWS和英偉達云計算平臺合作,方便開發者使用和部署。

圖片

倉庫地址:https://github.com/evolutionaryscale/esm

但比較遺憾的是,目前在HuggingFace倉庫中還沒有公開模型權重。英偉達官方博客顯示,ESM3將在Nvidia BieNeMo平臺提供一個小型開源版本的代碼和權重,但僅限于非商業用途。

圖片

倉庫地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3與不同于模擬多種生物分子的AlphaFold 3,只專注于蛋白質,但可以同時推理其序列、結構和功能,這種多模態能力屬于領域首創。

更讓人耳目一新的是,ESM3在自然界中27.8億個多樣化蛋白質上進行訓練,逐漸學習到了進化過程如何讓蛋白質發生變化。

從這個角度來看,ESM的推理過程可以被視為「進化模擬器」,這為當前的生命科學研究開辟了全新的視角。團隊甚至在官網文章中提出了「模擬5億年進化」的標語。

或許你已經注意到了,ESM這個名字和Meta之前的蛋白質模型ESMFold非常類似。

這并不是有意擦邊。事實上,Evolutionary Scale這家初創公司就是Meta-FAIR蛋白質小組的前成員創辦的,公司的首席科學家Alex Rives正是這個已解散團隊的前負責人。

圖片

去年8月,在Meta的「效率年」中,扎克伯格選擇解散了只有十幾名科學家的蛋白質小組,讓公司專注于更有盈利前景的研究。

圖片

但Rives并沒有被Meta的這種舉動嚇倒,而是決定自立門戶,他們目前已經籌集了1.42億美元的種子資金。

那么就來仔細看看,這次的ESM3具體有哪些新內容?

圖片

ESM3:生物學的前沿語言模型

生命科學并不像我們想象的那般神秘莫測、不可捉摸。

蛋白質分子雖然有難以置信的多樣性和動態變化,但是它的合成遵循嚴密的算法與流程。如果把它看成一門技術,其先進程度遠遠超過任何人類創造的工程。

生物學,就是一個厚厚的密碼本。

只不過,這個密碼本是用我們尚未理解的語言寫就的,即使是當今最強超算上運行的工具也不過觸及皮毛。

如果人類能夠閱讀,甚至是書寫「生命代碼」,就能使生物學變得可編程。試錯法將被邏輯取代,費力的實驗將被模擬所取代。

ESM3就是朝這個宏偉愿景邁出的一步,是迄今為止首個能同時對蛋白質的序列、結構和功能進行推理的生成模型。

過去五年中LLM的突飛猛進,也讓ESM團隊發現了Scaling Law的威力,他們發現,同樣的模式也適用于生物學。

隨著訓練數據以及參數規模的擴大,模型會加深對生物學基本原理的理解,并能更好地預測、設計生物結構和功能。

因此,ESM3的開發思路也與Scaling Law一脈相承,其規模比上一代ESM大大擴展,數據量提高了60倍,訓練計算量提高了25倍,并且是具有原生多模態的生成模型。

ESM3的訓練過程囊括了地球自然環境的多樣性——數十億種蛋白質,從亞馬遜雨林到海洋深處,小到土壤中的微生物,極端到深海熱泉。

HuggingFace上的模型卡顯示,訓練集中天然蛋白質數量達到27.8億,并通過合成數據增強到31.5億個序列、2.36個結構以及5.39億個帶有功能注釋的蛋白質,token總數達到7710B。

模型訓練參數總量達到98B,使用了超過1024 FLOPS的算力。團隊似乎與英偉達緊密合作,訓練使用了Andromeda集群,是當今吞吐量最高的GPU集群之一,部署了最先進的H100 GPU和Quantum-2 InfiniBand網絡。

圖片

網頁來源:https://andromeda.ai/

他們表示「相信ESM3的計算總量是有史以來生物模型之最」。

推理蛋白質的序列、結構和功能

處理文本的語言模型一般以token作為基本單位,但多模態的蛋白質模型更加復雜,需要將序列、三維結構和功能都轉換為離散的字母進行表示。

為了更好地擴展訓練規模、釋放模型的「涌現」生成潛力,ESM3使用的詞匯在同一語言模型中能夠很好地連接序列、結構和功能,進行聯合推理。

不同于GPT等語言模型,ESM3的訓練目標繼承于掩碼語言模型(masked language modeling objective)。

每個蛋白質的序列、結構、和功能的部分位置會被掩碼,模型在訓練過程中需要逐漸理解三者之間的深層聯系,從而預測掩碼位置。如果遮蔽所有位置的標記,就相當于執行生成任務。

圖片

由于在蛋白質的序列、結構和功能上聯合訓練,對這三種模態可以任意進行掩碼和預測,因此ESM3實現了「全對全」預測或生成(all to all)。

也就是說,模型的輸入可以是部分或完全指定的三種模態的任意組合。這種強大的多模態推理能力有很強的應用價值,科學家們能以前所未有的靈活度和控制度設計全新的蛋白質。

比如,可以提示模型結合結構、序列和功能,提出PET酶活性位點的潛在支架結構。PET是一種常用的塑料,如果PET酶設計成功,就能用于高效分解塑料廢物。

圖片

ESM3通過序列、結構和功能的多模態提示設計PET酶活性位點的支架

Evolutionary Scale的聯合創始人兼兼工程副總裁Tom Sercu表示,在內部測試中,ESM在應對各種復雜提示時表現出了令人印象深刻的創造力。

「它能夠解決一個極其困難的蛋白質設計問題,創造一種新型綠色熒光蛋白。ESM3能夠幫助科學家加速工作,開辟新的可能性——我們期待看到它在未來對生命科學研究的貢獻。」

當數十億個蛋白質來自進化時間軸上的不同位置,具有豐富的多樣性時,模型還能學到模擬進化的能力。

能力隨規模涌現

正如LLM在規模擴展中「涌現」出了語言理解、推理等能力,在解決有挑戰性的蛋白質設計任務時,ESM3也隨規模增加逐漸顯現能力,其中一個重要的能力就是原子級協調。

比如,提示中可能指定組成蛋白質的兩個氨基酸需要在序列位置上相近,但在結構中相距較遠。這衡量了模型在結構生成任務中達到原子級精度的能力。

這對于設計功能性蛋白質至關重要,而ESM3解決這類復雜生成任務的能力可以隨著規模增加逐漸提高。

不僅如此,在訓練完成后,ESM3的能力還有進一步提升的空間,其機制類似于LLM常用的RLHF方法。

但區別在于,ESM3并不是從人類那里接受反饋,而是可以評估自身的生成質量,進行自我改進,也可以結合已有的實驗數據和濕實驗結果,讓ESM3的生成與生物學結果保持對齊。

圖片

模型生成能力隨規模增長,且微調的提升效果明顯

模擬5億年的進化

在發表的論文中,ESM3團隊詳細介紹了他們在模型上觀察到的「模擬進化」功能。

圖片

論文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

綠色熒光蛋白(Green Fluorescent Protein,GFP)及其熒光蛋白家族是自然界中最美麗的蛋白質之一,但它們只存在于「生命之樹」的幾個分支中。

但GFP不僅僅是美麗而已,它包含一種熒光發色團(fluorescent chromophore)。這種分子可以吸收短波長的單色光子、捕獲部分能量,再釋放出波長較長的另一種單色光子。比如,自然界存在的GFP可以吸收藍光并發出綠光。

圖片

由于這種特性,GFP能夠作為標記,幫助科學家在細胞內觀察蛋白質,成為了生物學中最廣泛使用的工具之一,GFP的發現也因此獲得了諾貝爾獎。

GFP的功能如此獨特且有用,結構也是非常罕見:由十一條鏈組成的桶狀結構,中間穿過一條螺旋。折疊后進行自發反應,在蛋白質中心的分子會重新排列,產生熒光發色團。

這種機制是獨一無二的。沒有其他已知的蛋白質能夠自發地從其自身結構中形成熒光發色團,這表明即使在自然界中,產生熒光也是相當罕見且困難的。

為了能在實驗室有更廣泛的應用,科學家們嘗試添加突變或改變顏色,進行人工合成。最新的機器學習技術能夠搜索到序列差異高達20%的變體,但功能性GFP的主要來源依舊是自然界而非蛋白質工程。

想在自然界中找到更多的變體也并不簡單,因為新熒光蛋白的進化需要漫長的時間——GFP所屬家族的歷史相當久遠,它們從祖先序列中分化出來的時間點能追溯到數億年前。

這個棘手的問題或許能在ESM3這里得到解決。

將天然GFP核心結構中幾個位點的信息作為提示,并使用CoT技巧,ESM3成功生成了新型GFP的候選者。

這種生成絕不可能是隨機撞大運或者是全局搜索,因為可能的序列和結構的組合起來會達到天文數字——20229 x 4096229 ,比可見宇宙中所有的原子數加起來還要多。

在首次實驗中,團隊測試了ESM3生成的96個候選蛋白,其中出現了成功的發光樣本,而且存在一種十分獨特的結構,與自然界中任何蛋白質都相差甚遠。

在另一組96個候選樣本中,發現了幾種亮度與天然GFP相似的蛋白質,其中一種亮度最高的蛋白質被命名為esmGFP,與最接近的天然熒光蛋白相比有96個突變(在229個氨基酸組成的序列中,有58%的相似部分)。

圖片

左側是與所有已知GFP都相差較大的生成物B8,從B8開始,ESM3生成了右圖的esmGFP

與自然進化不同,蛋白質語言模型并不在進化約束內明確工作。

但為了讓ESM3解決其預測下一個掩碼token的訓練任務,模型必須學習進化如何在潛在蛋白質空間中演變。

從這個意義上說,ESM3生成與天然蛋白十分相似的esmGFP的過程,可以被視為一種進化模擬器。

對esmGFP進行傳統的進化分析是自相矛盾的,因為它是在自然過程之外創造的,但仍可以從進化生物學的工具中獲得洞見,了解一個蛋白質通過自然進化與其最近的序列鄰居分化所需的時間。

因此,研究團隊使用進化生物學的方法,把esmGFP當成自然界新發現的蛋白質進行分析。他們估計,esmGFP等效于進化模擬器執行的超過 5 億年的自然進化。

圖片

esmGFP的渲染圖

開放模型

自成立以來,ESM項目(ESM project)一直致力于通過發布代碼和模型來實現開放科學。目前仍能在GitHub和HuggingFace上找到團隊在幾年前發布的代碼和模型權重。

圖片

倉庫地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main

看到ESM模型在研究和工業領域的創造性和有影響力的應用,可謂是令人驚嘆:

- Hie等人使用ESM-1v和ESM-1b來進化抗體,改善了結合親和力、熱穩定性和病毒中和等治療相關特性。

- BioNTech和InstaDeep微調了一個ESM語言模型,用于檢測COVID刺突蛋白中的變異,成功地在WHO指定之前標記了所有16種關注變異。

- Brandes等人使用ESM-1b來預測突變的臨床效果,目前這仍是完成該重要任務的最強方法。

- Marsiglia等人使用ESM-1v來設計新的抗CRISPR蛋白變體,這些變體在保持目標編輯功能的同時,減少了對非目標副作用。

- Shanker等人使用ESM-IF1引導多樣蛋白的進化,包括實驗室驗證的對SARS-CoV-2高效抗體。

- Yu等人微調了ESM-1b來預測酶的功能,包括稀有和研究不足的酶,并通過實驗驗證了預測結果。

- Rosen等人使用ESM2嵌入來構建單細胞基礎模型中的基因表示。

- H?ie等人微調了ESM-IF1在抗體結構上的表現,在CDR區域的序列恢復中達到了最先進的性能,設計出了高結合親和力的抗體。

而這些,只是建立在ESM平臺上的驚人工作的一小部分!

如今,團隊正式宣布,將發布一個ESM3 1.4B參數版本的權重和代碼,以便科學家和開發人員能夠基于ESM3的理念和架構進行構建。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-04 11:11:07

2022-12-23 15:04:33

Meta模型

2022-11-02 13:41:46

2024-09-18 13:16:46

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-02-06 08:55:12

學習語言模型

2021-07-24 10:21:46

模型人工智能深度學習

2022-12-25 13:36:47

論文

2023-07-06 13:23:49

2023-10-04 09:23:21

微軟開發

2023-08-08 10:17:16

人工智能

2023-07-06 16:59:56

英特爾

2022-11-02 13:42:08

AI語言模型

2023-03-03 14:00:00

模型深度學習

2011-12-21 16:44:00

信息圖手機進化史

2014-08-13 10:31:26

Windows操作系統

2014-09-01 16:29:34

2019-08-29 08:13:28

2011-11-03 15:25:07

Android

2011-11-29 09:54:20

Google進化史
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产色视频网站 | 综合九九 | 综合色播| av性色全交蜜桃成熟时 | 国产日韩精品视频 | 国产精品av久久久久久久久久 | 国产在线高清 | 91在线一区二区三区 | 国产伦精品一区二区三区照片91 | 精品久久久久久红码专区 | 国产成人精品a视频 | 日韩毛片 | 九九九久久国产免费 | 黄色在线免费观看 | 午夜av一区二区 | 亚洲精品视频免费观看 | 怡红院怡春院一级毛片 | 99福利视频导航 | 国产成人综合网 | 我爱操 | 日韩有码一区 | 欧美日韩手机在线观看 | 日韩在线不卡视频 | www国产成人免费观看视频,深夜成人网 | 欧美在线视频网 | 免费观看av网站 | 久久精品国产一区二区电影 | 成人免费视频观看视频 | 国产xxxx搡xxxxx搡麻豆 | 亚洲精品456 | 亚洲视频一 | av一区在线 | 国产精品久久 | 国产精品久久久久久高潮 | 国产一在线观看 | 日韩中文字幕在线视频 | 国产区视频在线观看 | 中文字幕一区二区三区在线观看 | 欧美中文视频 | 天天干天天插天天 | 特一级毛片 |