成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta讓150億參數語言模型學會從頭設計「全新」蛋白質!LeCun:效果驚人

人工智能 新聞
Meta最新力作!經過訓練的語言模型直接化身「造物主」,可以設計、生成蛋白質,生命的終極奧秘要被人工智能發現了嗎?

AI在生物醫學領域再次獲得新進展。沒錯,這次還和蛋白質有關。

不同的是,過去的AI是發現蛋白質結構,這回開始自己設計和生成蛋白質結構了。如果說過去是「檢察官」,現在說是進化成了「造物主」也不是不行。

參與本項研究的是Meta的AI研究機構中包括FAIR的蛋白質研究團隊。作為在Facebook任職多年的首席AI科學家,Yann LeCun也是第一時間轉發了這個自家團隊的成果,并給予高度評價。

圖片

BioRxiv上的這兩篇論文是Meta在蛋白質設計/生成方面的「驚人」的成果。該系統使用模擬退火算法來尋找一個氨基酸序列,該序列的折疊方式符合所需的形狀或滿足約束條件(如對稱性)。

圖片

ESM2,原子層級結構預測的模型

你猜的沒錯,這項研究和這兩篇論文的基礎,正是不久前由Meta提出的蛋白質預測和發現的大語言模型:ESM2。

這是一個150億參數的大模型。隨著模型從800萬個參數擴展到1500萬個參數,內部表征中出現的信息能夠在原子分辨率下進行三維結構預測。

圖片

利用大型語言模型來學習進化模式,可以直接從蛋白質序列中端到端地生成準確的結構預測,在保持準確性的同時,預測速度比當前最先進的方法快60倍。

事實上,借助于這種新的結構預測能力,Meta在短短兩周內用一個由大約2000個GPU組成的集群上,預測出了圖譜中超過6億個宏基因組蛋白質的序列。

兩篇論文的通信作者,來自Meta AI的Alex Rives表示,ESM2語言模型展現出的通用性不僅超出了天然蛋白質的范圍,而且還能夠可編程地生成復雜和模塊化的蛋白質結構。

蛋白質設計「專用編程語言」

工欲善其事,必先利其器。

為了讓蛋白質設計和生成更有效率,研究人員在之前成果(主要是ESM2)的基礎上,還專門開發了一種面向蛋白質設計的高級編程語言。

論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

該研究的主要負責人之一,論文「A high-level programming language for generative protein design」的通訊作者Alex Rives在社交媒體上表示,這個成果,使得對具有復雜和模塊化結構的大型蛋白質和復合物的生成進行編程成為可能。

論文作者之一、斯坦福大學的研究人員Brian Hie在推特上也對這篇文章的主要研究思路和成果做了自己的解釋。

總體上講,這篇文章描述了生成式機器學習如何實現由用于蛋白質設計的高級編程語言控制的復雜蛋白質的模塊化設計。

圖片

他表示,這篇文章的主要想法不是使用序列或結構的構建塊,而是將模塊化置于更高的抽象級別,并讓黑盒優化生成特定設計。優化的每一步預測原子級結構。

圖片

與之前的蛋白質設計方法相比,這種新思路產生的方法可以讓設計者指定任意的、不可微的約束,范圍從指定原子級坐標到蛋白質的抽象設計方案,比如對稱設計。

對于可編程性來說,約束條件是模塊化的,這一點很重要。比如下圖就是將同一約束分層應用于兩個層次的對稱性編程的情況。

這些約束也很容易重新組合。比如,可以把對原子坐標的約束和對對稱性的約束結合起來?;蛘呖梢詫⒉煌问降膬杉墝ΨQ性結合起來,為一個不對稱的復合結構體編程。

圖片

Brian Hie認為,這一成果是朝著更可控、更有規律、更有表現力的蛋白質設計邁出的一步。他也感謝了來自Meta AI和其他合作者的共同努力。

讓蛋白質設計「就像蓋大樓」

在論文中,研究人員認為,蛋白質設計將受益于一套基本的抽象概念所提供的規律性、簡單性和可編程性,就像那些用于建筑、機器、電路和計算機軟件工程的抽象概念一樣。

但與這些人工創造物不同的是,蛋白質不能被分解成容易重組的部分,因為序列的局部結構與它的整體環境糾纏在一起。經典的從頭開始的蛋白質設計試圖確定一套基本的結構構件,然后將其組裝成高階結構。

同樣,傳統的蛋白質工程通常將天然蛋白質序列的片段或結構域重組為混合嵌合體。然而,現有的方法還不能實現真正可編程性所需的高組合復雜性。

本文展示了現代生成模型在新的組合復雜性水平上實現了模塊化和可編程性的經典目標。把模塊化和可編程性放在一個更高的抽象水平上,在這個水平上,生成式模型彌補了人類直覺和特定序列和結構的產生之間的差距。

在這種情況下,蛋白質設計者只需要重新組合高層次的指令,而獲得滿足這些指令的蛋白質的任務則放在生成模型上。

研究人員提出了一種用于生成性蛋白質設計的編程語言,允許設計者指定直觀的、模塊化的和分層次的程序。高層次的程序可以通過生成模型轉化為低層次的序列和結構。這套方法利用了蛋白質語言模型的進展,可以學習結構信息和蛋白質的設計原則。

圖片

在這項研究中的具體實施基于一個基于能量的生成模型,如上圖所示。

首先,一個蛋白質設計者指定了一個由一組分層組織的約束條件組成的高級程序(圖A)。

然后,這個程序編譯成一個能量函數,評估與約束條件的兼容性,這些約束條件可以是任意的和不可區分的(圖B)。

通過將原子級結構預測(由語言模型啟用)納入能量函數來應用結構上的約束。這種方法能夠生成廣泛的復雜設計(圖C)。

從無到有生成蛋白質序列

在論文「Language models generalize beyond natural proteins」中,來自MetaAI團隊的作者Tom Sercu表示,這個工作主要完成了兩項任務。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1

第一項是為給定的主鏈結構設計序列。使用語言模型,可以獲得針對所有目標的成功設計,成功率達19/20,而沒有語言模型參與的序列設計,成功率只有1/20。

圖片

第二個任務是無約束生成。研究團隊提出了一種從語言模型定義的能量景觀中采樣(序列、結構)對的新方法。

圖片

通過不同的拓撲結構進行采樣,再次提高實驗的成功率(達71/129或55%)。

為了證明預測的蛋白質結構超越了天然蛋白質的限制,研究團隊在涵蓋所有已知天然蛋白質的序列數據庫中,對語言模型生成的蛋白質序列進行搜索。

圖片

結果顯示,二者并無匹配關系,自然序列和語言模型生成的預測結構不同。

Sercu表示,可以單獨使用ESM2蛋白質語言模型對蛋白質結構進行設計。研究團隊通過實驗測試了228種蛋白質,成功率為67%!

圖片

Sercu認為,僅在序列上訓練的蛋白質語言模型可以學習連接序列和結構的深層模式,并且可以用于從頭設計蛋白質,超出了自然探索的設計空間。

探索蛋白質生成的深層語法

在論文中,Meta的研究人員表示,雖然只對語言模型在序列上訓練,模型依然能夠設計蛋白質的深層語法結構,突破天然蛋白質的局限。

如果用A圖的方塊表示所有蛋白質序列構成的空間,那么天然蛋白質序列是灰色部分,覆蓋了其中一小部分。為了超越自然序列進行推廣,語言模型需要訪問底層設計模式。

圖片

研究團隊要做的是兩件事:第一,從頭設計蛋白質(de novo)主鏈;第二,根據主鏈,從無到有生成蛋白質序列。

研究團隊使用掩碼語言模型,對ESM2進行訓練,訓練內容包括進化過程中數百萬種不同的天然蛋白質。

圖片

語言模型訓練后,可以在模型的內部attention狀態中識別有關蛋白質三級結構的信息。之后,研究人員通過線性投影,將蛋白質序列中一對位置的attention轉換為殘基間距離的分布。

圖片

研究人員表示,語言模型預測蛋白質結構的能力,指出了構成天然蛋白質序列背后更深層次的結構序列,以及存在一個可由模型學習的深層語法的可能性。

結果表明,在進化過程中,大量蛋白質序列包含的生物結構和功能,揭示了蛋白質的設計構造。這種構造完全可以通過學習蛋白質序列的機器模型得以重現。

圖片

語言模型在6項實驗中成功預測的蛋白質結構

跨蛋白質的深層語法的存在,解釋了似乎相互矛盾的兩組發現:對天然蛋白質的理解取決于訓練數據;而語言模型又可以在已知的天然蛋白質家族之外進行預測和探索。

如果蛋白質語言模型的縮放定律繼續有效,可以預料,AI語言模型的生成能力將不斷提高。

研究團隊表示,由于存在蛋白質結構的基礎語法,機器模型將學習更加罕見的蛋白質構造,從而擴展模型的預測能力和探索空間。

一年前,DeepMind開源AlphaFold2連登Nature、Science,刷爆生物和AI學界。

一年后,人工智能預測模型如雨后春筍,頻頻填補蛋白質結構領域的空白。

如果說人類給予人工智能以生命,那么人工智能是否是人類補全生命奧秘的最后一塊拼圖呢?

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-11-02 13:41:46

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2025-02-04 11:11:07

2022-11-02 13:42:08

AI語言模型

2024-06-26 13:21:50

2021-07-24 10:21:46

模型人工智能深度學習

2023-02-06 08:55:12

學習語言模型

2023-07-06 13:23:49

2023-07-06 16:59:56

英特爾

2023-08-08 10:17:16

人工智能

2023-07-18 09:54:43

模型語言

2023-03-03 14:00:00

模型深度學習

2022-12-25 13:36:47

論文

2020-10-26 10:51:09

人工智能AI語言

2023-09-16 13:48:57

AI數據

2022-10-08 12:38:23

模型開源

2023-07-13 12:53:02

FrameDiffAI

2023-01-13 21:13:31

AI人工智能醫療

2024-09-09 08:10:00

2024-09-06 14:01:11

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产一区二区电影 | 欧美精品一区二区三区在线四季 | 欧美高清视频 | 日韩免费一二三区 | 一区视频在线免费观看 | 一区二区三区视频在线观看 | 精品国产91久久久久久 | 久久亚洲综合 | japan25hdxxxx日本| 日韩一区二区三区精品 | 在线观看成人小视频 | 精品一二三| 欧美不卡视频一区发布 | 中文字幕av中文字幕 | 精品国产一区二区国模嫣然 | 97偷拍视频 | 91精品久久久 | 高清人人天天夜夜曰狠狠狠狠 | 日韩视频精品 | 伦理一区二区 | 亚洲一区二区中文字幕 | 国产91中文| 青草久久免费视频 | 九九九久久国产免费 | 国产精品一二区 | 99精品国产一区二区三区 | 亚洲少妇综合网 | 国产精品爱久久久久久久 | 日韩免费在线观看视频 | 精品久久久久久久久亚洲 | 国产在线观 | 欧美久久久网站 | 欧美日韩国产一区二区三区 | 天堂免费看片 | 国产成人a亚洲精品 | 久久久91| 精品不卡 | 日韩欧美在线一区二区 | 国产精品免费一区二区三区四区 | 日韩国产中文字幕 | 爱高潮www亚洲精品 中文字幕免费视频 |