成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系 原創

發布于 2025-6-24 19:17
瀏覽
0收藏

眾所周知,人體由不同類型的細胞組成——免疫細胞在感染發生時可引發炎癥反應以抵御病原體;干細胞具有分化潛能,可生成多種組織類型;而癌細胞則通過逃避生長調控信號,實現異常增殖。盡管這些細胞在功能和形態上差異巨大,但它們幾乎都擁有相同的基因組。細胞的獨特性并非來自 DNA 序列本身的差異,而是源于它們如何調控和使用相同的基因信息。

換言之,細胞的特性源于基因表達的差異,而一個細胞的基因表達模式不僅決定了它屬于哪種細胞類型,也決定了其所處的細胞狀態,所以,通過觀察基因表達的變化,便可以判斷細胞是健康、發炎還是癌變。在此基礎上,通過測量細胞在化學或基因干預下的轉錄反應,AI 模型能夠學習并預測細胞在不同狀態之間的轉變軌跡,甚至預判未見過的干預效應。

這類「虛擬細胞」模型有望顯著提升藥物研發效率——在每一種藥物都是一次定向干預的背景下,其能幫助科學家更精準地篩選治療方案,引導細胞狀態從疾病轉向健康,同時減少副作用,從源頭提升臨床成功率。

如今,虛擬細胞模型成真,曾發布 Evo 系列模型的非盈利研究機構 Arc Institute 聯合 UC 伯克利、斯坦福等高校的研究團隊,推出了虛擬細胞模型 STATE,能夠預測干細胞、癌細胞和免疫細胞在藥物、細胞因子或遺傳干預下的響應情況。其訓練數據涵蓋了來自近 1.7 億個細胞的觀察性數據,以及超過 1 億個細胞的干預性數據,涉及 70 種不同細胞系,并整合了 Arc 虛擬細胞圖譜(Virtual Cell Atlas)中的數據。實驗結果顯示,State 在預測干預后轉錄組變化的表現顯著優于當前主流方法。在 Tahoe-100M 數據集的測試中,其在區分干預效果方面提升了 50%,在識別差異表達基因方面的準確率是現有模型的 2 倍。

目前,STATE 已面向非商業用途開源,相關成果以「Predicting cellular responses to perturbation across diverse contexts with State」為題發布預印本。

論文鏈接:??https://go.hyper.ai/1UFMr ??

項目開源地址:??https://github.com/ArcInstitute/state??

融合兩類數據源,涉及 70 種細胞系

STATE 由兩大核心模塊組成:STATE Transition(ST)和 STATE Embedding(SE),也正是基于這一多尺度框架,其能夠融合兩類數據源:1.67 億個細胞的觀察性數據用于訓練 SE 模型,以及超過 1 億個干預細胞數據用于訓練 ST 模型。

ST 模型訓練所用的單細胞干預數據集詳情如下圖所示,所有數據集均經過篩選,僅保留了對 19,790 個人類蛋白編碼 Ensembl 基因的測量值,并統一標準化為總 UMI 深度為 10,000 。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

ST 模型訓練所用數據集

其中:

* Tahoe-100M 數據集:大規模單細胞數據集,包含 1 億條轉錄組圖譜的千兆級單細胞圖譜,測量了 1,100 種小分子擾動對 50 種癌癥細胞系中每種細胞的影響。

Tahoe-100M 數據集下載地址:

??https://go.hyper.ai/Wqbl0??

* Parse-PBMC 數據集:生物科技公司 Parse Biosciences 開源的單細胞 RNA 測序(scRNA-seq)數據集,其在一次實驗中對 1,152 個樣本中的 1 千萬個細胞進行分析,主要用于研究人類外周血單個核細胞(PBMC, Peripheral Blood Mononuclear Cells)在不同條件下的基因表達特征。

Parse-PBMC 數據集下載地址:

??https://go.hyper.ai/20nBg??

SE 模型是在 1.67 億個人類細胞上進行訓練的,數據來源如下圖所示,為了避免在語境泛化基準測試中發生數據泄漏,研究人員在訓練中僅使用了 Tahoe 數據集中的 20 個細胞系,并將另外 5 個細胞系作為保留測試集

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

SE 模型訓練所用數據集

其中,Arc Institute 不久前發布的大規模人類單細胞表達數據集 scBaseCount,包含超過 4 千萬個人類細胞,覆蓋多個器官、細胞系和病理狀態。本次研究中,在處理 scBaseCount 數據時,研究人員篩選了每個細胞中具有至少 1,000 個非零表達值和 2,000 個 UMI 的細胞。

基于 Transformer 構建的多尺度框架 STATE

STATE 能夠預測細胞受到擾動后的下游轉錄組響應,包括基因表達的變化、差異表達基因,以及整體擾動效應的強度。該架構整合了多個層次的信息:

* 分子層面:使用嵌入表示不同實驗和物種中各個基因的特征; 

* 細胞層面:使用嵌入表示單個細胞的轉錄組狀態,既可以是細胞的 log-normalized 表達譜,也可以是由 STATE Embedding(SE)模型生成的嵌入;

* 群體層面:STATE Transition(ST)模型在細胞集合上學習擾動效應。

其中,ST 基于 Transformer 架構,通過自注意力機制建模干預在細胞集合中的轉化過程,每個細胞可用原始基因表達或嵌入向量表示。 SE 模塊則在多種異質性數據集上預訓練而成,能夠學習細胞間的表達差異,生成對技術噪音魯棒、同時對干預響應高度敏感的表達性向量。借助自注意力機制,ST 模型無需顯式分布假設,便能靈活捕捉復雜的生物變異性。

如下圖所示,作為一個多尺度機器學習框架,STATE 可以在基因、單個細胞和細胞群體等多個層面上運行。其中,ST 模型通過在共享協變量(shared covariates,如擾動類型、細胞環境和 batch)下分組的擾動與未擾動細胞群體集合上進行訓練,來學習擾動效應。 ST 模型可以直接處理基因表達譜,也可以處理來自 SE 模型的緊湊型細胞表示,SE 模型從大規模觀察數據中學習富含信息的嵌入表示。

同時,該多尺度架構使 ST 能夠有效地在計算機中模擬 Perturb-seq 實驗,并支持后續分析任務,如表達量估計、差異表達分析和擾動效應量估計。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

STATE 基本框架

ST 模型框架如下圖所示,其輸入為未擾動細胞群體的集合(unperturbed cell populations)和擾動標簽(perturbation labels),輸出為對應的擾動后細胞群體(perturbed cell populations)。當細胞由基因表達譜表示時,ST 可以直接預測單細胞層面的轉錄組;當使用 STATE 嵌入作為輸入時,ST 首先預測輸出嵌入,然后通過一個多層感知機(MLP)將其解碼為轉錄組。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

ST 模型框架

ST 模型的訓練目標是最小化預測的擾動細胞轉錄組與真實觀測數據之間的最大均值差異(MMD)損失。盡管 ST 是在細胞分布層面上學習擾動效應,但其仍然為每一個具體細胞預測擾動后的表達譜。這一特性對于捕捉擾動群體中細胞的分布結構至關重要。

實驗證明,在不超過某一閾值的范圍內,增加細胞集合的規模能顯著降低驗證損失,效果明顯優于對單個細胞進行建模。此外,移除自注意力機制會導致性能下降,如下圖 D 所示,這進一步說明了基于集合的靈活自注意機制在建模擾動響應中的細胞異質性方面具有重要價值。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

細胞集合規模對擾動預測性能的影響

SE 模型是對 ST 模型的補充,旨在學習細胞嵌入,優化捕捉細胞類型特異性的基因表達模式,如下圖 A 所示。 SE 在數據量較少或實驗噪聲較大的情況下尤為有用。與 ST 結合使用時,SE 提供了一個更加平滑的細胞狀態空間,這一嵌入是基于大量觀察性單細胞數據庫學習而成的,相當于是間接利用豐富的觀察性單細胞數據來提升擾動響應預測的準確性,特別是在干預數據有限的情況下效果顯著。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

SE 模型架構

在架構上,SE 編碼器是一個密集的雙向 Transformer,訓練目標是預測對數歸一化的基因表達。 SE 解碼器是一個較小且專門設計的多層感知機(MLP),基于學習到的細胞嵌入和目標基因嵌入的組合來預測基因表達,這種架構上的不對稱設計,使得模型學習到具有生物學基礎且具備良好泛化能力的細胞狀態。

STATE 在跨細胞環境的擾動效應預測上全面領先

研究人員將 STATE 與多種 baseline 模型進行了對比評測,其中包括 3 種機器學習模型:CPA 、 scVI 和 scGPT,并在在化學、信號傳導和基因擾動數據集上進行了評估。其評估框架覆蓋了 Perturb-Seq 實驗的 3 個核心輸出類別:基因表達計數(gene expression counts),差異表達統計信息(differential expression statistics),擾動效應的整體強度(magnitude of the perturbation effect)。

為全面評估模型在這些維度上的表現,研究人員開發了一套評估指標體系 Cell-Eval,如下圖 C 所示,這些指標既具表達性,也具有生物學解釋力,能夠提供互補的評估視角。例如 DEGs 的重疊程度有助于將預測結果與特定通路聯系起來,賦予其生物學意義;而擾動判別分數能更敏感地捕捉擾動效應的細粒度變化,反映預測結果與真實擾動效應之間的相似度。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

虛擬細胞建模評估框架 Cell-Eval

具體評估中,針對擾動實驗,模型必須能夠有效地區分不同擾動的效應。對此,研究人員使用了一種改編自 Wu 等人于 2024 年提出的擾動判別分數評估方法,該方法通過比較預測的擾動后表達譜與真實擾動結果的相似性,對擾動效果進行排序。結果顯示,STATE 模型在 Tahoe 和 PBMC 數據集上的表現分別提升了 54% 和 29%,如下圖 D 所示。

為直接評估對基因表達計數預測的準確性,研究人員計算了觀測到的擾動引起的表達變化與模型預測值之間的 Pearson 相關系數。在這一指標上,STATE 模型在 Tahoe 數據集上的表現比基線模型高出 63%,在 PBMC 數據集上高出 47%,如下圖 E 所示。

為評估模型預測的差異表達(DE)基因的 p 值,研究人員首先使用實驗中觀測到的擾動數據計算出真實的顯著差異表達基因,并設定 FDR 閾值為 0.05 。隨后將模型預測所生成的 p 值與真實的顯著性水平進行比較,并繪制精確率-召回率(precision-recall, PR)曲線。通過計算 PR 曲線下面積(AUPRC)可發現 STATE 在所有數據集上始終優于所有基線模型,如下圖 F 所示。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

STATE 與基線模型在多個評測任務上的性能對比

STATE 模型在基因擾動數據集上的 AUPRC(精確率-召回率曲線下面積)比排名第二的模型高出 184%,這一結果在各模型于不同數據集上的 PR 曲線中表現得非常明顯,如下圖 G 所示。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

預測每種擾動下差異表達的基因

另外值得一提的是,STATE 還支持零樣本預測(zero-shot),即在模型訓練時未見過擾動數據的新細胞環境中,也能準確預測擾動效應,如下圖所示。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

STATE 可實現零樣本預測

更進一步地,為展示 STATE 的實際應用場景,研究人員評估了其檢測細胞類型特異性差異表達的能力,聚焦于 Tahoe-100M 數據集中 5 個細胞系如下圖 A 所示。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

State 能檢測擾動引起的細胞類型特異性基因表達變化

研究人員通過對比 STATE 與兩個基線模型的預測結果在差異表達基因的重疊程度以及 log fold change 的 Spearman 相關系數,來識別出具有強細胞類型特異性的擾動條件。若性能優于「擾動均值」基線,說明 STATE 學會了特定于某一細胞類型的擾動效應;若優于「環境均值」基線,則表明模型能夠區分同一細胞系中不同擾動的影響,而不是簡單地預測每個細胞系的平均表達水平。

在所有擾動條件中,STATE 始終表現出更強的能力,能更準確地還原差異表達基因的 log fold change 的真實排序,顯著優于環境均值和擾動均值兩種基線模型,如上圖 B 所示。

總結來看,研究團隊提出,STATE 是首個在細胞環境泛化任務中,幾乎在所有指標和多個數據集上均超越簡單基線(如均值模型或線性模型)的機器學習模型。此外,結合了細胞嵌入模型 SE 生成的嵌入,使得在新細胞環境中實現更有效的零樣本擾動效應預測成為可能。

非營利性研究機構 Arc Institute 發布一系列重磅成果

由知名移動支付公司 Stripe 聯合創始人兼 CEO Patrick Collison 和斯坦福大學生物化學助理教授 Silvana Konermann 夫妻二人,聯合加州大學伯克利分校生物工程助理教授徐安祺(Patrick D. Hsu)于 2021 年正式成立了 Arc Institute 。

繼Evo 2之后,Arc Institute發布首個虛擬細胞模型STATE,訓練數據涉及 70 種不同細胞系-AI.x社區

Patrick Collison 于 2019 年 6 月宣布與 Silvana Konermann 訂婚

在成立之初,Arc 就籌集到了 6.5 億美元的投資,其中 5 億美元來自 Collison,這個「億萬富翁出錢讓科學家妻子不再為科研經費發愁」的舉動當年便在該領域內引起廣泛討論。這筆資金要為 15 名核心研究人員提供長達 8 年的資助,以及一個研究助理團隊。這些研究者不受限制,可以以任何形式開展人類復雜疾病的研究。

這個專注于生命科學前沿研究和創新的非營利性科研機構命名源自 Island arcs(島弧)。島弧是板塊與板塊交界處隆起形成的群島,創始人希望通過島弧研究所集合許多不同機構、不同學科的研究人員,去創造一些新的東西。事實也的確如此,自成立以來,Arc Institute 面向生命科學領域推出了一系列重磅成果。

今年 2 月, Arc 研究所發布 Arc 虛擬細胞圖譜,初始整合超 3 億個細胞數據。該圖譜首次推出兩個基礎數據集,于 2025 年 2 月 25 日開源開放:Tahoe – 100M 是由 Tahoe 創建的全新開源擾動數據集,含 1 億個細胞及 50 種癌細胞系中的 6 萬種藥物 – 細胞相互作用;scBaseCount 是首個來自公共數據的單細胞 RNA 測序數據集,Arc 通過 AI 代理從公共存儲庫挖掘處理了代表 21 個物種的 2 億多個細胞觀測數據并標準化處理。

同年 4 月,10x Genomics 、 Ultima Genomics 與 Arc 研究所合作,加速開發 Arc 虛擬細胞圖譜,其可計算的單細胞測量數據集合正通過 10x 和 Ultima 的技術不斷增強。通過借助 10x 的 Chromium Flex 技術,以最低單細胞成本和最高分辨率大規模生成擾動數據,助力構建生物學 AI 模型;利用 Ultima 的 UG 100 測序系統及 Solaris 化學技術,以更低成本生成更多數據,還將使用 UG 100 Solaris Boost(一種目前處于早期訪問階段的全新高通量操作模式),以進一步提高數據產出。

向前追溯,2024 年 11 月,Arc 研究所聯合斯坦福大學與加州大學伯克利分校開發出 Evo,這是首個基于 DNA 大規模訓練的生物基礎模型。它借助深度學習架構解析 DNA 編碼信息,能在 DNA 、 RNA 及蛋白質層面進行預測與設計,覆蓋從核苷酸到基因組的生物尺度,其核心價值在于破譯 DNA 進化模式。研究團隊利用其設計出自然界未知的功能性 CRISPR 系統 EvoCas9-1,僅測試 11 個設計便獲得成功,其序列與常用 Cas9 相似度 73% 卻具相當活性;此外,還成功設計了可移動的遺傳元件 IS200/IS605 轉座子。被譽為生物學領域的生成式 AI 基礎模型。

2025 年 2 月,Arc 研究所在此基礎上與 NVIDIA 合作開發迄今為止最大的生物學 AI 模型——Evo 2 。 Evo 2 基于超 10 萬個物種的 9.3 萬億個核苷酸訓練,能夠識別基因序列模式,準確預測人類致病突變,還可設計相當于細菌基因組長度的新基因組。在技術上借助 NVIDIA DGX Cloud 平臺的 2,000 余塊 H100 GPU 訓練,采用 StripedHyena 2 架構,處理數據量較前身 Evo 1 提升 30 倍,可同時分析百萬核苷酸序列。

此外,2024 年 7 月,Arc 的 Goodarzi 實驗室與 Gilbert 實驗室合作,發現 mRNA 可以利用新發現的「RNA 開關」主動控制自身表達。 2024 年 6 月,Arc 的 Hsu 實驗室發現了第一個天然的 RNA 引導重組酶,它可以可編程地插入、切除或反轉任何兩個感興趣的 DNA 序列,這是首個利用非編碼 RNA 進行序列特異性靶向和供體 DNA 分子篩選的 DNA 重組酶,由于這種橋接 RNA 是可編程的,所以允許用戶指定任何所需的基因組靶序列和任何待插入的供體 DNA 分子。

參考資料:
1.??https://arcinstitute.org/news???
2.??https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲自拍一区在线观看 | 99精品一区二区三区 | 黄色播放 | 久草a√ | 国产亚洲成av人片在线观看桃 | 亚洲免费一区二区 | 福利社午夜影院 | 91麻豆精品国产91久久久久久 | 亚洲视频中文字幕 | 成人精品一区二区三区中文字幕 | 欧美日韩中文字幕在线 | 久久久久国产一区二区三区 | 国产高清视频一区二区 | 成人国产在线视频 | www亚洲精品 | 亚洲不卡在线观看 | 欧美日韩国产一区二区三区 | 亚洲国产在 | 日本视频中文字幕 | 一区二区三区韩国 | 国产精品久久久久一区二区三区 | 91深夜福利视频 | 一区二区视频在线 | 国产激情在线 | 午夜午夜精品一区二区三区文 | 久久久久国产成人精品亚洲午夜 | 日韩精品久久一区二区三区 | 黄网站在线观看 | 日韩在线免费电影 | 精品九九九 | 亚洲精品日韩视频 | 不卡一二三区 | 国产探花在线观看视频 | 色综合欧美 | 亚洲精品粉嫩美女一区 | 欧美操操操 | 国产日韩中文字幕 | 免费成人高清在线视频 | 国产精品久久国产精品 | 久久免费国产 | 日本大片在线播放 |