成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

威大華人團隊全新多模態數據分析及生成方法JAMIE,大幅提升細胞類型、功能預測能力

人工智能 新聞
最近,來自美國威斯康辛大學王岱峰研究團隊,提出了一種全新的多模態數據處理方法JAMIE,可用于單細胞多模態數據分析,如數據對齊、嵌入和添補。

近年來,隨著單細胞技術的迅速發展,我們得以測量了單個細胞的各種特征從而獲取單細胞多模態數據(比如scRNA-seq,scATAC-seq,Patch-seq)。

這些數據有助于我們深入了解細胞功能和分子機制。比如研究人員近來多通過機器學習方法來分析單細胞多模態數據間的關系,進而理解細胞類型和疾病所涉及的生物學機制。 

但是單細胞多模態數據的獲取常常成本高昂,并且模態缺失時有發生。而現有的機器學習方法通常需要完全匹配的多模態數據才能進行數據填補和嵌入,不適用于模態缺失的情形。

為了解決這個問題,美國威斯康辛大學麥迪遜分校王岱峰實驗室開發了一種基于聯合變分自動編碼器的開源機器學習方法——Joint Variational Autoencoders for Multimodal Imputation and Embedding(JAMIE)。

JAMIE可用于單細胞多模態數據整合分析,如數據對齊、嵌入,和對丟失數據進行添補,從而更好的預測細胞類型及功能。

此工作于近日發表于《自然–機器智能》(Nature Machine Intelligence)。

圖片

論文地址:https://www.nature.com/articles/s42256-023-00663-z

項目地址:https://github.com/daifengwanglab/JAMIE

JAMIE方法介紹

JAMIE訓練了一種可重復使用的聯合變分自編碼器模型,將可用的多模態數據分別投影到相似的潛空間中,從而增強了單模態模式的推斷能力。

如圖1所示,為了執行跨模態填補,JAMIE將數據饋入編碼器,然后將潛空間結果通過相反的解碼器進行處理。

JAMIE將自編碼器的可重復使用和靈活的潛空間生成與對齊方法的自動對應估計相結合,從而能夠處理不完全對應的多模態數據。

圖片

圖1. JAMIE方法總覽

具體而言,JAMIE可以分為以下兩步:

  1. 輸入數據預處理。以雙模態為例,假設模態對應數據矩陣分別為和。注意這里特征維度和可以不同,樣本數目和也可以不同。預處理對每個矩陣的每一行都歸一化成均值0和方差1。如果有對應數據,用戶可以提供模態相關矩陣來改進性能,其中 表示模態中的第個樣本和模態中的第個樣本完全對應,表示沒有已知的對應關系,表示有部分的對應關系。
  2. 利用聯合變分自編碼器學習每個模態的相似潛空間:  和 ,其中(默認,用戶可調節)是潛空間維度。訓練過程中,JAMIE最小化如下損失函數:

圖片

總損失函數包含四項。

其中第一項計算變分自編碼器推斷出的分布與多元標準正態分布之間的Kullback-Leibler (KL)散度,有助于保持潛空間的連續性;第二項強制對應樣本的相似性;第三項是重構數據矩陣和原始數據矩陣之間的平均平方誤差和;第四項利用推斷的跨模態對應關系來調整生成的潛空間。

各項的具體表達方式見論文原文。第二、三、四項的相對第一項的權重可由用戶自行調節,JAMIE也提供了可適用于常用情況的默認權重。

下述表格展示了JAMIE與當前最先進方法的模型和適用范圍的對比。JAMIE將幾種不同的整合和插補方法的特征統一到一個單一的架構中,因此能夠進行缺失模態插值,從而具有非組學數據兼容性、且能處理只有部分對應關系的多模態數據的優點。

圖片

表1. 各種多模態整合和缺失模態填補方法的比較。JAMIE在一個單一的架構中統一了來自多種不同整合和插補方法的特征。NLMA:非線性流形對齊[15],UnionCom[7],CCA:典型相關分析[15, 16],BABEL[5]。

JAMIE的主要應用

多模態數據的整合和表型預測

對多模態數據的整合可以改進分類性能、增進對表型知識和復雜生物機制的理解。

給定兩個數據集、和對應關系,JAMIE可以根據訓練好的編碼器和生成潛空間數據、,并基于、進行聚類或者分類。

基于潛空間數據的聚類具有幾個優勢,如將兩種模態都納入到特征生成。然后,JAMIE可以預測樣本對應關系,并如細胞類型預測。

對于部分標注的數據集,同一聚類的細胞們應該具有相似的類型。

JAMIE在生成潛空間數據的過程中就進行了分離了不同類型數據的特征,因此通常不需要復雜的聚類或分類算法就可以達到較好的效果。

對于高維數據,JAMIE使用UMAP[32]進行細胞類型聚類可視化。

跨模態數據填補

目前跨模態填補的很多方法不能展示它們學習到了用于填補目的的潛在生物機制。

對比于前饋網絡或線性回歸方法,JAMIE能基于更嚴格的數學基礎更好的學習到潛在的生物機制來預測缺失數據。

圖2展示了JAMIE用于跨模態數據填補的流程。JAMIE先是針對訓練數據訓練編碼和解碼模型。

對于新數據  ,JAMIE首先利用數據學習到的編碼器將其投影到潛空間得到  ,然后通過聚合潛空間特征的方法得到  ,最后通過對應的解碼器將解碼成缺失模式的數據。

JAMIE使用潛空間預測細胞的對應關系,這可能有助于理解數據特征和表型之間的關系。

圖片

圖2. JAMIE跨模態插補

潛空間特征和填補特征的解釋

為了解釋訓練的模型,JAMIE采用了SHAP(SHapley Additive exPlanations)[18]。

SHAP通過對模型生成的個體預測進行樣本調制來評估各個輸入特征的重要性。這可以用于各種有趣的應用。

如果目標變量可以通過表型輕松分離,SHAP可以確定進一步研究的相關特征。此外,如果我們進行填補,SHAP可以揭示模型學到的跨模態聯系。

給定模型和樣本,學習到SHAP值,使得,其中是背景特征向量。

如果,則SHAP值的總和和背景輸出將等于,其中每個與對模型輸出的影響成比例。

另一種有用的技術是選擇一個關鍵指標用于分類(例如,LTA[7,19])或填補(例如,填補特征與測量特征之間的對應關系),并在模型中逐個移除(用背景值替代)每個特征來評估該指標。

然后,如果關鍵指標變得更糟,這表明被移除的特征對于模型的結果更為重要。

實驗結果

JAMIE采用了四個常用的單細胞多模態數據集進行驗證。

(1)來自MMD-MA的分支流形的高斯分布采樣生成的模擬多模態數據(300個樣本,3個細胞類型);

(2)來自小鼠視覺皮層(3,654個樣本,6個細胞類型)和小鼠運動皮層(1,208個樣本,9個細胞類型)的單個神經元細胞的Patch-seq基因表達和電生理特征特征數據;

(3)來自人類發育中的大腦(21個孕周,覆蓋人類大腦皮層的7種主要細胞類型)中8,981個樣本的10x單細胞多組學基因表達和染色質可及性數據;

(4)來自COLO-320DM結腸腺癌細胞系的4,301個細胞的scRNA-seq基因表達和scATAC-seq染色質可及性數據。

評估發現,JAMIE明顯優于其他方法(如圖三的MMD-MA的分支流形模擬數據結果比較,和圖四小鼠視覺皮層數據結果比較)并優先考慮了多模態填補的重要特征,同時在細胞分辨率層面上提供了潛在的新機制洞見。

圖片

圖3. 模擬多模態數據結果比較:a、原始空間的UMAP,按細胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現有技術(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對應信息進行細胞類型分離時的比較。x軸為更接近真實均值的樣本比例,y軸為LTA[7,19]值。d、模態1中測量值和插補值之間相似性(1-JS距離)的累積分布。黑線對應不同細胞類型的平均相似性,而每個彩線分別對應一個細胞類型的相似性。

圖片

圖4. 在小鼠視皮層中的基因表達和電生理特征結果比較:a、原始空間的UMAP,按細胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現有技術(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對應信息進行細胞類型分離時的比較。x軸為更接近真實均值的樣本比例,y軸為LTA[7,19]值。d、模態1中測量值和插補值之間相似性(1-JS距離)的累積分布。黑線對應不同細胞類型的平均相似性,而每個彩線分別對應一個細胞類型的相似性。

總結

總而言之,JAMIE 是一種用于單細胞多模態數據整合預測的新型深度神經網絡模型。

它適用于復雜、混合或部分對應的多模態數據,通過一種依賴于聯合變分自編碼器(VAE)結構的新穎潛在嵌入聚合方法來實現。除了上述的優越性能外,JAMIE 還具有高效的計算能力和較低的內存使用需求。此外,預訓練模型以及學習到的跨模態潛在嵌入可以在下游分析中進行重復使用。

當然對于較大的數據集,訓練變分自編碼器(VAEs)需要耗費大量時間。因此,JAMIE 中的自動 PCA 等先前特征選擇方法有助于減輕時間要求。由于VAE使用重建損失,數據預處理也至關重要,以避免大量或重復的特征對低維嵌入特征產生不成比例的影響。對于特定的跨模態插補,必須仔細考慮訓練數據集的多樣性,以避免對最終模型產生偏差并對其泛化能力產生負面影響。JAMIE 還可以潛在地擴展到對來自不同來源而不是不同模態的數據集進行對齊,例如在不同條件下的基因表達數據。

作者介紹

論文作者Noah Cohen Kalafut(計算機系博士生),黃翔(高級研究員),王岱峰(PI)隸屬于威斯康辛大學麥迪遜分校生物統計和醫學信息學系、計算機科學系和威斯曼研究中心。通訊作者為王岱峰教授。

成立于1973年的威斯曼中心半世紀以來一直致力于推進人類發育,神經發育障礙和神經退行性疾病方面的研究。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-09 10:08:02

2025-01-26 00:00:10

2023-11-16 15:58:00

訓練數據

2015-08-31 20:39:14

OpenText大數據分析

2020-07-27 05:40:13

Python數據分析開發

2011-05-18 10:29:24

分析數據業務優化物聯網

2025-02-25 08:06:05

2023-01-15 13:28:45

2023-03-09 07:51:23

性能提升數據庫

2023-05-15 12:32:29

GPT-4開源

2024-05-21 07:54:30

視頻多模態語義檢索算法

2024-04-01 07:25:00

AI框架

2014-10-27 12:34:50

JMP

2012-11-16 15:41:20

Teradata 大數據天睿

2023-11-29 13:52:00

模型訓練

2009-06-16 11:13:38

Javadoc生成方法Javadoc

2009-06-22 14:57:09

2018-01-31 13:59:46

思科預測數據

2022-04-02 06:20:48

IT領導者數據分析團隊

2025-03-11 09:10:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品2 | 久久久久网站 | 毛片网络 | 欧美日韩精品久久久免费观看 | 黄色日批视频 | 国产精品1 | 国产精品视频999 | 天天躁人人躁人人躁狂躁 | 国产精品久久久久aaaa九色 | 欧美日韩国产精品一区 | 一区二区三区在线 | 久久国产精品视频 | 国产一区二区在线播放 | 国产在线不卡 | 四虎影院一区二区 | 激情一区二区三区 | 91社影院在线观看 | 久久精品国产一区二区电影 | 97精品国产一区二区三区 | 北条麻妃一区二区三区在线观看 | av中文字幕在线观看 | 国产精品成av人在线视午夜片 | 国内自拍真实伦在线观看 | 久久狠狠| 91原创视频在线观看 | 国产精品女人久久久 | 精品美女久久久久久免费 | 欧美在线观看免费观看视频 | 男女深夜网站 | 成人国产精品久久久 | 日韩一区二区在线视频 | 免费观看一级特黄欧美大片 | 国产一区二区三区精品久久久 | 激情国产在线 | 毛片.com | 日韩视频一区 | 成人影院在线视频 | 国产精品1区2区3区 欧美 中文字幕 | 国产精品久久久久久婷婷天堂 | 777毛片| 懂色中文一区二区在线播放 |