清華系細胞大模型登Nature子刊!能對人類2萬基因同時建模,代碼已開源
生命科學領域的基礎大模型來了!
來自清華、百圖生科的團隊提出的單細胞基礎大模型scFoundation,登上Nature Methods。
該模型基于5000萬人類單細胞測序的數據進行訓練,擁有1億參數,能夠同時處理約20000個基因。
團隊在模型架構上進行了創新,相同參數量下計算時間是傳統Transformer架構的3%左右。相關研究成果也被NeurIPS2024接收。
清華大學自動化系博士研究生郝敏升為該論文的第一作者。清華大學張學工教授,馬劍竹教授,百圖生科宋樂教授為通訊作者。
作為基礎模型,它在細胞測序深度增強、細胞藥物響應預測和細胞擾動預測等下游任務中表現出卓越的性能提升,并為基因網絡推斷和轉錄因子識別提供了新的研究思路。
細胞基礎大模型登Nature子刊
通過在大規模語料庫上的訓練,大模型才具備了基本的語言理解和識別能力。
在生命科學領域,細胞可以被視為擁有自身“語言”的基本結構和功能單元,由DNA序列、蛋白質和基因表達值等構成無數“詞語”的“句子”。
那么隨之而來的問題是:
能否基于大量細胞的“句子”來開發細胞的基礎模型?
目前訓練大規模單細胞數據主要存在以下三點挑戰:
1、基因表達預訓練數據需要涵蓋不同狀態和類型的細胞景觀。然而目前大多數單細胞數據組織松散,全面完整的數據庫仍然缺失。
2、在訓練過程中,傳統的transformer難以處理近20000個蛋白質編碼基因構成的“句子”,這使得現有工作通常不得不將模型限制在一小部分預選的基因列表上。
3、 不同技術和實驗室的單細胞轉錄數據在測序深度上存在差異,這妨礙了模型學習統一且有意義的細胞和基因表示。
針對這些問題,研究團隊首先收集了超過5000萬個涵蓋各個器官、腫瘤和非腫瘤的大規模人類單細胞數據集用于訓練。
與大型語言模型中的“詞-向量”轉換不同,scFoundation通過巧妙設計,將連續的基因表達值轉化為向量。
針對單細胞數據的高稀疏性以及零值和非零值所包含信息量的差異,研究團隊設計了一個非對稱編碼模塊。
該模塊在保持相同參數規模的情況下,所需的計算量僅為傳統語言模型Transformer的3.4%。
此外,研究團隊還提出了一種測序深度感知的預訓練任務“read-depth-aware (RDA)”,能夠對測序深度進行降采樣,使得模型在預訓練階段在完成傳統的掩膜恢復任務外,還能夠由低質量細胞恢復高質量細胞的基因表達信息。
△scFoundation模型及下游應用場景
兩種應用范式
scFoundation的應用范式主要包括開箱即用和微調兩種:
- 從scFoundation得到表征,進一步利用下游方法分析。
- 訓練scFoundation一層和針對各個任務的MLP頭,進行標簽預測。
在開箱即用范式上,受益于RDA預訓練任務,將scFoundation應用于細胞測序深度增強任務,在不需要進一步微調的情況下達到了比現有訓練方法相當甚至更好的效果。
此外,通過構建模型預測細胞對癌癥藥物干預的反應,對指導抗癌藥物的設計及理解癌癥的生物學機制至關重要。
基于scFoundation提取的Bulk基因表達數據,能夠預測藥物半最大抑制濃度IC50及單細胞水平的藥物敏感性,顯示出在幾乎所有藥物和癌癥類型上預測效果均有顯著提升。
而在細胞擾動預測任務中,通過提取單個細胞的基因表征來構建特定的基因共表達網絡,scFoundation成功捕捉了不同條件下的細胞和基因表征,顯著提高了單/雙擾動預測的準確度。
此外,基因表征還可用于構建針對特定細胞類型的基因網絡。研究團隊在T、B和Monocyte細胞類型中識別出了特異的基因模塊和轉錄因子。在微調應用方面,scFoundation在細胞類型標注任務中的效果遠超傳統方法。
研究人員還進行了豐富的消融實驗,揭示了不同模塊設計對性能的影響,相關模型細節已在NeurIPS 2024的xTrimoGene模型中發表。
綜上所述,scFoundation模型為建立細胞預訓練大模型的模型架構、訓練框架,和下游示范應用體系都提供了新的思路和方法,為生物醫學任務的學習提供了基礎功能,拓展了單細胞領域基礎模型的邊界。
目前模型權重及代碼已開源。同時為了減少計算負擔,支持更多用戶輕量使用,研究團隊也提供了模型相應的API,用戶可在線獲取scFoundation模型表征,支持CLI、Python SDK和網頁端調用。
論文鏈接https://www.nature.com/articles/s41592-024-02305-7
https://papers.nips.cc/paper_files/paper/2023/file/db68f1c25678f72561ab7c97ce15d912-Paper-Conference.pdf
代碼權重開源:https://github.com/biomap-research/scFoundationhttps://aigp.biomap.com/models/1760957084760342530/1760957084772925441