成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華系細胞大模型登Nature子刊!能對人類2萬基因同時建模,代碼已開源

人工智能 新聞
scFoundation模型為建立細胞預訓練大模型的模型架構、訓練框架,和下游示范應用體系都提供了新的思路和方法,為生物醫學任務的學習提供了基礎功能,拓展了單細胞領域基礎模型的邊界。

生命科學領域的基礎大模型來了!

來自清華、百圖生科的團隊提出的單細胞基礎大模型scFoundation,登上Nature Methods。

圖片

該模型基于5000萬人類單細胞測序的數據進行訓練,擁有1億參數,能夠同時處理約20000個基因。

團隊在模型架構上進行了創新,相同參數量下計算時間是傳統Transformer架構的3%左右。相關研究成果也被NeurIPS2024接收。

清華大學自動化系博士研究生郝敏升為該論文的第一作者。清華大學張學工教授,馬劍竹教授,百圖生科宋樂教授為通訊作者。

作為基礎模型,它在細胞測序深度增強、細胞藥物響應預測和細胞擾動預測等下游任務中表現出卓越的性能提升,并為基因網絡推斷和轉錄因子識別提供了新的研究思路。

細胞基礎大模型登Nature子刊

通過在大規模語料庫上的訓練,大模型才具備了基本的語言理解和識別能力。

在生命科學領域,細胞可以被視為擁有自身“語言”的基本結構和功能單元,由DNA序列、蛋白質和基因表達值等構成無數“詞語”的“句子”。

那么隨之而來的問題是:

能否基于大量細胞的“句子”來開發細胞的基礎模型?

目前訓練大規模單細胞數據主要存在以下三點挑戰:

1、基因表達預訓練數據需要涵蓋不同狀態和類型的細胞景觀。然而目前大多數單細胞數據組織松散,全面完整的數據庫仍然缺失。

2、在訓練過程中,傳統的transformer難以處理近20000個蛋白質編碼基因構成的“句子”,這使得現有工作通常不得不將模型限制在一小部分預選的基因列表上。

3、 不同技術和實驗室的單細胞轉錄數據在測序深度上存在差異,這妨礙了模型學習統一且有意義的細胞和基因表示。

針對這些問題,研究團隊首先收集了超過5000萬個涵蓋各個器官、腫瘤和非腫瘤的大規模人類單細胞數據集用于訓練。

與大型語言模型中的“詞-向量”轉換不同,scFoundation通過巧妙設計,將連續的基因表達值轉化為向量。

針對單細胞數據的高稀疏性以及零值和非零值所包含信息量的差異,研究團隊設計了一個非對稱編碼模塊。

該模塊在保持相同參數規模的情況下,所需的計算量僅為傳統語言模型Transformer的3.4%。

此外,研究團隊還提出了一種測序深度感知的預訓練任務“read-depth-aware (RDA)”,能夠對測序深度進行降采樣,使得模型在預訓練階段在完成傳統的掩膜恢復任務外,還能夠由低質量細胞恢復高質量細胞的基因表達信息。

圖片

△scFoundation模型及下游應用場景

兩種應用范式

scFoundation的應用范式主要包括開箱即用和微調兩種:

  1. 從scFoundation得到表征,進一步利用下游方法分析。
  2. 訓練scFoundation一層和針對各個任務的MLP頭,進行標簽預測。

在開箱即用范式上,受益于RDA預訓練任務,將scFoundation應用于細胞測序深度增強任務,在不需要進一步微調的情況下達到了比現有訓練方法相當甚至更好的效果。

圖片

此外,通過構建模型預測細胞對癌癥藥物干預的反應,對指導抗癌藥物的設計及理解癌癥的生物學機制至關重要。

基于scFoundation提取的Bulk基因表達數據,能夠預測藥物半最大抑制濃度IC50及單細胞水平的藥物敏感性,顯示出在幾乎所有藥物和癌癥類型上預測效果均有顯著提升。

圖片

而在細胞擾動預測任務中,通過提取單個細胞的基因表征來構建特定的基因共表達網絡,scFoundation成功捕捉了不同條件下的細胞和基因表征,顯著提高了單/雙擾動預測的準確度。

圖片

此外,基因表征還可用于構建針對特定細胞類型的基因網絡。研究團隊在T、B和Monocyte細胞類型中識別出了特異的基因模塊和轉錄因子。在微調應用方面,scFoundation在細胞類型標注任務中的效果遠超傳統方法。

研究人員還進行了豐富的消融實驗,揭示了不同模塊設計對性能的影響,相關模型細節已在NeurIPS 2024的xTrimoGene模型中發表。

圖片

綜上所述,scFoundation模型為建立細胞預訓練大模型的模型架構、訓練框架,和下游示范應用體系都提供了新的思路和方法,為生物醫學任務的學習提供了基礎功能,拓展了單細胞領域基礎模型的邊界。

目前模型權重及代碼已開源。同時為了減少計算負擔,支持更多用戶輕量使用,研究團隊也提供了模型相應的API,用戶可在線獲取scFoundation模型表征,支持CLI、Python SDK和網頁端調用。

論文鏈接https://www.nature.com/articles/s41592-024-02305-7
https://papers.nips.cc/paper_files/paper/2023/file/db68f1c25678f72561ab7c97ce15d912-Paper-Conference.pdf
代碼權重開源:https://github.com/biomap-research/scFoundationhttps://aigp.biomap.com/models/1760957084760342530/1760957084772925441

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-03-06 13:59:38

模型參數

2024-05-16 12:48:12

數據AI

2022-08-05 14:38:16

機器學習AI

2023-03-13 13:24:34

智能Nature

2022-02-24 13:54:12

機器學習基因研究

2024-02-04 09:20:00

AI量子計算

2025-06-10 09:04:00

2024-04-22 07:30:00

藥物分子模型

2022-07-12 14:56:30

AI模型研究

2025-02-04 19:26:41

2025-03-23 22:01:30

2023-07-06 14:46:11

華為模型

2023-05-10 15:30:34

自動駕駛

2022-12-08 14:12:24

研究Nature

2024-04-17 12:20:51

腦機接口深度學習人工智能

2023-10-24 19:43:34

2021-12-31 14:30:30

人工智能機器學習技術

2022-07-20 14:59:51

機器狗算法

2021-10-29 14:41:17

AI 模型人工智能

2023-07-14 11:47:08

AI醫生
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久精品影院 | 久久精品日产第一区二区三区 | 精品欧美乱码久久久久久 | 北条麻妃国产九九九精品小说 | 男女羞羞视频免费 | 久久久久久99 | 亚洲第一黄色网 | 中文字幕在线一区二区三区 | 国产午夜精品一区二区三区四区 | 欧美日韩在线一区二区 | 91原创视频 | 久久国产亚洲 | 久久99精品久久久久婷婷 | 天天操天天插天天干 | 亚洲精品一区二区三区蜜桃久 | 日本一卡精品视频免费 | 免费黄色的视频 | 欧美三级电影在线播放 | 免费一级欧美在线观看视频 | 国产欧美精品 | 丝袜久久| 日韩成人av在线 | 正在播放国产精品 | 欧美精品一区二区三 | 久久久国产精品 | 日韩成人在线视频 | 日韩精品一 | 日日操av | 国产九九九九 | 欧美一级黄色片在线观看 | japan21xxxxhd美女| 久久久久国产一区二区三区四区 | 午夜在线影院 | 久久精品视频网站 | 欧美精品久久久久久久久老牛影院 | 亚洲成人免费 | 激情黄色在线观看 | 精品国产视频在线观看 | 国产精品夜夜春夜夜爽久久电影 | 一级一片在线观看 | 欧美视频xxx |