成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

識別細胞也能用大模型了!清華系團隊出品,已入選ICML 2024 | 開源

人工智能 新聞
LangCell的數據集中包含約2750萬條數據,覆蓋了細胞類型、發育階段、組織器官、疾病等8個維度的信息,稱得上是“細胞的百科全書”。

大模型帶來的生命科學領域突破,剛剛再傳新進展。

來自清華系,使用大模型實現了單細胞身份識別,同時模型LangCell也正式對外開源。

它不僅可以準確識別細胞身份,還具有很強的零樣本分析能力,論文已被ICML 2024錄?。

圖片

LangCell的數據集中包含約2750萬條數據,覆蓋了細胞類型、發育階段、組織器官、疾病等8個維度的信息,稱得上是“細胞的百科全書”。

實際測試中,LangCell也在多個細胞識別理解任務上超越了前SOTA,在研究人員專門設計的新任務上也表現突出。

而且,即使在不使用文本信息的情況下,單獨用其包含的細胞編碼器模塊,也能在各個任務上實現最優表現。

出品團隊:清華系創業公司??分?清華?學AIR聶再清教授團隊

大模型,細胞識別的“新武器”

細胞,是探索?命奧秘的起點,細胞?份的識別,是?物科學領域的??熱點。

這不僅關乎細胞的“戶?調查”,還關系到它們在組織中的“社交關系”,以及它們對“?物信號”和“環境變化”的敏感反應,?了解這些信息的重要途徑,就是分析單細胞測序數據。

但單細胞測序數據分析,就像是?場科學界的“尋寶游戲”,可能需要?個??到???不等的跨學科的團隊,用?周到?個?,甚?更?時間來完成。

現在,LangCell模型成為了細胞?份識別的“新武器”。

LangCell是?個結合單細胞RNA測序數據與?然語?處理進?預訓練的單細胞表征模型,不僅提?了識別的準確性,還減少了對?量標記數據的依賴。

傳統的單細胞RNA測序數據分析,就像是在沒有地圖的情況下尋找寶藏,雖然能找到?些線索,但總有些?不從?。

?LangCell模型,通過構建單細胞數據和?然語?的統?表?,就像是給了模型?張“藏寶圖”,讓它能夠更直接地找到與細胞?份相關的信息。

具體來說,LangCell主要由細胞編碼器(Cell Encoder,CE)和文本編碼器兩部分組成。

其中細胞編碼器使用預訓練的Geneformer初始化。將排序后的基因表達序列輸入轉化為嵌入向量序列,在序列開始處添加[CLS]標記,其嵌入向量經過線性變換作為整個細胞的表征向量。

文本編碼器又有單模態和多模態兩種編碼模式。

單模態時相當于一個BERT模型,用于將文本轉換為嵌入向量;

多模態時在self-attention后添加cross-attention模塊,融合細胞嵌入向量計算聯合表征,并通過線性層預測細胞-文本匹配概率。

圖片

為訓練LangCell,研究?員還構建了?個名為scLibrary的數據集,它包含了2750萬條scRNA-seq數據及從OBO Foundry中獲取的細胞?份的多視??本描述,就像是細胞研究的“百科全書”。

這個數據集不僅包含了?量的原始數據,還包含了多視?的細胞?份?本描述,為模型提供了豐富的學習材料。

此外在零樣本場景中,只需未知類型細胞的scRNA-seq數據輸入到CE中,得到細胞嵌入向量表征,然后與候選類型的文本嵌入向量進行相似度計算,分數最高的類型即被預測為該未知細胞的類型。

圖片

結果,LangCell模型在零樣本細胞?份理解場景中表現出?,即使沒有進?微調,也能直接對新的細胞類型進?注釋。

在PBMC數據集上,零樣本的LangCell分類準確率就已達到86.5%,F1評分更是超過了前SOTA模型的9-shot表現。

圖片

在更具挑戰的跨數據集的細胞-文本檢索任務中,LangCell的零樣本召回率R@1、R@5和R@10結果都超過了用30%標注數據訓練的BioTranslator模型。

圖片

此外,研究者還專門構建了“非小細胞肺癌亞型分類”和“細胞通路識別”兩個具有重要生物學意義的新基準測試任務。

結果在非小細胞肺癌亞型分類任務中,LangCell的零樣本分類準確率和F1分數分別達到93.5%和93.2%,比10-shot的Geneformer高出約20%。

而對于細胞批次整合任務,在PBMC10K和Perirhinal Cortex兩個數據集上,LangCell的Avgbio、ASWbatch和Sfinal三個指標均達到了最優。

圖片

不僅LangCell的表現優異,即使在不使用文本信息的情況下,單獨的CE模塊也能在各個任務上實現最優表現。

在多個細胞類型注釋任務的數據集上,CE模塊的成績都超過了前SOTA,在細胞通路識別上的表現也十分優異。

圖片

作者介紹,LangCell的這些能力,在新疾病或細胞亞型的研究中尤為重要,可以減少對?量標記數據的依賴,加速疾病機理的發現。

團隊簡介

??分?由清華?學智能產業研究院(AIR)孵化,重點研究方向是?物醫藥?業基礎?模型及新?代對話式?物醫藥研發助?。

水木分子和清華大學還有兩項與北大和南大共同研發的成果一同入選了ICML 2024,分別在小分子3D表示學習和大分子蛋白質表示學習方面取得進展。

GitHub:https://github.com/PharMolix/OpenBioMed

論文地址https://arxiv.org/abs/2405.06708

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-06-18 15:50:56

模型人工智能深度學習

2024-06-11 07:40:00

2024-07-30 13:42:57

2024-02-27 09:14:01

AI模型

2024-07-19 10:39:38

2024-10-25 14:30:00

模型AI

2023-10-17 12:34:04

2025-05-07 13:48:48

AIGC生成機器人

2024-07-22 08:22:00

2023-03-15 09:36:14

模型

2024-06-28 16:03:38

2023-08-08 14:36:11

模型AI

2024-01-15 06:30:00

模型AI

2022-07-12 10:37:08

阿里巴巴達摩院機器學習

2021-06-02 10:01:20

開源技術 軟件

2025-02-12 12:45:59

2025-02-18 13:30:00

2024-02-07 12:39:00

AI數據

2025-06-20 14:29:02

模型訓練大數據

2023-03-13 15:56:00

模型框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产一区二区三区 | 97精品国产手机 | 欧美日韩中文在线 | 精品国产一区二区三区久久久久久 | 午夜一级做a爰片久久毛片 精品综合 | 精品网站999www | 亚州av在线 | 在线一区二区观看 | 久久精品91久久久久久再现 | 在线中文字幕国产 | 免费观看的av毛片的网站 | 国产一区二区三区四区在线观看 | 日韩福利 | av激情影院 | 国产成人高清在线观看 | 日韩电影一区二区三区 | 视频在线观看亚洲 | 午夜精品久久 | 一区二区三区视频在线免费观看 | 91免费观看在线 | 亚洲综合在线网 | 青青草在线视频免费观看 | 在线欧美激情 | 精品国产一级 | 国产精品亚洲成在人线 | 国产一区2区 | 午夜精品久久久久久久久久久久久 | 国产精品大全 | 中文字幕 在线观看 | 国产精品久久久久久久久久久久 | 国产一区二区久久久 | 精品欧美一区免费观看α√ | 国产91亚洲精品一区二区三区 | 一区二区不卡视频 | 一区二区三区四区毛片 | 四虎永久在线精品免费一区二 | 精品免费在线 | 亚洲导航深夜福利涩涩屋 | 国产精品美女久久久久久免费 | 四虎影院新网址 | 亚洲美乳中文字幕 |