成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR 2024 | UIUC等提出BioBridge:用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型

發(fā)布于 2024-3-28 12:38
瀏覽
0收藏

01 引言

這是 UIUC Zifeng Wang 等發(fā)表在 ICLR'24 上的論文。

ICLR 2024 | UIUC等提出BioBridge:用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型-AI.x社區(qū)

論文題目:

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs

論文鏈接:

??https://arxiv.org/pdf/2310.03320.pdf??


在生物醫(yī)學(xué)研究領(lǐng)域,一直以來,基礎(chǔ)模型(Foundation Models,簡稱FMs)大多局限于單一模態(tài)的數(shù)據(jù)處理,比如僅僅專注于蛋白質(zhì)序列、小分子結(jié)構(gòu)或者是臨床數(shù)據(jù)分析。這種單模態(tài)的處理框架雖然在特定任務(wù)上表現(xiàn)出色,但在應(yīng)對多樣化的生物醫(yī)學(xué)數(shù)據(jù)時(shí),其潛能卻受到了限制。

ICLR 2024 | UIUC等提出BioBridge:用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型-AI.x社區(qū)

▲ 幾種構(gòu)建多模態(tài)模型的方法:CLIP,ImageBind,BioBridge

02 CLIP

傳統(tǒng)的多模態(tài)方法,比如大名鼎鼎的 CLIP 模型 [1],大多建立在配對的多模態(tài)數(shù)據(jù)上。比如,如果我們要訓(xùn)練一個(gè)蛋白質(zhì)-文本模型,就需要收集大量的蛋白質(zhì)序列和其對應(yīng)的文本描述,從而做對比學(xué)習(xí)。這一類工作有很多,比如在 x-rays 和臨床筆記上做對比的 MedCLIP [2],在文本和蛋白質(zhì)上做的 ProteinDT [3],在文本和分子上做的 MolT5 [4],等等。


但是,假如我們有超過兩個(gè)模態(tài),比如有三個(gè)模態(tài) A,B,C,在這種思路下,我們就需要三種配對數(shù)據(jù),AB, AC, 和 BC,才能訓(xùn)練一個(gè)三塔的多模態(tài)模型。當(dāng)存在更多模態(tài)的時(shí)候,這種對于數(shù)據(jù)的需要是排列組合式增長的。這就使這種配對數(shù)據(jù)的思路很難用于超過兩個(gè)模態(tài)的情況。

03 ImageBind

ImageBind [5] 是 Meta AI 提出的一種用來構(gòu)建多模態(tài)檢索模型的一種方法。其本質(zhì)是選擇一個(gè)模態(tài)作為中間模態(tài),比如圖片,然后讓其他模態(tài)的模型都向圖片模態(tài)靠攏。在這情況下,假設(shè)我們有一個(gè)中間模態(tài) A,還有另外兩個(gè)模態(tài) B,C,我們就需要收集 AB 和 AC 兩種配對數(shù)據(jù)。在這種情況下,ImageBind 一共需要 (模態(tài)數(shù)-1)個(gè)數(shù)的配對數(shù)據(jù),而且需要更新 (模態(tài)數(shù)-1)個(gè)模態(tài)的編碼器來構(gòu)建多模態(tài)系統(tǒng)。

04 BioBridge

本文提出用知識(shí)圖譜(KG)來作為多模態(tài)數(shù)據(jù)源,從而將獨(dú)立訓(xùn)練的單模態(tài)基礎(chǔ)模型橋接(Bridge)成一個(gè)能夠處理多種數(shù)據(jù)模態(tài)的系統(tǒng)(Multimodal FM)。


單模態(tài)的數(shù)據(jù)往往比多模態(tài)數(shù)據(jù)的數(shù)量要大的多。我們可以收集到超過 2.5 億個(gè)蛋白質(zhì)序列或者 15 億個(gè)分子結(jié)構(gòu),但是只能收集到 44 萬個(gè)蛋白質(zhì)文本對。大模型的縮放原理告訴我們,基礎(chǔ)模型需要“大”數(shù)據(jù)才能產(chǎn)生所謂的 emergent ability。所以我們更容易訓(xùn)練出很好的單模態(tài)模型,卻不容易從零開始訓(xùn)練出一個(gè)多模態(tài)模性。


在這種思路下,我們希望能夠在訓(xùn)練好的單模態(tài)基礎(chǔ)模型的基礎(chǔ)上,去把它們合并在一起去作為一個(gè)多模態(tài)的系統(tǒng)。這就產(chǎn)生了這篇文章里提到的 “bridge” 的概念。


KG 存在許多三元組,比如(蛋白質(zhì) A, associated with,疾病 B)。這樣,我們希望能夠用一個(gè)單模態(tài)的蛋白質(zhì)模型去編碼蛋白質(zhì) A,然后設(shè)計(jì)一個(gè)關(guān)系模型取編碼 “associated with”,將蛋白質(zhì) A 的embedding 映射到疾病的 space 里。這樣,我們可以匹配由蛋白質(zhì) A 生成的 embedding 和疾病 B 的 embedding,做到跨模態(tài)檢索。


通過 BioBridge,不同類型的生物醫(yī)學(xué)數(shù)據(jù)能夠?qū)崿F(xiàn)無縫交互和轉(zhuǎn)換,而且這一切都不需要對原有的單模態(tài)模型做任何調(diào)整。

05 一些結(jié)果

這里放一小部分結(jié)果,更多的結(jié)果在原文可見。

ICLR 2024 | UIUC等提出BioBridge:用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型-AI.x社區(qū)

這里我們是用 BioBridge 來根據(jù)輸入的文本,檢索相關(guān)的蛋白質(zhì),再用蛋白質(zhì)+文本去 prompt Galactica 生成分子模型。這里的思路是利用 BioBridge 來構(gòu)建一個(gè)多模態(tài)的 RAG 系統(tǒng)。本文發(fā)現(xiàn)加上 RAG 的 galactica 能夠更好地生成符合輸入文本描述的分子。


本文轉(zhuǎn)自 PaperWeekly ,作者:Zifeng Wang


原文鏈接:??https://mp.weixin.qq.com/s/K12ldlumDyTpdZg5Oh2GaQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 99精彩视频 | 一区视频 | 欧美久久免费观看 | 亚洲www | 97国产精品| 2020国产在线| 久久se精品一区精品二区 | 亚洲综合色丁香婷婷六月图片 | 在线视频一区二区 | 午夜国产一级 | 午夜伦4480yy私人影院 | 亚洲3级 | 在线观看国产网站 | 亚洲一区二区三区四区视频 | 国产激情网| 这里只有精品99re | 国产精品a久久久久 | 亚洲一区二区三区四区五区午夜 | 中文字幕av在线 | 亚洲综合视频 | 在线视频亚洲 | 蜜臀网| 免费午夜电影 | www.色综合| 夜夜av| 精品无码久久久久久国产 | 国产精品亚洲成在人线 | 91精品久久久久久久久久入口 | 欧美精品网站 | 精品久久影院 | 国产欧美一区二区三区免费 | 天天干天天玩天天操 | 伊人在线 | 欧美黑人一区二区三区 | 欧美日韩国产一区二区 | 亚洲精品一区二三区不卡 | 在线看av网址 | 91久色| 久久91精品久久久久久9鸭 | 久久精品无码一区二区三区 | 91av视频 |