成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節(jié)多模態(tài)大模型PixelLM:高效像素級(jí)推理,無需依賴SA

人工智能
研究團(tuán)隊(duì)在三個(gè)benchmark上評(píng)測(cè)了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究團(tuán)隊(duì)要求模型在一個(gè)問題中連續(xù)地分割出referring segme

多模態(tài)大模型爆發(fā),準(zhǔn)備好進(jìn)入圖像編輯、自動(dòng)駕駛和機(jī)器人技術(shù)等細(xì)粒度任務(wù)中實(shí)際應(yīng)用了嗎?

目前大多數(shù)模型的能力還是局限于生成對(duì)整體圖像或特定區(qū)域的文本描述,在像素級(jí)理解方面的能力(例如物體分割)相對(duì)有限。

針對(duì)這個(gè)問題,一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令(例如,“請(qǐng)分割出圖片中富含維生素C的水果”)。

然而,市面上的方法都存在兩個(gè)主要缺點(diǎn):

1) 無法處理涉及多個(gè)目標(biāo)對(duì)象的任務(wù),而這在現(xiàn)實(shí)世界場(chǎng)景中是不可或缺的;

2) 依賴于像SAM這樣的預(yù)訓(xùn)練圖像分割模型,而SAM的一次前向傳播需要的計(jì)算量已經(jīng)足夠 Llama-7B產(chǎn)生500多個(gè)token了。

為了解決此問題,字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究人員提出了首個(gè)無需依賴SAM的高效像素級(jí)推理大模型PixelLM。

在具體介紹它之前,先來體驗(yàn)幾組PixelLM實(shí)際分割的效果:

相比之前的工作,PixelLM的優(yōu)勢(shì)在于:

  • 能夠熟練處理任意數(shù)量的開放域目標(biāo)和多樣化的復(fù)雜推理分割任務(wù)。
  • 避免了額外的、成本高昂的分割模型,提升了效率和對(duì)不同應(yīng)用的遷移能力。

進(jìn)一步,為了支持這一研究領(lǐng)域的模型訓(xùn)練和評(píng)估,研究團(tuán)隊(duì)在LVIS數(shù)據(jù)集的基礎(chǔ)之上,借助GPT-4V構(gòu)建了一個(gè)面向多目標(biāo)推理分割場(chǎng)景的數(shù)據(jù)集MUSE,它包含20萬個(gè)以上的問題-答案對(duì),涉及90萬個(gè)以上的實(shí)例分割掩碼。

圖片

圖片

為了實(shí)現(xiàn)上述的效果,這項(xiàng)研究具體是如何做的呢?

背后原理

圖片圖片

如論文中的框架圖所示,PixelLM架構(gòu)十分簡(jiǎn)潔,包括四個(gè)主要部分,后兩者是PixelLM的核心:

  1. 預(yù)訓(xùn)練的CLIP-ViT視覺編碼器
  2. 大語言模型
  3. 輕量級(jí)像素解碼器
  4. 分割碼表 Seg Codebook

Seg codebook包含可學(xué)習(xí)的tokens,它們用于編碼CLIP-ViT不同尺度上的目標(biāo)信息。然后,像素解碼器基于這些tokens和CLIP-ViT的圖像特征生成目標(biāo)分割結(jié)果。得益于這種設(shè)計(jì),PixelLM可以在沒有外部分割模型的情況下生成高質(zhì)量的分割結(jié)果,顯著提高了模型效率。

根據(jù)研究人員的描述,Seg codebook內(nèi)的tokens可分為L(zhǎng)組,每一組包含N個(gè)token,每個(gè)組對(duì)應(yīng)于來自CLIP-ViT視覺特征的一個(gè)尺度。

對(duì)于輸入的圖像,PixelLM從CLIP-ViT視覺編碼器產(chǎn)的圖像特征中提取出L個(gè)尺度的特征,其中最后一層涵蓋了全局圖像信息,會(huì)被LLM用作理解圖像內(nèi)容。

Seg codebook的tokens將會(huì)與文本指令及最后一層圖像特征一起輸入LLM中,以自回歸的形式產(chǎn)生輸出。而輸出中也將包含經(jīng)過LLM處理后的Seg codebook tokens,它們將與L個(gè)尺度的CLIP-ViT特征一起輸入到像素解碼器中產(chǎn)生最終的分割結(jié)果。

圖片圖片

圖片圖片

那么為什么還要設(shè)置每組包含N個(gè)token呢?研究人員結(jié)合下圖進(jìn)行了解釋:

在涉及多個(gè)目標(biāo)或目標(biāo)所包含的語義十分復(fù)雜的情景中,盡管LLM可以提供詳細(xì)的文本響應(yīng),但僅使用單個(gè)token可能無法充分捕捉目標(biāo)語義的全部?jī)?nèi)容。

為了增強(qiáng)模型在復(fù)雜推理情景下的能力,研究人員在每個(gè)尺度組內(nèi)引入多個(gè)token,并執(zhí)行一個(gè)token的線性融合操作。在token傳入解碼器之前,使用線性投影層將每個(gè)分組內(nèi)的token合并。

下圖展示了每組內(nèi)多個(gè)token時(shí)的效果。注意力圖是每個(gè)token經(jīng)過解碼器處理后的樣子,這個(gè)可視化結(jié)果表明,多個(gè)token提供了獨(dú)特且互補(bǔ)的信息,從而實(shí)現(xiàn)了更有效的分割輸出。

圖片圖片

此外,為了增強(qiáng)模型區(qū)分多個(gè)目標(biāo)的能力,PixelLM還額外設(shè)計(jì)了一個(gè)Target Refinement Loss。

MUSE數(shù)據(jù)集

盡管已經(jīng)提出了上述解決方案,但為了充分發(fā)揮模型的能力,模型仍然需要適當(dāng)?shù)挠?xùn)練數(shù)據(jù)。回顧目前可用的公開數(shù)據(jù)集,發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)存在以下主要限制:

1) 對(duì)物體細(xì)節(jié)的描述不夠充足;
2) 缺乏具有復(fù)雜推理和多種目標(biāo)數(shù)量的問題-答案對(duì)。

為了解決這些問題,研究團(tuán)隊(duì)借助GPT-4V構(gòu)建了一個(gè)自動(dòng)化的數(shù)據(jù)標(biāo)注流水線,并由此產(chǎn)生了MUSE數(shù)據(jù)集。下圖展示了MUSE生成時(shí)所用到的Prompt及產(chǎn)生的數(shù)據(jù)示例。

圖片圖片

在MUSE中,所有實(shí)例掩碼都來自LVIS數(shù)據(jù)集,并且額外添加了根據(jù)圖像內(nèi)容生成的詳細(xì)文本描述。MUSE包含了24.6萬個(gè)問題-答案對(duì),每個(gè)問題-答案對(duì)平均涉及3.7個(gè)目標(biāo)物體。此外,研究團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行了詳盡的統(tǒng)計(jì)分析:

類別統(tǒng)計(jì):MUSE中有來自原始LVIS數(shù)據(jù)集的1000多個(gè)類別,以及90萬個(gè)具有獨(dú)特描述的實(shí)例,這些描述基于問題-答案對(duì)的上下文而變化。圖(a)顯示了所有問題-答案對(duì)中每個(gè)類別的實(shí)例數(shù)量。

Token數(shù)目統(tǒng)計(jì):圖(b)展示了實(shí)例描述的token數(shù)目分布,其中有的實(shí)例描述包含了超過100個(gè)tokens。這些描述不僅限于簡(jiǎn)單的類別名稱;相反,它們通過基于GPT-4V的數(shù)據(jù)生成流程,大量豐富了每個(gè)實(shí)例的詳細(xì)信息,涵蓋了外觀、屬性和與其他對(duì)象的關(guān)系等。數(shù)據(jù)集中信息的深度和多樣性增強(qiáng)了訓(xùn)練模型的泛化能力,使其能夠有效地解決開放域問題。

目標(biāo)數(shù)目統(tǒng)計(jì):圖(c)展示了每個(gè)問題-答案對(duì)中目標(biāo)數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。平均目標(biāo)數(shù)量為3.7,最大目標(biāo)數(shù)量可達(dá)34個(gè)。這個(gè)數(shù)字可以覆蓋單個(gè)圖像的大多數(shù)目標(biāo)推理場(chǎng)景。

算法測(cè)評(píng)

研究團(tuán)隊(duì)在三個(gè)benchmark上評(píng)測(cè)了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究團(tuán)隊(duì)要求模型在一個(gè)問題中連續(xù)地分割出referring segmentation benchmark中每幅圖像包含的多個(gè)目標(biāo)。

同時(shí),由于PixelLM是首個(gè)處理涉及多目標(biāo)復(fù)雜像素推理任務(wù)的模型,研究團(tuán)隊(duì)建立了四個(gè)baseline以對(duì)模型進(jìn)行比較分析。

其中三個(gè)baseline基于與PixelLM最相關(guān)工作LISA,包括:

1)原始的LISA;

2)LISA_rec: 先將問題輸入LLAVA-13B以得到目標(biāo)的文本回復(fù),再用LISA分割這些文本;

3)LISA_aug:直接將MUSE加入LISA的訓(xùn)練數(shù)據(jù)。

4) 另外一個(gè)則是不使用LLM的通用分割模型SEEM。

圖片圖片

在三個(gè)benchmark的絕大多數(shù)指標(biāo)上,PixelLM的性能均優(yōu)于其他方法,且由于PixelLM不依賴于SAM,其TFLOPs遠(yuǎn)遠(yuǎn)低于同尺寸的模型。

感興趣的小伙伴可以先關(guān)注一波,坐等代碼開源了~

參考鏈接:
[1]https://arxiv.org/abs/2312.02228
[2]https://pixellm.github.io/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-01-08 08:21:16

2025-05-21 08:47:00

2025-06-10 03:30:00

2025-02-12 13:31:33

2025-06-27 08:40:00

模型推理AI

2025-05-23 09:18:25

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-01-13 03:00:00

模型數(shù)據(jù)訓(xùn)練

2024-09-23 08:20:00

模型訓(xùn)練

2024-09-25 14:53:00

2025-04-30 09:00:00

模型推理AI

2025-05-16 09:10:00

2023-06-06 14:09:32

模型開源

2024-11-11 15:11:23

2024-12-23 12:37:34

2024-05-17 16:02:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久午夜电影 | 亚洲精选久久 | 91av在线不卡| 91亚洲国产成人精品一区二三 | 国产午夜视频 | 免费一级做a爰片久久毛片潮喷 | julia中文字幕久久一区二区 | 国内精品视频免费观看 | 欧美在线观看网站 | 日本在线视频中文字幕 | 久久久久国产精品一区 | 在线免费小视频 | 国产精品久久 | 国产欧美视频一区二区三区 | 国产高清一区二区 | 手机三级电影 | 精品一区二区av | 免费久久精品视频 | 奇米四色在线观看 | 日韩欧美在线观看视频网站 | av在线一区二区三区 | 羞羞涩涩在线观看 | 国产91在线播放 | 草久久 | 999re5这里只有精品 | 精品美女久久久 | 国产精品久久久久999 | 99热在线观看精品 | 国产98色在线 | 日韩 | 九九伦理电影 | 亚洲精品大全 | 看一级黄色毛片 | 欧洲亚洲一区 | 日韩高清在线观看 | 在线视频国产一区 | 涩涩视频在线看 | 91视频国产精品 | 人人九九 | 国产欧美精品一区二区色综合朱莉 | 国产日韩一区二区三区 | 欧美性吧 |