成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

謝賽寧團(tuán)隊(duì)提出BLIP3-o:融合自回歸與擴(kuò)散模型的統(tǒng)一多模態(tài)架構(gòu),開(kāi)創(chuàng)CLIP特征驅(qū)動(dòng)的圖像理解與生成新范式!

人工智能 新聞
論文首次系統(tǒng)地探索了用于統(tǒng)一多模態(tài)建模的混合自回歸和擴(kuò)散架構(gòu),并評(píng)估了三個(gè)關(guān)鍵方面。

BLIP3-o 是一個(gè)統(tǒng)一的多模態(tài)模型,它將自回歸模型的推理和指令遵循優(yōu)勢(shì)與擴(kuò)散模型的生成能力相結(jié)合。與之前擴(kuò)散 VAE 特征或原始像素的研究不同,BLIP3-o 擴(kuò)散了語(yǔ)義豐富的CLIP 圖像特征,從而為圖像理解和生成構(gòu)建了強(qiáng)大而高效的架構(gòu)。

此外還發(fā)布了包含 2000 萬(wàn)張帶詳細(xì)標(biāo)題的圖片(BLIP3o Pretrain Long Caption)和 400 萬(wàn)張帶短標(biāo)題的圖片(BLIP3o Pretrain Short Caption)的數(shù)據(jù)集。

亮點(diǎn)

  • 完全開(kāi)源:完全開(kāi)源訓(xùn)練數(shù)據(jù)(預(yù)訓(xùn)練和指令調(diào)整)、訓(xùn)練方案、模型權(quán)重、代碼。
  • 統(tǒng)一架構(gòu):用于圖像理解和生成。
  • CLIP 特征擴(kuò)散:直接擴(kuò)散語(yǔ)義視覺(jué)特征,以實(shí)現(xiàn)更強(qiáng)的對(duì)齊和性能。
  • 最先進(jìn)的性能:涵蓋廣泛的圖像理解和生成基準(zhǔn)。

支持的任務(wù)

  • 文本 → 文本
  • 圖像→文本(圖像理解)
  • 文本→圖像(圖像生成)
  • 圖像 → 圖像(圖像編輯)
  • 多任務(wù)訓(xùn)練(圖像生成和理解混合訓(xùn)練)

圖片

相關(guān)鏈接

  • 論文:https://arxiv.org/pdf/2505.09568
  • 代碼:https://github.com/JiuhaiChen/BLIP3o
  • 模型:https://huggingface.co/BLIP3o/BLIP3o-Model
  • 預(yù)訓(xùn)練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain
  • 優(yōu)化:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

論文閱讀

圖片

在近期的多模態(tài)模型研究中,統(tǒng)一圖像理解和生成越來(lái)越受到關(guān)注。盡管圖像理解的設(shè)計(jì)方案已被廣泛研究,但用于統(tǒng)一圖像生成框架的最佳模型架構(gòu)和訓(xùn)練方法仍未得到充分探索。

鑒于自回歸和擴(kuò)散模型在高質(zhì)量生成和可擴(kuò)展性方面的巨大潛力,作者對(duì)它們?cè)诮y(tǒng)一多模態(tài)環(huán)境中的應(yīng)用進(jìn)行了全面的研究,重點(diǎn)關(guān)注圖像表征、建模目標(biāo)和訓(xùn)練策略。基于這些研究,論文提出了一種新穎的方法,該方法使用擴(kuò)散變換器來(lái)生成語(yǔ)義豐富的CLIP圖像特征,這與傳統(tǒng)的基于VAE的表征不同。這種設(shè)計(jì)既提高了訓(xùn)練效率,又提升了生成質(zhì)量。

此外,作者證明了統(tǒng)一模型的順序預(yù)訓(xùn)練策略——先進(jìn)行圖像理解訓(xùn)練,然后再進(jìn)行圖像生成訓(xùn)練——在保留圖像理解能力的同時(shí),發(fā)展強(qiáng)大的圖像生成能力,具有實(shí)用優(yōu)勢(shì)。最后,作者精心策劃了一個(gè)高質(zhì)量的指令調(diào)整數(shù)據(jù)集 BLIP3o-60k,用于圖像生成,通過(guò)為 GPT-4o 提供涵蓋各種場(chǎng)景、物體、人體手勢(shì)等內(nèi)容的多樣化字幕。基于論文提出的創(chuàng)新的模型設(shè)計(jì)、訓(xùn)練方案和數(shù)據(jù)集,作者開(kāi)發(fā)了 BLIP3-o,這是一套最先進(jìn)的統(tǒng)一多模態(tài)模型。BLIP3-o 在涵蓋圖像理解和生成任務(wù)的大多數(shù)熱門基準(zhǔn)測(cè)試中均取得了卓越的性能。

圖片BLIP3-o 的架構(gòu)。 在圖像理解部分,我們使用 CLIP 對(duì)圖像進(jìn)行編碼,并計(jì)算目標(biāo)文本標(biāo)記和預(yù)測(cè)文本標(biāo)記之間的交叉熵?fù)p失。在圖像生成部分,自回歸模型首先生成一系列中間視覺(jué)特征,然后將其作為條件輸入,輸入到擴(kuò)散變換器中,該變換器生成 CLIP 圖像特征,以近似真實(shí)的 CLIP 特征。通過(guò)使用 CLIP 編碼器,圖像理解和圖像生成共享相同的語(yǔ)義空間,從而有效地統(tǒng)一了這兩個(gè)任務(wù)。

圖片統(tǒng)一多模態(tài)模型中圖像生成的三種設(shè)計(jì)選擇。所有設(shè)計(jì)均采用自回歸 + 擴(kuò)散框架,但其圖像生成組件有所不同。對(duì)于流匹配損失,我們保持自回歸模型不變,僅對(duì)圖像生成模塊進(jìn)行微調(diào),以保留模型的語(yǔ)言能力。

圖片聯(lián)合訓(xùn)練 vs. 順序訓(xùn)練:聯(lián)合訓(xùn)練通過(guò)混合圖像理解和圖像生成數(shù)據(jù)進(jìn)行多任務(wù)學(xué)習(xí),同時(shí)更新自回歸主干網(wǎng)絡(luò)和生成模塊。順序訓(xùn)練將兩個(gè)過(guò)程分開(kāi):首先,模型僅進(jìn)行圖像理解任務(wù)的訓(xùn)練;然后凍結(jié)自回歸主干網(wǎng)絡(luò),并在第二階段僅訓(xùn)練圖像生成模塊。

實(shí)驗(yàn)結(jié)果

圖片BLIP3-o 8B 在 1024×1024 分辨率下的可視化結(jié)果

BLIP3-o 8B 在 1024×1024 分辨率下的可視化結(jié)果圖像理解基準(zhǔn)測(cè)試的結(jié)果。用粗體突出顯示最佳結(jié)果。圖像理解基準(zhǔn)測(cè)試的結(jié)果。用粗體突出顯示最佳結(jié)果。

圖像生成基準(zhǔn)結(jié)果

圖像生成基準(zhǔn)結(jié)果

Janus Pro 與模型在 DPG-Bench 上的人體研究結(jié)果。

Janus Pro 與模型在 DPG-Bench 上的人體研究結(jié)果。

結(jié)論

論文首次系統(tǒng)地探索了用于統(tǒng)一多模態(tài)建模的混合自回歸和擴(kuò)散架構(gòu),并評(píng)估了三個(gè)關(guān)鍵方面:圖像表征(CLIP 與 VAE 特征)、訓(xùn)練目標(biāo)(光流匹配與 MSE)以及訓(xùn)練策略(聯(lián)合與順序)。實(shí)驗(yàn)表明CLIP 嵌入與光流匹配損失相結(jié)合,能夠提高訓(xùn)練效率并提升輸出質(zhì)量。基于這些洞察,作者推出了 BLIP3-o,這是一系列最先進(jìn)的統(tǒng)一模型,并基于 60k 指令集調(diào)整數(shù)據(jù)集 BLIP3o-60k 進(jìn)行了增強(qiáng),顯著提升了快速對(duì)齊和視覺(jué)美感。此外,作者正在積極開(kāi)發(fā)該統(tǒng)一模型的應(yīng)用,包括迭代圖像編輯、視覺(jué)對(duì)話和逐步視覺(jué)推理。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2025-03-04 09:50:00

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2023-09-04 12:59:03

AI數(shù)據(jù)

2025-01-20 08:35:00

模型生成AI

2025-05-27 15:35:02

大模型技術(shù)AI

2025-05-27 15:59:41

AI工具模型

2024-10-22 13:33:48

2025-04-08 09:10:00

模型訓(xùn)練AI

2025-04-14 09:38:00

2022-12-23 10:15:44

模型AI

2024-10-21 11:05:00

2024-10-14 13:20:00

2023-07-17 11:02:36

模型開(kāi)源

2025-01-06 10:00:00

模型視覺(jué)生成

2024-01-18 13:39:00

AI訓(xùn)練

2024-06-27 13:10:21

2025-06-09 08:50:00

2025-02-12 10:17:12

2025-06-13 08:45:00

數(shù)據(jù)模型可視化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人免费av | 国产一级片在线播放 | 国产日屁| 国产毛片毛片 | 欧美一级黄 | 一区二区三区影院 | 亚洲国产成人在线视频 | 天天色图| 国产精品视频免费看 | 亚洲欧美在线视频 | 超碰97人人人人人蜜桃 | 久久综合99 | 求毛片| 夜夜精品视频 | 久久尤物免费一区二区三区 | 亚洲欧洲中文日韩 | 国产精品爱久久久久久久 | 欧美夜夜 | 日韩欧美一区二区三区四区 | 欧美成人精品激情在线观看 | 久久综合激情 | 天色综合网 | 久久久这里只有17精品 | 91精品国产色综合久久 | 中文精品视频 | 国家aaa的一级看片 h片在线看 | 久久精品小短片 | 1204国产成人精品视频 | 无码一区二区三区视频 | 欧美成人手机视频 | 欧美日韩中文字幕在线播放 | 亚洲欧美在线观看视频 | 精品国产一区二区国模嫣然 | www.青青草| 久久久久久免费免费 | 欧美精品中文字幕久久二区 | 天堂亚洲 | 久久99国产精品 | av播播| 国产精品视频二区三区 | 午夜在线小视频 |