成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sup id="jrmxr"></sup>

<kbd id="jrmxr"><meter id="jrmxr"></meter></kbd>

<var id="jrmxr"><delect id="jrmxr"></delect></var><td id="jrmxr"></td>

<button id="jrmxr"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

融合語言模型的多模態(tài)大模型研究

發(fā)布于 2025-4-8 00:32

瀏覽

0收藏

近年來，大語言模型（Large language model, LLM）取得了顯著進(jìn)展。以ChatGPT為代表的LLM在自然語言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類的性能，但是單純的LLM只能處理文本類任務(wù)。與此同時，在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺基礎(chǔ)模型也在快速發(fā)展。盡管在視覺領(lǐng)域還沒有出現(xiàn)“ChatGPT時刻”，但是預(yù)訓(xùn)練視覺基礎(chǔ)模型已經(jīng)可以在很多真實(shí)視覺場景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性能。如何將兩者在各自領(lǐng)域的優(yōu)秀性能結(jié)合起來，實(shí)現(xiàn)在視覺-語言領(lǐng)域具有推理能力的通用大模型是當(dāng)前一個熱門研究課題。

1.模型介紹

GPT-4在技術(shù)報告中展示了驚艷的多模態(tài)能力，如圖1、2、3所示。但是GPT-4還沒開放多模態(tài)能力的接口。很多研究者已經(jīng)基于開源LLM進(jìn)行了相關(guān)的研究，力圖達(dá)到GPT-4展示的強(qiáng)大多模態(tài)性能。

下面以發(fā)布時間為順序，介紹主流的融合LLM的多模態(tài)模型各自的一些特點(diǎn)，以此窺見此類技術(shù)的發(fā)展趨勢。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖1 讓GPT-4描述圖中有趣的地方

GPT-4可以識別出VGA接口和lightning接口，而且判斷出VGA接口與手機(jī)是不匹配的。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服，也能夠識別出租車在行駛，最終識別出這兩個場景出現(xiàn)在一個畫面中是不正常的。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖3 GPT-4推理能力

GPT-4在這個畫面的識別中展現(xiàn)出了較為強(qiáng)大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內(nèi)容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態(tài)模型構(gòu)想的工作，整體結(jié)構(gòu)如圖5。這個工作主要提出了Q-former這個跨視覺語言模態(tài)的連接結(jié)構(gòu)。如圖4所示，Q-former結(jié)構(gòu)設(shè)計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設(shè)計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型，這些模型在語言生成方面的能力不是特別強(qiáng)。BLIP2的預(yù)訓(xùn)練分為兩階段，第一階段Q-former與一個凍結(jié)參數(shù)的image encoder訓(xùn)練，學(xué)習(xí)視覺語言表征；第二階段Q-former與凍結(jié)的LLM訓(xùn)練，學(xué)習(xí)視覺到文本的生成能力。在進(jìn)行一些下游任務(wù)，如image caption，visual question answering（VQA），BLIP2模型仍需要微調(diào)Q-former和image-encoder的模型權(quán)重。BLIP2模型的一個缺陷是，沒有in context learning能力，上下文關(guān)聯(lián)對話能力較差。作者認(rèn)為原因是BLIP2的訓(xùn)練數(shù)據(jù)是單對的圖文對，數(shù)據(jù)本身就缺少多輪對話相關(guān)性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖4 Q-former結(jié)構(gòu)

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖5 Q-former兩階段預(yù)訓(xùn)練

MiniGPT-4是作者場景復(fù)現(xiàn)GPT-4強(qiáng)大的多模態(tài)能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數(shù)凍結(jié)的整體。LLM也保持參數(shù)凍結(jié)。如圖所示，MiniGPT-4通過一個線性層來跨模態(tài)連接這兩個部分。Mini-GPT4使用語言生成能力較強(qiáng)的Vicuna模型（基于開源LLaMA模型構(gòu)建）作為LLM，生成文本質(zhì)量進(jìn)一步提高。MiniGPT-4性能表現(xiàn)的提高也得益于訓(xùn)練數(shù)據(jù)的質(zhì)量。作者表示只使用來自公開數(shù)據(jù)集的圖文對數(shù)據(jù)是無法訓(xùn)練出優(yōu)秀的多模態(tài)語言模型的。MiniGPT-4使用了3500對高質(zhì)量圖文數(shù)據(jù)對模型進(jìn)行微調(diào)。MiniGPT-4模型的訓(xùn)練分為兩階段，第一階段是在大量圖文對數(shù)據(jù)集上預(yù)訓(xùn)練，獲得視覺語言對齊能力。第二階段是在高質(zhì)量圖文數(shù)據(jù)上微調(diào)以獲得較強(qiáng)的對話能力。這種兩階段的訓(xùn)練方法也成為了未來一些工作的主流訓(xùn)練范式。MiniGPT-4使用的3500對高質(zhì)量數(shù)據(jù)集是來源于作者使用第一階段預(yù)訓(xùn)練完成的模型，通過提示工程的方法為每張圖片生成長度更長，描述信息更加豐富、細(xì)節(jié)的文本。這些文本通常具有很多噪聲和內(nèi)容錯誤，作者利用ChatGPT對第一階段的生成文本進(jìn)行再優(yōu)化。MiniGPT4這個工作進(jìn)一步說明了數(shù)據(jù)質(zhì)量對于模型對話能力的重要性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖6 MiniGPT-4模型結(jié)構(gòu)

微軟團(tuán)隊(duì)在MiniGPT-4發(fā)布相近的時間點(diǎn)提出了LLaVA模型這篇工作。兩篇工作都提升了多模態(tài)語言模型在復(fù)雜對話方面的能力，具有一定相似性，實(shí)現(xiàn)技術(shù)方案各有特點(diǎn)。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令，共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結(jié)構(gòu)，直接使用線性層連接視覺語言模態(tài)，第一次將跨模態(tài)連接結(jié)構(gòu)簡化至這個程度。LLaVA模型的訓(xùn)練也分為兩個階段。第一階段使用圖文對數(shù)據(jù)進(jìn)行訓(xùn)練，這一階段是為了對齊視覺和圖像特征，這個階段視覺編碼器和LLM的參數(shù)均凍結(jié)，僅訓(xùn)練連接層。第二階段使用多輪對話圖文數(shù)據(jù)進(jìn)行訓(xùn)練，在這個階段訓(xùn)練連接層和LLM的參數(shù)。LLaVA在多模態(tài)推理評測數(shù)據(jù)集Science QA上達(dá)到了最高水平。LLaVA強(qiáng)大的性能來自于作者構(gòu)造的一套指令跟隨數(shù)據(jù)集（instruction-following）。與MiniGPT-4主要利用一階段訓(xùn)練模型進(jìn)行微調(diào)數(shù)據(jù)生成，還需要進(jìn)行文本噪聲、錯誤后處理不同，LLaVA調(diào)用GPT-4接口，結(jié)合人類標(biāo)注的圖文信息，進(jìn)行高質(zhì)量的多輪對話圖文數(shù)據(jù)生成。作者將這個高質(zhì)量圖文對話數(shù)據(jù)集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構(gòu)造的“對話、細(xì)節(jié)描述、復(fù)雜推理”三種類型的文本內(nèi)容。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖7 InstructBLIP使用的多種數(shù)據(jù)集及其任務(wù)類型

BLIP2團(tuán)隊(duì)后來推出了InstructBLIP這個工作[3]，通過指令微調(diào)的方式解決BLIP2模型的一些缺陷。相比BLIP2，InstructBLIP已經(jīng)具有較強(qiáng)的多輪對話能力。InstructBLIP復(fù)用了BLIP2的模型架構(gòu)，即模型由LLM，visual encoder，Q-former組成。相比BLIP2，InstructBLIP使用了較新的T5、Vicuna語言模型。在指令微調(diào)過程中，模型中的視覺編碼器和LLM參數(shù)凍結(jié)，只訓(xùn)練Q-former參數(shù)。InstructBLIP使用的數(shù)據(jù)類型非常廣泛，一共包括11個任務(wù)場景、26個數(shù)據(jù)集（圖7）。這些數(shù)據(jù)集包含的內(nèi)容特別廣，經(jīng)過微調(diào)訓(xùn)練后，InstructBLIP可以回答單選、多選、短答案、長答案等多種形式的類型問題。

2.總結(jié)

從以上這些融合了LLM的多模態(tài)模型，我們可以得到一些發(fā)現(xiàn)。這些工作主要都是集中在23年，可能是受GPT4所展示的多模態(tài)能力的啟發(fā)。目前融合LLM和視覺模型的方式還相對簡單粗暴，但是已經(jīng)展現(xiàn)出了優(yōu)秀的效果，未來多模態(tài)通用模型可能成為人工智能的下一個發(fā)展目標(biāo)。視覺研究者和語言大模型研究者的研究范式呈現(xiàn)出越來越相近的趨勢。

參考文獻(xiàn)

[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.

[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.

[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.

本文轉(zhuǎn)載自??AI遇見云???，作者：張燚鈞

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

《多模態(tài)大語言模型綜述》重大升級

angel ? 4011瀏覽 ? 0回復(fù)
多模態(tài)視覺-語言大模型的架構(gòu)演進(jìn)

angel ? 5048瀏覽 ? 0回復(fù)
【LLM】對大語言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3885瀏覽 ? 0回復(fù)
多模態(tài)大型語言模型（MLLM）綜述

AIRoobt ? 5864瀏覽 ? 0回復(fù)
多模態(tài)思維鏈推理在語言模型中的應(yīng)用

AIRoobt ? 4741瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 5226瀏覽 ? 0回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點(diǎn)及難點(diǎn)

AI探索時代 ? 6279瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2602瀏覽 ? 0回復(fù)
多模態(tài)大模型中，多模態(tài)融合后怎樣知道最終結(jié)果受哪種模態(tài)影響更大？

shizhi02 ? 2326瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 3858瀏覽 ? 0回復(fù)
多模態(tài)語言模型實(shí)戰(zhàn)之音樂轉(zhuǎn)錄

51CTO內(nèi)容精選 ? 2828瀏覽 ? 0回復(fù)
融合、集成與協(xié)作！大語言模型時代的協(xié)作策略綜述

AIRoobt ? 3815瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 2595瀏覽 ? 0回復(fù)
多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？

angel ? 3995瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2660瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 4653瀏覽 ? 0回復(fù)
基于多模態(tài)大語言模型的上下文目標(biāo)檢測

AIRoobt ? 2524瀏覽 ? 0回復(fù)
解鎖多模態(tài)大語言模型：從原理到實(shí)戰(zhàn)，一文全掌握！

Halo咯咯 ? 3283瀏覽 ? 0回復(fù)
2025年最值得關(guān)注的十大多模態(tài)大語言模型！

Halo咯咯 ? 6693瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

揭秘Google A2A協(xié)議：原理、應(yīng)用與未來 2025-04-30 06:10:42發(fā)布
身份證識別服務(wù)性能優(yōu)化實(shí)踐 2025-03-13 07:05:57發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測來了 0回復(fù)

上一篇：身份證識別服務(wù)性能優(yōu)化實(shí)踐

下一篇：揭秘Google A2A協(xié)議：原理、應(yīng)用與未來

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：国产精品亚洲成在人线 | 国产精品久久久久久久久久久久久久 | 久久99精品久久久久久国产越南 | 成人毛片视频免费 | 中文字幕不卡在线观看 | 中文字幕亚洲欧美 | 欧美一区二区三区在线看 | 亚洲免费精品 | 午夜国产 | 91黄在线观看 | 国产成人高清视频 | 久久精品日产第一区二区三区 | 爱爱视频网 | 日韩精品一区二区三区老鸭窝 | 国产乱码精品一区二三赶尸艳谈 | 福利视频网址 | 91aiai| 成人av激情| 日韩在线视频精品 | 欧美成人h版在线观看 | 成人a视频片观看免费 | 精品亚洲永久免费精品 | 久久久久国产 | 三级视频国产 | av在线免费观看网址 | 国产在线视频一区 | 在线亚洲一区二区 | 国产精品久久久久久久久久尿 | 午夜精品久久久久久久99黑人 | 亚洲精色 | 精品日本久久久久久久久久 | 成人网在线看 | 精品国产一级片 | aaaaa毛片 | 超碰520| 高清欧美性猛交 | 精品视频在线免费观看 | 九九精品在线 | 久久国产精品免费一区二区三区 | 日韩av一区二区在线观看 | 亚洲国产一区视频 |

<strike id="wxuvv"><source id="wxuvv"></source></strike>