成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

融合語言模型的多模態(tài)大模型研究

發(fā)布于 2025-4-8 00:32
瀏覽
0收藏

近年來,大語言模型(Large language model, LLM)取得了顯著進(jìn)展。以ChatGPT為代表的LLM在自然語言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類的性能,但是單純的LLM只能處理文本類任務(wù)。與此同時,在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺基礎(chǔ)模型也在快速發(fā)展。盡管在視覺領(lǐng)域還沒有出現(xiàn)“ChatGPT時刻”,但是預(yù)訓(xùn)練視覺基礎(chǔ)模型已經(jīng)可以在很多真實(shí)視覺場景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性能。如何將兩者在各自領(lǐng)域的優(yōu)秀性能結(jié)合起來,實(shí)現(xiàn)在視覺-語言領(lǐng)域具有推理能力的通用大模型是當(dāng)前一個熱門研究課題。

1.模型介紹

GPT-4在技術(shù)報告中展示了驚艷的多模態(tài)能力,如圖1、2、3所示。但是GPT-4還沒開放多模態(tài)能力的接口。很多研究者已經(jīng)基于開源LLM進(jìn)行了相關(guān)的研究,力圖達(dá)到GPT-4展示的強(qiáng)大多模態(tài)性能。

下面以發(fā)布時間為順序,介紹主流的融合LLM的多模態(tài)模型各自的一些特點(diǎn),以此窺見此類技術(shù)的發(fā)展趨勢。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖1 讓GPT-4描述圖中有趣的地方

GPT-4可以識別出VGA接口和lightning接口,而且判斷出VGA接口與手機(jī)是不匹配的。


融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服,也能夠識別出租車在行駛,最終識別出這兩個場景出現(xiàn)在一個畫面中是不正常的。 

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖3 GPT-4推理能力

GPT-4在這個畫面的識別中展現(xiàn)出了較為強(qiáng)大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內(nèi)容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態(tài)模型構(gòu)想的工作,整體結(jié)構(gòu)如圖5。這個工作主要提出了Q-former這個跨視覺語言模態(tài)的連接結(jié)構(gòu)。如圖4所示,Q-former結(jié)構(gòu)設(shè)計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設(shè)計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型,這些模型在語言生成方面的能力不是特別強(qiáng)。BLIP2的預(yù)訓(xùn)練分為兩階段,第一階段Q-former與一個凍結(jié)參數(shù)的image encoder訓(xùn)練,學(xué)習(xí)視覺語言表征;第二階段Q-former與凍結(jié)的LLM訓(xùn)練,學(xué)習(xí)視覺到文本的生成能力。在進(jìn)行一些下游任務(wù),如image caption,visual question answering(VQA),BLIP2模型仍需要微調(diào)Q-former和image-encoder的模型權(quán)重。BLIP2模型的一個缺陷是,沒有in context learning能力,上下文關(guān)聯(lián)對話能力較差。作者認(rèn)為原因是BLIP2的訓(xùn)練數(shù)據(jù)是單對的圖文對,數(shù)據(jù)本身就缺少多輪對話相關(guān)性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖4 Q-former結(jié)構(gòu)

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖5 Q-former兩階段預(yù)訓(xùn)練

MiniGPT-4是作者場景復(fù)現(xiàn)GPT-4強(qiáng)大的多模態(tài)能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數(shù)凍結(jié)的整體。LLM也保持參數(shù)凍結(jié)。如圖所示,MiniGPT-4通過一個線性層來跨模態(tài)連接這兩個部分。Mini-GPT4使用語言生成能力較強(qiáng)的Vicuna模型(基于開源LLaMA模型構(gòu)建)作為LLM,生成文本質(zhì)量進(jìn)一步提高。MiniGPT-4性能表現(xiàn)的提高也得益于訓(xùn)練數(shù)據(jù)的質(zhì)量。作者表示只使用來自公開數(shù)據(jù)集的圖文對數(shù)據(jù)是無法訓(xùn)練出優(yōu)秀的多模態(tài)語言模型的。MiniGPT-4使用了3500對高質(zhì)量圖文數(shù)據(jù)對模型進(jìn)行微調(diào)。MiniGPT-4模型的訓(xùn)練分為兩階段,第一階段是在大量圖文對數(shù)據(jù)集上預(yù)訓(xùn)練,獲得視覺語言對齊能力。第二階段是在高質(zhì)量圖文數(shù)據(jù)上微調(diào)以獲得較強(qiáng)的對話能力。這種兩階段的訓(xùn)練方法也成為了未來一些工作的主流訓(xùn)練范式。MiniGPT-4使用的3500對高質(zhì)量數(shù)據(jù)集是來源于作者使用第一階段預(yù)訓(xùn)練完成的模型,通過提示工程的方法為每張圖片生成長度更長,描述信息更加豐富、細(xì)節(jié)的文本。這些文本通常具有很多噪聲和內(nèi)容錯誤,作者利用ChatGPT對第一階段的生成文本進(jìn)行再優(yōu)化。MiniGPT4這個工作進(jìn)一步說明了數(shù)據(jù)質(zhì)量對于模型對話能力的重要性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖6 MiniGPT-4模型結(jié)構(gòu)

微軟團(tuán)隊(duì)在MiniGPT-4發(fā)布相近的時間點(diǎn)提出了LLaVA模型這篇工作。兩篇工作都提升了多模態(tài)語言模型在復(fù)雜對話方面的能力,具有一定相似性,實(shí)現(xiàn)技術(shù)方案各有特點(diǎn)。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令,共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結(jié)構(gòu),直接使用線性層連接視覺語言模態(tài),第一次將跨模態(tài)連接結(jié)構(gòu)簡化至這個程度。LLaVA模型的訓(xùn)練也分為兩個階段。第一階段使用圖文對數(shù)據(jù)進(jìn)行訓(xùn)練,這一階段是為了對齊視覺和圖像特征,這個階段視覺編碼器和LLM的參數(shù)均凍結(jié),僅訓(xùn)練連接層。第二階段使用多輪對話圖文數(shù)據(jù)進(jìn)行訓(xùn)練,在這個階段訓(xùn)練連接層和LLM的參數(shù)。LLaVA在多模態(tài)推理評測數(shù)據(jù)集Science QA上達(dá)到了最高水平。LLaVA強(qiáng)大的性能來自于作者構(gòu)造的一套指令跟隨數(shù)據(jù)集(instruction-following)。與MiniGPT-4主要利用一階段訓(xùn)練模型進(jìn)行微調(diào)數(shù)據(jù)生成,還需要進(jìn)行文本噪聲、錯誤后處理不同,LLaVA調(diào)用GPT-4接口,結(jié)合人類標(biāo)注的圖文信息,進(jìn)行高質(zhì)量的多輪對話圖文數(shù)據(jù)生成。作者將這個高質(zhì)量圖文對話數(shù)據(jù)集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構(gòu)造的“對話、細(xì)節(jié)描述、復(fù)雜推理”三種類型的文本內(nèi)容。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖7 InstructBLIP使用的多種數(shù)據(jù)集及其任務(wù)類型

BLIP2團(tuán)隊(duì)后來推出了InstructBLIP這個工作[3],通過指令微調(diào)的方式解決BLIP2模型的一些缺陷。相比BLIP2,InstructBLIP已經(jīng)具有較強(qiáng)的多輪對話能力。InstructBLIP復(fù)用了BLIP2的模型架構(gòu),即模型由LLM,visual encoder,Q-former組成。相比BLIP2,InstructBLIP使用了較新的T5、Vicuna語言模型。在指令微調(diào)過程中,模型中的視覺編碼器和LLM參數(shù)凍結(jié),只訓(xùn)練Q-former參數(shù)。InstructBLIP使用的數(shù)據(jù)類型非常廣泛,一共包括11個任務(wù)場景、26個數(shù)據(jù)集(圖7)。這些數(shù)據(jù)集包含的內(nèi)容特別廣,經(jīng)過微調(diào)訓(xùn)練后,InstructBLIP可以回答單選、多選、短答案、長答案等多種形式的類型問題。

2.總結(jié)


從以上這些融合了LLM的多模態(tài)模型,我們可以得到一些發(fā)現(xiàn)。這些工作主要都是集中在23年,可能是受GPT4所展示的多模態(tài)能力的啟發(fā)。目前融合LLM和視覺模型的方式還相對簡單粗暴,但是已經(jīng)展現(xiàn)出了優(yōu)秀的效果,未來多模態(tài)通用模型可能成為人工智能的下一個發(fā)展目標(biāo)。視覺研究者和語言大模型研究者的研究范式呈現(xiàn)出越來越相近的趨勢。

參考文獻(xiàn)

[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.

[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.

[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.

本文轉(zhuǎn)載自??AI遇見云???,作者:張燚鈞

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品亚洲成在人线 | 国产精品久久久久久久久久久久久久 | 久久99精品久久久久久国产越南 | 成人毛片视频免费 | 中文字幕不卡在线观看 | 中文字幕亚洲欧美 | 欧美一区二区三区在线看 | 亚洲免费精品 | 午夜国产 | 91黄在线观看 | 国产成人高清视频 | 久久精品日产第一区二区三区 | 爱爱视频网 | 日韩精品一区二区三区老鸭窝 | 国产乱码精品一区二三赶尸艳谈 | 福利视频网址 | 91aiai| 成人av激情| 日韩在线视频精品 | 欧美成人h版在线观看 | 成人a视频片观看免费 | 精品亚洲永久免费精品 | 久久久久国产 | 三级视频国产 | av在线免费观看网址 | 国产在线视频一区 | 在线亚洲一区二区 | 国产精品久久久久久久久久尿 | 午夜精品久久久久久久99黑人 | 亚洲精色 | 精品日本久久久久久久久久 | 成人网在线看 | 精品国产一级片 | aaaaa毛片 | 超碰520| 高清欧美性猛交 | 精品视频在线免费观看 | 九九精品在线 | 久久国产精品免费一区二区三区 | 日韩av一区二区在线观看 | 亚洲国产一区视频 |