成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) 原創(chuàng) 精華

發(fā)布于 2024-5-24 13:15
瀏覽
0收藏

我在專欄[大語言模型的技術(shù)原理和應(yīng)用]中介紹了大語言模型(LLM)原理和應(yīng)用,LLM對語言建模,輸入輸出都是文本,屬于單模態(tài)模型。

LLM的出現(xiàn)讓人們看到了AGI的希望,但要實現(xiàn)AGI,就要讓機器像人類一樣實現(xiàn)多種感官協(xié)作,所以多模態(tài)是AGI必經(jīng)之路。從今天開始我們將進入多模態(tài)領(lǐng)域。openAI剛剛發(fā)布的GPT-4o就是一種多模態(tài)大模型。

一、初識多模態(tài)大模型

1.1多模態(tài)大模型定義

所謂“多模態(tài)”簡單來講就是模型能夠處理多種數(shù)據(jù)模態(tài),例如,文本、圖像、視頻、音頻等。

因為視頻是由多幀圖像組成,音頻轉(zhuǎn)化為頻譜圖后也可以看作是一種特殊的圖像,所以多模態(tài)主要關(guān)注圖像和文本這兩種數(shù)據(jù)模態(tài)。

*openAI的文生視頻模型Sora,則是將圖像看作是一種特殊的視頻*

所謂“大模型”是相對傳統(tǒng)機器學(xué)習(xí)模型而言的,傳統(tǒng)機器學(xué)習(xí)模型使用特定數(shù)據(jù)完成特定任務(wù),一旦訓(xùn)練完成很難泛化到其它任務(wù),大模型是在海量數(shù)據(jù)下進行預(yù)訓(xùn)練使其具備通用能力,然后通過微調(diào)完成某一個任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

1.2多模態(tài)任務(wù)類型

了解完多模態(tài)大模型的定義,接下來看看多模態(tài)大模型到底能干什么。這也是學(xué)好多模態(tài)以及能夠順利讀完后續(xù)內(nèi)容的重要前提。


GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

多模態(tài)任務(wù)大體可以分為理解生成兩大類。

圖文檢索,即給定文本或者圖片,檢索出與之匹配的圖片或文本。本質(zhì)上就是分類任務(wù),在這個過程中沒有新內(nèi)容生成,只是基于輸入做出判斷,所以被視為理解型任務(wù),

視覺推理、視覺問答都是圖生文任務(wù),與之對應(yīng)的是文生圖任務(wù),像這種有新內(nèi)容生成的則被視為生成型任務(wù)。

文生圖,例如,Stable Diffusion和DALL-E,輸入一段描述文字,模型輸出一張圖片。

圖生文,例如,視覺問答,輸入一張圖片,再輸入一個問題,模型輸出答案。

除此之外,多模態(tài)還有很多應(yīng)用,文生視頻、Lanuguage Guided Detection、Lanuguage Guided Segmentation等等。

1.3多模態(tài)大模型在線體驗

理解這些任務(wù)類型的最好方式就是親身體驗一下,這里給大家介紹幾個在線體驗的網(wǎng)址。

GPT-4o:OpenAI,受限免費
https://chatgpt.com/
Gemini 1.5 pro: Google 免費
https://aistudio.google.com/app/prompts/new_chat
騰訊混元大模型:騰訊,免費
https://hunyuan.tencent.com/bot/chat

為了測試到底哪家強?我決定考考它們,讓它們分析下面圖片中的四面體有幾個三角形?還是有點難度的,要識別三角形,就得能識別出這是個多面體,要識別多面體,就得能區(qū)分實現(xiàn)和虛線的意義,并且還得排除由于圖像質(zhì)量引起的鋸齒干擾。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下面分別是它們的回答。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

目前看,還是GPT-4o略勝一籌。

二、多模態(tài)大模型結(jié)構(gòu)

人腦可以同時處理多種模態(tài)輸入,并且各種模態(tài)起到相互輔助理解的作用,人類大腦皮層中的不同功能區(qū)負責(zé)處理不同的信號,在多模態(tài)大模型中,處理不同的數(shù)據(jù)模態(tài),也需要不同的模型架構(gòu)。

*題外話:馬斯克的腦機接口就是將極細的電極一端插入到控制行為的大腦皮層中,將收集到的信號傳送給機械設(shè)備替代人類完成動作,或者跳過壞死的脊柱,將電極另一端連接到完好的脊柱上進行信號傳遞*

如果有圖片輸入,則需要有能理解圖像的組件,我們稱之為圖像編碼器;如果有文本輸入,則需要有能理解文本的組件,我們稱之為文本編碼器;如果有圖片輸出,則需要有能生成圖像的組件,我們稱之為圖像解碼器;如果有文本輸出,則需要有能生成文本的組件,我們稱之為文本解碼器。

*對于解碼器,有的地方也會叫生成器*

以視覺問答為例,它是一種圖生文任務(wù),輸入是圖像,還會輸入一個問題,輸出是文本。

2.1圖像編碼器

圖像編碼器負責(zé)提取視覺表征,也就是理解圖像上有什么。無論是CV中的圖像分類、目標(biāo)檢測、圖像分割,表征提取都是必要步驟,甚至可以說深度學(xué)習(xí)其實就是表征學(xué)習(xí)。

*題外話:如果你去相親,回來后父母問你對方怎么樣?你說濃眉大眼櫻桃口,這就是一種外貌表征,就算只有一面之緣,過了很久再次碰到你也能瞬間認出,這是視覺提取表征后與記憶匹配了。*

能夠提取圖像特征的,首先想到的肯定是卷積神經(jīng)網(wǎng)絡(luò)CNN,圖像經(jīng)過卷積層后輸出特征圖,在淺層網(wǎng)絡(luò)(靠近輸入端)會提取一些具體的特征,例如邊緣、角點或簡單的紋理,隨著層數(shù)的加深,特征會變得抽象。如物體的整體形狀和結(jié)構(gòu)。

在NLP中,當(dāng)Transformer處理一個單詞時,它會計算這個單詞與其它所有詞的注意力分數(shù),而CNN只會考慮卷積核范圍內(nèi)的像素,即使特征圖的感受野會隨著層數(shù)增加越來越大,但CNN仍是局部注意力,而Transformer則是全局注意力,全局注意力能更好的提取圖像特征。

隨著Transformer在NLP中取得成功,有人將這種架構(gòu)遷移到了CV領(lǐng)域,就有了ViT(Vision Transformer)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ViT

除了模型架構(gòu),成為大模型的另一個因素是能在大規(guī)模語料上預(yù)訓(xùn)練,有人將NLP中的預(yù)訓(xùn)練方法照搬到了CV中,在NLP中,BERT在預(yù)訓(xùn)練時會將句子中的單詞進行隨機掩碼,通過反向傳播調(diào)整模型參數(shù),讓模型去準(zhǔn)確預(yù)測出掩碼的token,ViT則是將圖像劃分為patches,再對patches進行隨機掩碼,然后讓模型去預(yù)測缺失部分,這個過程是自監(jiān)督的。

但是在ViT之前,CV中使用的是另一種更常用的預(yù)訓(xùn)練方法,就是先在ImageNet這種大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練,讓模型學(xué)習(xí)到一些提取基本特征的能力,然后在專用數(shù)據(jù)上進行微調(diào)。

總結(jié)一下,圖像編碼器通常采用ViT架構(gòu),并且采用掩碼的方式預(yù)訓(xùn)練。

2.2文本編碼器

對于VQA任務(wù),還會輸入一個問題,所以還需要文本編碼器對文本進行表征提取,文本編碼器通常采用Tranformer Encoder架構(gòu),因為Encoder在處理每個token時會考慮所有詞,所以擅長理解任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對文本編碼到底是什么意思?這個我在動畫講解Tranformer一,動畫講解Tranformer二中講的很清楚了。

舉個例子,“一個棕色的臘腸狗”,在進入Transformer編碼器前,先轉(zhuǎn)換成Tokens,假設(shè)基于詞的Tokenlization,{“一個”,“棕色的”,“臘腸狗”},然后轉(zhuǎn)換成詞嵌入,假設(shè)詞嵌入維度為2,假設(shè)采用word2vec進行初始化{(0.1,0.2),(0.3,0.4),(0.5,0.6)},經(jīng)過多頭注意力和MLP后輸出{(0.1,0.2),(0.3,0.4),(0.48,0.56)},“臘腸狗”的詞嵌入被修改了,新的詞嵌入具有了棕色臘腸的含義了。這里我們假設(shè)詞嵌入一個維度編碼了狗的品種,第二個維度則編碼了顏色。而最初那個詞嵌入,也就是在這個二維空間中(0.5,0.6)這個點則表示狗。

這里我們僅使用了2維的詞嵌入,GPT3的詞嵌入維度是12288,12288維度空間能表達很豐富的語義信息,人類很難想象高維度空間,因為借助計算機也只能顯示三維空間,對于這個例子,在12288維空間中,別說是“棕色的臘腸狗”就算是“脾氣暴躁棕色的臘腸狗”,““脾氣暴躁棕色皮毛藍色眼睛的臘腸狗””等等,即使添加多個修飾詞也都能在這個高維空間中找到對應(yīng)的點。

*將Token轉(zhuǎn)換成詞嵌入,通常LLM會有一個嵌入層,也就是一個矩陣,我叫它詞嵌入轉(zhuǎn)換表,矩陣的高度是訓(xùn)練數(shù)據(jù)中所有唯一詞的個數(shù),矩陣的寬度是詞嵌入維度,根據(jù)token id去查找這個表就能獲取詞嵌入向量了,這個表中的值在訓(xùn)練開始時是隨機初始化的,并在訓(xùn)練過程中進行更新*

2.3文本解碼器

VQA任務(wù)的輸出也是文本,這個任務(wù)由文本解碼器來完成,文本解碼器通常采用Tranformer Decoder架構(gòu),因為這種自回歸模型擅長文本生成,一個典型的例子就是GPT。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對于預(yù)測下一個詞,一開始是用統(tǒng)計學(xué)的方法實現(xiàn)的,如果訓(xùn)練數(shù)據(jù)中出現(xiàn)“臘腸狗”的次數(shù)比較多,那么,當(dāng)出現(xiàn)“臘腸”時,模型很可能就會預(yù)測下一個詞是“狗”,這個例子是通過前面兩個詞預(yù)測下一個詞,也可以通過前面一個詞預(yù)測下一個詞,這個被稱為多元文法,當(dāng)然也可以通過前后兩個詞預(yù)測中間詞,當(dāng)給出“臘”和“狗”時,很容易預(yù)測中間詞是“腸”,你發(fā)現(xiàn)沒,BERT和GPT的預(yù)訓(xùn)練方法跟這個很像啊!。

2.4多模態(tài)融合

多模態(tài)融合的目的是,讓圖像編碼器對一幅狗的圖像的編碼輸出和文本編碼器對“一只狗”的編碼輸出不僅維度相同,而且在向量空間中越接近越好。否則你干你的,我干我的,就沒辦法將多模態(tài)融合在一起。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

當(dāng)獲得了這只臘腸狗的圖像編碼后,讓它分別與“一只臘腸狗”,“一只加菲貓”等的文本編碼進行相似度計算,就能夠?qū)崿F(xiàn)圖像分類和檢索的任務(wù)。

如果將圖像編碼作為文本解碼器交叉注意力模塊的K,V,“what is in the picture?”作為文本解碼器交叉注意力模塊的Q,就實現(xiàn)了一個視覺問答任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

而如果圖像編碼與“一只棕色臘腸狗在草坪上玩耍”更接近,這就實現(xiàn)了更深層次融合,這對于視覺問答和推理這種生成任務(wù)更友好。

2.5圖像解碼器

VAE,GAN,Stable Diffusion將在下一篇文章介紹。

多模態(tài)大模型的發(fā)展過程中,圖像編碼器,文本編碼器,文本解碼器比較穩(wěn)定,基本上就是ViT和Transformer,主要變化的是多模態(tài)融合模塊,下面就來看一下多模態(tài)發(fā)展史。

三、多模態(tài)發(fā)展史

CLIP:Learning Transferable Visual Models From Natural Language Supervision(2021)

??https://arxiv.org/pdf/2103.00020??

我們都知道,機器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)。而在多模態(tài)領(lǐng)域,更確切地說在多模態(tài)的開山之作CLIP中又提出了一個叫做對比學(xué)習(xí)的概念,對比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)方法,也是一種特殊的無監(jiān)督學(xué)習(xí)方法。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對比學(xué)習(xí)最重要的是要構(gòu)造正負樣本對

拿ImageNet為例,每一張圖像和它的標(biāo)簽就是一個正樣本對,和其它標(biāo)簽就是負樣本,一幅狗的圖像和“a dog”就是正樣本,從不同角度拍攝的狗的圖像和“a dog”也是正樣本,但和“a cat”就是負樣本。

在訓(xùn)練過程中,CLIP通過對比學(xué)習(xí)不僅將圖像和文本編碼統(tǒng)一到一個向量空間中,而且通過對比損失函數(shù)調(diào)整模型參數(shù),讓正樣本的距離拉進,同時負樣本的距離疏遠。

距離的衡量是通過計算向量的余弦夾角也就是向量的點乘。

那如何獲取整個句子或者整個圖片的編碼呢?我們都知道編碼器輸出每個單詞的詞嵌入,答案是CLS token,它編碼了整個句子,或者更直接的將所有詞的向量加權(quán)平均。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

圖像編碼器:ResNet或者ViT

文本編碼器:Tranformer

對比學(xué)習(xí)充當(dāng)了多模態(tài)融合的作用。

經(jīng)過預(yù)訓(xùn)練后的CLIP可以直接用于zero shot分類任務(wù),將閉集模型擴展到開集模型,將標(biāo)簽替換成語言。例如,ImageNet分類。給一張圖像,先用圖像編碼器提取特征,然后構(gòu)造文本a photo of{class},并用文本編碼器編碼,計算余弦相似度,找到相似度最大的類別。

CLIP還有一個好處是可以提前計算好圖像和文本的編碼并存儲起來,當(dāng)來一個新的圖像和文本時,可以直接拿出來用,并不需要重新計算。

所以,CLIP對于圖文檢索任務(wù)特別友好。

道有所能,則必有所不能,通過簡單的向量點乘實現(xiàn)多模態(tài)融合對檢索任務(wù)非常友好,但對于生成任務(wù)就有點力不從心了。

從此進入了融合能力提升時代,也就是需要一個更復(fù)雜的多模態(tài)融合模塊。

ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision(2021)

??https://arxiv.org/pdf/2102.03334??

ViLT首先在模型結(jié)構(gòu)上做了改進,在ViT出現(xiàn)之前,圖像編碼器用的是CNN,具體來說是一個目標(biāo)檢測模型或者直接使用像ResNet這樣的骨干網(wǎng)絡(luò)提取特征,無論對于訓(xùn)練還是推理效率都很低。所以ViLT文本編碼器和圖像編碼器使用簡單的線性映射層。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ViLT另一大貢獻是改進了CLIP的缺點,也就是強化了多模態(tài)融合模塊,來增強多模態(tài)融合能力。所以,ViLT使用Transformer Encoder作為融合模塊。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

正是由于ViLT模型圖像編碼器過于簡單,使其跟復(fù)雜的視覺文本編碼器的模型比,效果不理想。而且實驗證明,其訓(xùn)練過程中模型收斂的也很慢。

在損失函數(shù)上,ViLT沒有使用CLIP中的ITC(Image-Text Contrast)損失函數(shù),而是使用了ITM(Image Text Matching)損失函數(shù)和MLM(Masked Language Modeling)損失函數(shù),還有一個Word Patch Alignment損失函數(shù)。

MLM損失函數(shù):

對于一個Transformer Encoder模型,例如Bert,在預(yù)訓(xùn)練過程中會通過對序列中的token進行掩碼方式進行預(yù)訓(xùn)練,讓模型預(yù)測缺失的被掩碼token,這個損失函數(shù)也是評估模型的這個能力的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ITM損失函數(shù):

如上圖,BERT編碼器有個CLS Token,這個損失函數(shù)用于判斷圖文匹配程度。通過最小化這個損失函數(shù)來達到融合的目的。

雖然ViLT沒有達到預(yù)期,但在ViLT這篇論文中,對多模態(tài)模型也進行了經(jīng)驗性總結(jié),也為后續(xù)模型發(fā)展定下了基調(diào)。也就是在模型結(jié)構(gòu)上視覺編碼器要比文本編碼器大,而且模態(tài)融合也要強,不能只是簡單的使用向量余弦夾角。

對于損失函數(shù),ITC,ITM和MLM這三個也被認定是最有效的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

為什么視覺編碼器要比文本編碼器大?

文字是人造的,圖像是自然的,每個詞包含的語義信息要比圖像的單個像素更豐富,你可以做個實驗,你把文本和圖像都做隨機遮擋,把圖像遮擋80%仍可分析圖像中的是什么,但文本就做不到了。

從此之后,多模態(tài)大模型朝著大一統(tǒng)的方向發(fā)展。

模型結(jié)構(gòu)上的統(tǒng)一,例如,都使用無論視覺編碼器,文本編碼器還是多模態(tài)融合編碼器,都統(tǒng)一使用Transformer架構(gòu)。

任務(wù)上的統(tǒng)一,用同一個模型完成理解和生成任務(wù),圖文檢索,分類,VR,VE,VQA等。

ALBEF:Align before Fuse: Vision and Languag Representation Learning with Momentum Distillation(2021)

??https://arxiv.org/pdf/2107.07651??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ALBEF模型符合我們在ViLT中對一個好的多模態(tài)模型的定義,就是視覺編碼器要比文本編碼器強,多模態(tài)融合能力要強,并且模型既能很好的用于圖文檢索又能用于生成任務(wù)。

但有人會問了,生成任務(wù)是需要解碼器的,可到目前為止用的都是Transformer編碼器啊,而且編碼器也主要用于多模態(tài)融合任務(wù)。

那是如何實現(xiàn)VQA的?

其實也可以變相實現(xiàn)的,我們稱之為閉集VQA。

在此之前,先來說一下如何使用Bert實現(xiàn)問答,本質(zhì)上就是將其轉(zhuǎn)換成一個分類任務(wù),例如將CLS Embedding后面加一個多分類模型,或者將問題和一個上下文一起發(fā)給Bert,然后通過一個二分類預(yù)測答案在上下文中的起始位置和結(jié)束位置。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對于VQA而言,也可以看作一個分類任務(wù),也就是事先準(zhǔn)備好答案,例如一共10個答案,然后將圖像編碼作為交叉注意力模塊的K,V,問題作為Q,然后將融合模塊的CLS token的輸出輸入到一個10分類MLP中。

但這種方法的缺點顯而易見了,不夠靈活,后面我們會看到將使用帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

ALBEF全部采用Transformer架構(gòu),圖像編碼器有12層,將另一個12層的Transformer編碼器拆開,一半用于文本編碼,一半用于多模態(tài)融合。視覺編碼器要比文本編碼器復(fù)雜,使用編碼器作為融合模塊,這都符合前面對于“一個合理的多模態(tài)大模型”的預(yù)期。

視覺編碼器會使用DeiT預(yù)訓(xùn)練模型,文本編碼器和融合模塊用Bert預(yù)訓(xùn)練模型參數(shù)進行初始化,如果直接將視覺文本特征送入融合模塊,效果不會很好,因為他們不是對齊的,所以在進入融合模塊之前,先采用前面提到的對比學(xué)習(xí)進行多模態(tài)對齊。

損失函數(shù)同樣使用了ITC,MLM和ITM。

從網(wǎng)上爬下來的圖像文本對往往帶有很嚴重的噪聲,例如,華山的宣傳畫,描述的是青山綠水,有人嬉戲玩耍,但為了提高檢索率,往往只會用華山等關(guān)鍵詞。但關(guān)鍵詞往往不能描述圖像中的內(nèi)容,所以使用Momentum Model去生成為標(biāo)簽,本質(zhì)上就是為了生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts(2022)

??https://arxiv.org/pdf/2111.02358??

前面的CLIP是一種雙塔對偶結(jié)構(gòu),一個圖像編碼器和一個文本編碼器,然后采用向量點乘實現(xiàn)模態(tài)之間的交互,好處是可以預(yù)先計算所有圖文的向量,來加快圖文檢索任務(wù)。但缺點也很明顯,不善于生成任務(wù)。

為了增強融合能力以適應(yīng)生成任務(wù),后續(xù)都是單塔模型,將一個Transformer分成兩部分,一部分用于文本編碼器,另一部分用于多模態(tài)編碼器,雖然提升了融合能力,但不靈活,對于圖文檢索任務(wù),需要計算Transformer Encoder融合編碼器的相似度分數(shù),但這對圖文檢索不友好。

那能不能把雙塔和單塔的優(yōu)點結(jié)合起來呢?既能單獨用來對文本視覺編碼,又能融合。

所以VLMO中提出了混合專家模型(MOE)

(對于MOE,這是一種思想,大家可以回想下傳統(tǒng)機器學(xué)習(xí)中的集成學(xué)習(xí),在VLMO中,不同專家能夠處理不同的數(shù)據(jù)模態(tài),架構(gòu)不同,還有一種MOE思想是采用同一種架構(gòu),但每個專家去學(xué)習(xí)不同領(lǐng)域的知識,例如,馬斯克開源的Grok大模型)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

MOME整體上就是一個Transformer Encoder結(jié)構(gòu),這實現(xiàn)了模型架構(gòu)上的統(tǒng)一,但是對Transformer Block里面做了改動,主要是對MLP層做了改動,多頭注意力層共享參數(shù)。其MLP層劃分為三種模態(tài)專家,分別是視覺專家(V-FFN)用于圖像編碼,語言專家(L-FFN)用于文本編碼,以及視覺-語言專家(VL-FFN)用于圖像-文本融合。

訓(xùn)練時,也是迭代進行,先像BEiT那樣視覺預(yù)訓(xùn)練,然后,凍結(jié)MSA和V-FFN參數(shù),再像BERT那樣文本預(yù)訓(xùn)練,最后輸入圖像文本對視覺語言預(yù)訓(xùn)練。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

VLMO不僅實現(xiàn)了模型架構(gòu)上的統(tǒng)一,而且也實現(xiàn)了任務(wù)上的統(tǒng)一,既能像CLIP那樣實現(xiàn)圖文檢索,也能處理生成任務(wù)。

BeiT v3:Image as a Foreign Language: BEIT Pretraining for  All Vision and Vision-Language Tasks(2022)

??https://arxiv.org/pdf/2208.10442??

以前我們使用ViT作為圖像編碼器,使用Transformer處理文本,兩者本質(zhì)上還是不同的,為了實現(xiàn)大一統(tǒng),能不能把圖像也看做是一種特殊的語言?

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

多模態(tài)繼續(xù)朝大一統(tǒng)的方向努力。

BEiT-3出現(xiàn)了,它將圖像看作是一種特殊的語言(Imglish)。

它與VLMO在模型架構(gòu)上很類似,也使用了MoE架構(gòu),所以可以適用于不同下游任務(wù),例如,a和b中用于分別編碼圖像和文本,c中用于視覺和文本融合,d中類似CLIP的對比學(xué)習(xí),以及e中的文本生成。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

損失函數(shù)不需要ITM和ITC,只要MLM損失。

但前面我們也說過,只有編碼器的模型在處理生成任務(wù)上是不靈活的,接下來我們將看到帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation(2022)

??https://arxiv.org/pdf/2201.12086??

BLIP這篇論文有兩個貢獻點,一個是從模型,二個是數(shù)據(jù)。

前面提到的這些模型只使用了Transformer Encoder,適合理解任務(wù),不能直接用于生成任務(wù)。這時候需要加一個Decoder模塊。并且提出了一個統(tǒng)一的模型來處理不同的任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

BLIP包括三個編碼器和一個解碼器,編碼器負責(zé)編碼圖像和文本,解碼器負責(zé)根據(jù)編碼器的輸出生成文本。

損失函數(shù)ITC和ITM,LM。通過ITC損失函數(shù)對齊圖像和文本;圖像編碼特征通過交叉注意力與文本特征融合。生成多模態(tài)特征,通過image-ground Text encoder去計算ITM損失。因為是Transformer Decoder,用于文本生成,而不是預(yù)測掩碼,所以損失函數(shù)由MLM變成了LM。

注意,顏色相同的模塊參數(shù)是共享的。圖片經(jīng)歷一次前向過程,文本需要經(jīng)歷三次。

在數(shù)據(jù)上,提升預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量對于多模態(tài)性能提升很重要,但從網(wǎng)上下載的圖像文本對有噪音,還是通過有個方法提升訓(xùn)練數(shù)據(jù)質(zhì)量。論文提出了Captioner和Filter。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

如上圖,從互聯(lián)網(wǎng)爬下來的圖像描述是“blue sky bakery in sunset park”,這句話更適合搜索引擎,并沒有很好的描述圖片。

下面是Captioner模塊根據(jù)圖片生成的文本描述,很好的描述了圖片中的內(nèi)容。Filter則會判斷是互聯(lián)網(wǎng)上爬的好還是Cap生成的好,最后過濾掉質(zhì)量不好的。

具體過程是,Cap中用最大的BLIP模型生成40描述,F(xiàn)ilter中用CLIP檢索出質(zhì)量最好的5個。再用CLIP ResNet找到最好的。

CoCa:Contrastive Captioners are Image-Text Foundation Models(2022)

??https://arxiv.org/pdf/2205.01917??

與ALBEF很像,一個圖像編碼器,一個Transformer decoder分兩半。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

只使用Decoder,只使用ITC和LM損失,解決訓(xùn)練效率問題。其它模型都要forward好幾次。

Flamingo: a Visual Language Model for Few-Shot Learning(2022)

??https://arxiv.org/pdf/2204.14198??

當(dāng)前大語言模型就有很強的語言理解和生成能力,具有in context few-shot推理能力,那能不能利用這些LLM資源呢?

Flamingo借鑒LLM的Few-Shot推理能力,使其善于VR VE VQA等生成任務(wù)。

視覺編碼器也是用預(yù)訓(xùn)練好的ViT模型,例如BeiT,如果訓(xùn)練過程中參數(shù)保持不變,直接將視覺編碼器的輸出給LLM肯定不是對齊的,那如何實現(xiàn)多模態(tài)的融合?

要么微調(diào)ViT的參數(shù),要么中間加一個Adapter。

Flamingo選擇凍結(jié)大語言模型以及視覺預(yù)訓(xùn)練模型參數(shù),然后通過加一個Adapter實現(xiàn)模態(tài)之間的對齊。

從此進入大語言模型加持時代。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

視覺問答

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是Flamingo的模型結(jié)構(gòu),藍色的模型參數(shù)是凍結(jié)的。

視覺編碼器是一個預(yù)訓(xùn)練的ResNet。

Perceiver Resampler就是Adapter,將ResNet的輸出特征映射成視覺tokens。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GATED XATTN-DENSE layers:類似交叉注意力,視覺tokens作為LLM的條件輸入。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)


BLIP-2: Bootstrapping Language-Image Pre-training  with Frozen Image Encoders and Large Language Models(2023)

??https://arxiv.org/pdf/2301.12597??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

BLIP-2與BLIP相比,也是引入了LLM,總體上就是圖像編碼器提取圖像表征,然后將表征與用戶Query一起輸入到類似GPT的大語言模型,然后以自回歸的方式生成文本。這里圖像的表征,就像是RAG中的上下文,也就是告訴大語言模型,要基于圖像表征的內(nèi)容,針對我的問題給出答案。

BLIP2同樣凍結(jié)了圖像編碼器和LLM的參數(shù),然后讓Querying Transformer充當(dāng)Adapter的角色。

預(yù)訓(xùn)練分兩個階段,第一個階段,視覺文本表示學(xué)習(xí),讓Querying Transformer學(xué)習(xí)到的視覺表示與文本靠近,第二階段讓LLM理解Querying Transformer的輸出。這兩個過程都是調(diào)節(jié)Querying Transformer的參數(shù),其它都是凍結(jié)參數(shù)的。

下圖是第一階段訓(xùn)練過程。輸入圖像文本對,損失函數(shù)ITC,ITM以及ITG。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是第二階段預(yù)訓(xùn)練,全連接層的目的是將Q-Former的輸出維度調(diào)整到LLM的輸入維度。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)


同樣使用Cap Filter模塊去除互聯(lián)網(wǎng)數(shù)據(jù)的噪聲,生成質(zhì)量更好的圖像文本對。

上述模型雖然是多模態(tài),但大多聚焦在文本和圖像,下面的模型能夠處理,語音,點云,紅外線,射線,圖,時序,視頻,是真正意義上的多模態(tài)。

IMAGEBIND: One Embedding Space To Bind Them All(2023)

??https://arxiv.org/pdf/2305.05665??

ImageBind的核心思想是,雖然有多種數(shù)據(jù)模態(tài),如果實現(xiàn)兩兩對齊很復(fù)雜,如果能找到一個中間人,也就是Image,讓其它模態(tài)與Image對齊,那么其它模態(tài)間也就能實現(xiàn)對齊了。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

Meta-Transformer: A Unified Framework for Multimodal Learning (2023)

??https://arxiv.org/pdf/2307.10802??

前面所有模型都需要構(gòu)造圖像文本對,Meta-Transformer不需要構(gòu)造多模態(tài)輸入配對訓(xùn)練數(shù)據(jù),它通過Data-to-Sequence Tokenization將不同模態(tài)映射到同一個嵌入空間,然后通過Unified Encoder提取表征,最后通過Task-Specific Heads處理不同任務(wù),Meta-Transformer雖然不需要配對多模態(tài)數(shù)據(jù),但需要與任務(wù)相關(guān)的標(biāo)簽信息來訓(xùn)練模型。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是Meta-Transformer與其它模型的對比。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)



本文轉(zhuǎn)載自公眾號人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/-7bEdhR3FXmWRCpDO56Ung??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产av毛片 | 999精品在线| 成人免费视频观看视频 | 中文字幕在线中文 | 91精品久久 | 欧美日韩一区二区三区不卡视频 | 久久国产精品免费 | 国产一级特黄aaa大片评分 | 日本免费在线看 | 一级a爱片久久毛片 | 在线中文一区 | 亚洲欧美日韩精品久久亚洲区 | 日韩欧美三级在线 | 羞视频在线观看 | 色综合久久久久 | 精品欧美乱码久久久久久1区2区 | 国产精品国产三级国产aⅴ无密码 | 国产一区 | 欧美激情久久久 | 视频在线亚洲 | 欧美 日本 国产 | 超碰在线播 | 欧美精品一区三区 | 免费视频二区 | 精品九九九| 亚洲国产第一页 | av久久| 人人做人人澡人人爽欧美 | 色综合视频| 亚洲第一av | 在线成人免费视频 | 中文字幕久久精品 | 亚洲欧美日韩精品久久亚洲区 | 精品不卡| 国产欧美一区二区三区日本久久久 | 亚洲欧美日韩成人在线 | 日本在线一区二区三区 | 日日天天 | 日韩高清在线 | 一区二区中文字幕 | 久久久亚洲精品视频 |