「多模態大模型」解讀 | 突破單一文本模態局限原創精華

發布于 2024-7-5 10:24

瀏覽

0收藏

編者按：理想狀況下，世界上的萬事萬物都能以文字的形式呈現，如此一來，我們似乎僅憑大語言模型（LLMs）就能完成所有任務。然而，理想很豐滿，現實很骨感——數據形態遠不止文字一種，大多數數據也不是以文本的形式呈現的，我們日常接觸到的數據涵蓋了圖像、視頻、音頻、語音（images or video, audio, speech）等多種形態，形式豐富多元。因此，能夠同時理解和處理多種數據形式的多模態大語言模型（Multimodal Large Language Model，MLLM）應運而生。
構建 MLLM 的關鍵在于將大語言模型與各種模態的編碼器(如圖像編碼器)相結合，實現跨模態的語義一致性映射。著名的 CLIP 模型就是一個典范，它能將語義相似的圖像和文本映射到向量空間中的相鄰位置。通過這種方式，機器不僅能夠“讀懂”圖像、視頻的內容，更能在多模態數據的基礎上展開復雜的推理、創作等高級認知活動。
本文闡述了多模態技術的重要意義，深入剖析了 MLLM 的核心架構和運作原理，并盤點了三種主流的多模態系統構建方式。無疑，這是一篇觀點透徹，內容豐富，極具科普價值的佳作。相信通過這篇文章，各位讀者一定能夠對 MLLM 有更加全面深入的了解。

作者 | Ignacio de Gregorio

編譯 | 岳揚

盡管 AGI 可能不會很快出現，但大語言模型確實正通過一種名為“多模態”的形式迎來革新。這一進展使前沿模型從單一的文字處理模型進化為能夠同時處理多種數據類型的全能模型，即所謂的多模態大語言模型（MLLMs）。

當下，諸如 ChatGPT、Gemini、Claude 等許多模型，已不再局限于大語言模型（LLMs）范疇，而是升級為多模態大語言模型（MLLMs），因為它們具備處理文本、圖像的能力，甚至部分情況下還能處理視頻。

然而，在進一步探討之前，我們有必要思考：我們為什么需要多模態模型？

01 為何我們需要多模態？

理想狀況下，世界上的萬事萬物都能以文字的形式呈現，如此一來，我們似乎僅憑大語言模型（LLMs）就能完成所有任務。然而，理想很豐滿，現實很骨感——數據形態遠不止文字一種，大多數數據也不是以文本的形式呈現的，我們日常接觸到的數據涵蓋了圖像、視頻、音頻、語音（images or video, audio, speech）等多種形態，形式豐富多元。

事實上，使用 AI 解決那些最具挑戰性的問題時，恰恰需要依賴多模態的處理能力。

試想一下，當我們使用虛擬助手（virtual assistant）時，可能希望它能識別并解答手部新出現的劃痕或炎癥問題；或是當我們在亞洲旅行途中偶遇一道陌生美食，期待它能生動描述這道佳肴的具體細節。

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

source: ??https://github.com/kohjingyu/gill?tab=readme-ov-file??

那么，究竟如何才能搭建出一個多模態大語言模型（MLLM）呢？

02 深入解析多模態模型架構

簡而言之，目前大多數多模態大語言模型（MLLMs）的核心構成包括兩大部分：大語言模型（LLM）及另一種模態的編碼器。讓我們逐步揭開其神秘面紗。

2.1 大語言模型（LLMs），AI 領域的中流砥柱

LLMs 這類模型屬于 sequence-to-sequence 架構，其工作原理為接收文本輸入，然后輸出統計學上最有可能的后續序列。

換言之，它們通過不斷預測下一個詞匯，生成流暢且文采斐然的文本。自 2022 年 ChatGPT 發布以來，大語言模型迅速成為了全球逾 2 億用戶手中的生產力利器，同名應用程序也一舉創下了史上增長速度最快的 C 端應用記錄。

尤其值得一提的是，它們卓越的模擬邏輯推理（imitate reasoning）和激發創新思維（enhance creative processes）的能力，激起了業界關于能否將此類系統作為基礎架構，應用于更為復雜多變、不局限純文本處理場景的廣泛討論。

然而，要實現這一目標，還需引入一個關鍵的輔助模塊。

2.2 編碼器：連接至多元數據世界的橋梁

大語言模型（LLMs）主要處理文本（在某些情況下也會處理代碼，因其與自然語言有相似的性質）。因此，要處理圖像甚至視頻等其他數據類型，模型需引入另一個新部件 —— 編碼器（encoder）。

其原因在于，LLMs 屬于純解碼器架構的 Transformer，意味著它們會采用一種特殊手法來對數據進行編碼。

但，“對數據進行編碼”是什么意思呢？

無論處理的是文本里的字詞（words）或是圖像中的像素點（pixels），對輸入序列進行編碼的核心思想是將其轉化為一系列數字，即所謂的向量嵌入（vector embeddings）。這種向量形式的表征（representation），能夠捕捉輸入序列的語義信息。

特別是 LLMs 擁有 embedding look-up matrices（譯者注：就像是一個巨大的字典，每個詞匯對應著一個在高維空間中的向量表征。例如，假設有一個包含 10000 個詞匯的詞匯表，每個詞匯都有一個 50 維的向量表征，那么這個 embedding look-up matrices 就會是一個 10000 行、50 列的矩陣。每一行對應詞匯表中的一個詞，存儲了該詞的 50 維向量。在模型處理文本時，它會根據輸入內容的詞匯索引在這個矩陣中查找相應的向量，作為該詞的嵌入表征。）。這些矩陣的作用是從輸入序列的令牌中，提取出對應的詞嵌入。換言之，模型在訓練階段會學習如何將輸入的詞（或tokems）轉換為向量表征（即嵌入），這一過程是通過優化模型參數完成的，在推理階段，當新的輸入序列傳入模型時，模型會直接使用已學習到的參數來產生相應的嵌入向量，而不需要再經歷一個單獨的、顯式的編碼步驟。

這是一種經濟高效的數據編碼方式，無需每次處理都啟動編碼網絡（encoder network）。

對數據進行編碼（Encoding data）有兩種基本形式：獨熱編碼（one-hot）或稠密編碼（dense）。獨熱編碼（One-hot encoding）的原理是，把每個詞匯轉換成一串數字，其中大部分數字為‘0’，而唯一的一個數字標記為‘1’：

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

source: ??https://medium.com/intelligentmachines/word-embedding-and-one-hot-encoding-ad17b4bbe111??

但就 MLLMs 而言，嵌入是 “稠密（dense）” 的，這意味著，現實生活中相近的概念在向量空間中也會擁有相近的向量表征，包括向量的大小和方向，反之亦然：

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

source: ??https://arize.com/blog-course/embeddings-meaning-examples-and-how-to-compute/??

為了達成目標，我們需要編碼器 —— 一種基于 Transformer 設計的工具，它的任務是接收各種輸入數據，并巧妙地將其轉化為向量嵌入。舉個例子，當編碼器面對的是圖像時，它能夠將圖像信息轉換為“圖像嵌入（image embedding）”形式。

不管處理的是何種數據模態，我們的目標始終一致：構建出一個向量空間，在這里，現實中意義相近的概念會被映射為接近的向量，而意義迥異的概念則會轉化成相距甚遠的向量。通過這種方式，我們把對世界語義的理解轉變成了一項數學問題；向量間的距離越短，意味著它們代表的概念含義越接近。

最關鍵的是，這種處理方法并不局限于文本領域，圖像等其他數據模態也同樣適用，這正是其獨特魅力所在。

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

Encoding images. Image generated by author

但對于圖像來說，事情就變得棘手了。

我們不僅希望圖像的嵌入過程（image embedding）能將相似的圖像（比如哈士奇的圖像）歸類到相似的向量類別中，而且還希望這些向量與同一圖像的文字描述也保持相似性。例如，如下圖所示，一幅描繪波浪的圖像和一段描述相同場景的文本，盡管來自不同的模態，但應該具有相似的向量嵌入。

為了達到這一目的，OpenAI 等實驗室開發了像 CLIP 這樣的模型，這些模型創建了 mixed embedding spaces（譯者注：在 mixed embedding spaces 中，不同模態的輸入數據通過特定的編碼器映射到同一向量空間內，這樣即使數據的原始模態不同，也可以基于其內在的語義相似性進行比較。），在這個向量空間中，描述語義（text describing semantically）上概念相似的圖像和文本會被賦予相似的向量，從而實現了跨模態的語義一致性。

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

source: ??https://blog.dataiku.com/leveraging-joint-text-image-models-to-search-and-classify-images??

由于 CLIP 這類模型的出現，如今的機器已經具備了處理圖像并洞察其含義的能力。

Masked AutoEncoders（MAEs）是另一種訓練圖像編碼器（image encoders）的主流方法。在這種情況下，模型接收到的是一幅部分信息被掩蓋的圖像，模型需要重建完整圖像。這些編碼器之所以強大，是因為它們必須學會從殘缺的信息中推斷出“遮擋之下”的真相（what’s hiding behind the masked parts），即識別出“被隱藏的部分”是什么（what’s missing）。

不過，對于多模態語言模型（MLLMs）而言，CLIP 編碼器的應用更為廣泛，主要是由于其與文本處理之間存在著天然的聯系。

然而，如果我們希望建立一個像 ChatGPT 那樣，能夠同時處理圖像和文本的模型，我們又該如何著手搭建這樣一個系統呢？

03 多模態系統的主要類型

創建多模態系統主要有三種方法。

3.1 從通過工具實現多模態系統到真正的多模態大語言模型（MLLM）

有三類方法構建 MLLM 系統，但僅兩類可稱得上是真正的多模態大語言模型。

Tool-Augmented LLMs：這類方案是將大語言模型（LLMs）與可以處理其他類型數據的外部系統相結合。這些系統并不算作多模態大語言模型，因為我們僅僅是通過集成另一個模型或工具來擴展大語言模型的功能。以 ChatGPT 的語音/音頻處理功能為例，實際上它是將大語言模型與語音轉文本（Speech-to-Text）及文本轉語音（Text-to-Speech）兩個獨立模型相連。這樣，每當模型接收到音頻，就將其轉交給這些系統處理，而非真正的多模態大語言模型直接處理數據。
Grafting：該方法是指將兩個已經訓練完成的組件 —— 編碼器（encoder）和大語言模型（LLMs） —— 拼接起來形成多模態大語言模型。因為它具有很高的成本效益比，這種方法在開源社群中極為流行，通常只需訓練一個適配器（adapter）來連接這兩個預訓練模型。
Native MLLM（Generalist Systems）：此途徑為那些最熱門且財力充足的人工智能研究機構所采納。其核心在于一開始就將大語言模型和編碼器連接在一起，從零開始進行訓練。雖然這種方式能帶來最優效果，但同時也是最燒錢的。GPT-4V（ChatGPT）、Grok 1.5V、Claude 3 與 Gemini 等皆屬此類方法的應用實例。

我們或許還可以考慮另一種方法，那就是在不使用 separate encoder（譯者注：在多模態或多任務學習架構中獨立處理不同類型輸入數據的編碼器。）的情況下構建MLLM，Adept 的 MLLMs 就屬于這種情況。不過，使用這種方法構建的多模態模型相當罕見。

不論是選擇第二種還是第三種方案（再次強調一次，第一種方案其實并非純粹的 MLLM 模型，而是一套 MLLM 系統），它們的工作原理是什么呢？

3.2 The MLLM pipeline

我們將重點討論最常見的 MLLM 方案（即結合圖像編碼器（image encoder）和 LLMs 的第二種方案）構建能同時處理圖像與文本的多模態模型。有一點需要在此強調，這種方案只要更換編碼器，也能處理其他模態的數據，比如使用音頻編碼器處理音頻信號。 LLMs 因其具備與用戶交流及在某些特定情形下處理復雜問題的能力，始終是不可或缺的組成部分。

向 MLLM 輸入數據，通常遵循兩種模式：

純文本：在這種情況下，我們僅向模型輸入文本信息，因此我們只希望讓模型如同常規 LLM 一樣運行。若想深入了解這一過程的具體細節，請閱讀此處有關 Transformers 的博文（??https://thewhitebox.ai/transformers-the-great-paradigm-shift/?? ）。
圖文并茂：在此情形下，模型接收到的是一張圖片及其相關的文本描述。接下來，我們將重點探討這種情況。

以 Sphinx 為例，這是一個開源的多模態 LLM，讓我們以此為參照。

「多模態大模型」解讀 | 突破單一文本模態局限-AI.x社區在這里插入圖片描述

source: ??https://arxiv.org/pdf/2311.07575.pdf??

目前，我們手頭的數據是一幅描繪獅身人面像的卡通圖像，以及對該圖像的文本描述，我們希望 MLLM 能夠同時解析這兩部分內容，并能夠描述圖像所描繪的內容。
隨后，圖像被劃分為若干小塊（本例中，他們還額外生成了一個低分辨率的小塊（patch），以較低的分辨率表示完整的圖像）
這些小塊隨后被送入圖像編碼器，由其進行處理并生成相應的嵌入向量（patch embeddings）。每一項嵌入都精準地反映了其所代表圖像區域的含義。

此時，會有兩種情況發生。如果采用的是先分別預訓練圖像編碼器和 LLM，后續再結合的方法，一般會使用一個適配器（adapter），將圖像嵌入轉化為與 LLM 嵌入空間相匹配的形式。而如果使用的是通用方法，圖像編碼器在設計之初就已具備為 LLM 生成有效嵌入的能力。

與此同時，圖像的文本描述同樣被輸入至模型中。在本例中，文本序列（text sequences）遵循了我們之前在介紹 Transformer LLMs 時所述的流程（分詞、查找嵌入向量、拼接位置嵌入（positional embedding）以及執行插入（insertion）操作）
至此，LLM 將所有輸入整合為單一序列，并依據圖像與文本輸入共同提供的信息，生成新的序列。

04 Final Thoughts

多模態大語言模型（Multimodal Large Language Models，簡稱 MLLMs）是當前生成式人工智能最先進技術的重要組成部分。MLLMs 憑借單一模型即可實現多種模態數據的處理，開啟了以前只能想象的許多前景廣闊的應用場景。

多模態也拉近了機器與人類的距離，因為人類生來就是通過多種感官實現多模態的。所以，機器遲早會模仿人類的這一特性。

在追求構建通用人工智能（Artificial General Intelligence，簡稱 AGI）或超人工智能（Artificial Super Intelligence，簡稱 ASI）的過程中，多模態起著至關重要的作用。因為人類之所以能夠成為今天的智能生物，很大程度上歸功于我們具備處理和理解多種模態數據的能力，這讓我們能夠適應并駕馭周遭的生存環境。

因此，多模態對于機器人而言是進入物理世界的關鍵要素，它使得機器能夠像人類一樣觀察、感知、聆聽并和我們所處的物理世界進行互動。

Thanks for reading!

Ignacio de Gregorio

I break down frontier AI systems in easy-to-understand language for you. Sign up to my newsletter here: ??https://thetechoasis.beehiiv.com/subscribe??

END

原文鏈接：

??https://thewhitebox.ai/mllm-multiple-modalities-one-model/??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LLMs

多模態大語言模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

「多模態大模型」解讀 | 突破單一文本模態局限原創精華

01 為何我們需要多模態？