什么是多模態AI 如何融合和對齊？原創

發布于 2024-11-11 11:03

瀏覽

0收藏

近年來，大型語言模型Large Language Models（LLM）的研究取得了顯著的進展（例如GPT-3，LLaMa，ChatGPT，GPT-4），這些模型在各項自然語言處理（NLP）任務上展現了出色的性能。

通過在海量數據上預訓練，LLM獲得了豐富的知識以及強大的推理能力。只需要輸入一些用戶指令，這些模型就可以解析指令、進行推理并給出符合用戶預期的回答。這些能力背后蘊含著眾多關鍵思想和技術，包括指令微調（Instruction Tuning），上下文學習（In-Context Learning）和思維鏈（Chain of Thought）等，以及多模態。

什么是多模態

多模態人工智能利用來自多個不同模態（如文本、圖像、聲音、視頻等）的數據進行學習和推理。多模態人工智能強調不同模態數據之間的互補性和融合性，通過整合多種模態的數據，利用表征學習、模態融合與對齊等技術，實現跨模態的感知、理解和生成，推動智能應用的全面發展。

接下來分三部分：_數據采集與表示、數據處理與融合、學習與推理，一起來科普下多模型的基本術語。

什么是多模態AI 如何融合和對齊？-AI.x社區

多模態學習（Multimodal Learning）是一種利用來自不同感官或交互方式的數據進行學習的方法，這些數據模態可能包括文本、圖像、音頻、視頻等。多模態學習通過融合多種數據模態來訓練模型，從而提高模型的感知與理解能力，實現跨模態的信息交互與融合。接下來分三部分：模態表示、多模態融合、跨模態對齊，一起來總結下多模型的核心。

什么是多模態AI 如何融合和對齊？-AI.x社區

什么是多模態協同表示（Coordinated Representation）？多模態協同表示是一種將多個模態的信息分別映射到各自的表示空間，但映射后的向量或表示之間需要滿足一定的相關性或約束條件的方法。這種方法的核心在于確保不同模態之間的信息在協同空間內能夠相互協作，共同優化模型的性能。

什么是多模態AI 如何融合和對齊？-AI.x社區

什么是多模態融合

什么是多模態融合（MultiModal Fusion）？多模態融合能夠充分利用不同模態之間的互補性，它將抽取自不同模態的信息整合成一個穩定的多模態表征。從數據處理的層次角度將多模態融合分為數據級融合、特征級融合和目標級融合。

什么是多模態AI 如何融合和對齊？-AI.x社區

多模態融合

數據級融合（Data-Level Fusion）：

數據級融合，也稱為像素級融合或原始數據融合，是在最底層的數據級別上進行融合。這種融合方式通常發生在數據預處理階段，即將來自不同模態的原始數據直接合并或疊加在一起，形成一個新的數據集。
應用場景：適用于那些原始數據之間具有高度相關性和互補性的情況，如圖像和深度圖的融合。

特征級融合（Feature-Level Fusion）：

特征級融合是在特征提取之后、決策之前進行的融合。不同模態的數據首先被分別處理，提取出各自的特征表示，然后將這些特征表示在某一特征層上進行融合。
應用場景：廣泛應用于圖像分類、語音識別、情感分析等多模態任務中。

目標級融合（Decision-Level Fusion）：

目標級融合，也稱為決策級融合或后期融合，是在各個單模態模型分別做出決策之后進行的融合。每個模態的模型首先獨立地處理數據并給出自己的預測結果（如分類標簽、回歸值等），然后將這些預測結果進行整合以得到最終的決策結果。
應用場景：適用于那些需要綜合考慮多個獨立模型預測結果的場景，如多傳感器數據融合、多專家意見綜合等。

什么是多模態對齊

什么是跨模態對齊（MultiModal Alignment）？跨模態對齊是通過各種技術手段，實現不同模態數據（如圖像、文本、音頻等）在特征、語義或表示層面上的匹配與對應。跨模態對齊主要分為兩大類：顯式對齊和隱式對齊。

什么是多模態AI 如何融合和對齊？-AI.x社區

什么是顯示對齊（Explicit Alignment）？直接建立不同模態之間的對應關系，包括無監督對齊和監督對齊。

無監督對齊：利用數據本身的統計特性或結構信息，無需額外標簽，自動發現不同模態間的對應關系。

CCA（典型相關分析）：通過最大化兩組變量之間的相關性來發現它們之間的線性關系，常用于圖像和文本的無監督對齊。
自編碼器：通過編碼-解碼結構學習數據的低維表示，有時結合循環一致性損失（Cycle Consistency Loss）來實現無監督的圖像-文本對齊。

監督對齊：利用額外的標簽或監督信息指導對齊過程，確保對齊的準確性。

多模態嵌入模型：如DeViSE（Deep Visual-Semantic Embeddings），通過最大化圖像和對應文本標簽在嵌入空間中的相似度來實現監督對齊。
多任務學習模型：同時學習圖像分類和文本生成任務，利用共享層或聯合損失函數來促進圖像和文本之間的監督對齊。

什么是多模態AI 如何融合和對齊？-AI.x社區

什么是隱式對齊（Implicit Alignment）？不直接建立對應關系，而是通過模型內部機制隱式地實現跨模態的對齊。這包括注意力對齊和語義對齊。

注意力對齊：通過注意力機制動態地生成不同模態之間的權重向量，實現跨模態信息的加權融合和對齊。Transformer模型：在跨模態任務中（如圖像描述生成），利用自注意力機制和編碼器-解碼器結構，自動學習圖像和文本之間的注意力分布，實現隱式對齊。BERT-based模型：在問答系統或文本-圖像檢索中，結合BERT的預訓練表示和注意力機制，隱式地對齊文本查詢和圖像內容。

語義對齊：在語義層面上實現不同模態之間的對齊，需要深入理解數據的潛在語義聯系。圖神經網絡（GNN）：在構建圖像和文本之間的語義圖時，利用GNN學習節點（模態數據）之間的語義關系，實現隱式的語義對齊。預訓練語言模型與視覺模型結合：如CLIP（Contrastive Language-Image Pre-training），通過對比學習在大量圖像-文本對上訓練，使模型學習到圖像和文本在語義層面上的對應關系，實現高效的隱式語義對齊。

什么是多模態AI 如何融合和對齊？-AI.x社區

多模特LLM示例

Flamingo是2022年推出的多模態大語言模型。視覺和語言組件的工作原理如下：

視覺編碼器將圖像或視頻轉換為嵌入（數字列表）。這些嵌入的大小取決于輸入圖像的尺寸或輸入視頻的長度，因此另一個稱為感知器重采樣器的組件將這些嵌入轉換為通用的固定長度。

語言模型接收文本和來自 Percever Resampler 的固定長度視覺嵌入。視覺嵌入用于多個“交叉注意力”塊，這些塊學習根據當前文本權衡視覺嵌入不同部分的重要性。

什么是多模態AI 如何融合和對齊？-AI.x社區

圖 1 來自 Flamingo 論文，展示了模型架構。

訓練分為三個步驟：

視覺編碼器使用 CLIP 進行預訓練。CLIP 實際上同時訓練視覺編碼器和文本編碼器，因此此步驟中的文本編碼器將被丟棄。
該語言模型是一個預先訓練了下一個標記預測的Chinchilla模型，即根據一系列先前的字符預測下一組字符。大多數 LLM（如 GPT-4）都是這樣訓練的。您可能會聽到這種類型的模型被稱為“自回歸”，這意味著該模型根據過去的值預測未來的值。
在第三階段，將未經訓練的交叉注意力模塊插入語言模型中，并在視覺編碼器和語言模型之間插入未經訓練的感知器重采樣器。這是完整的 Flamingo 模型，但交叉注意力模塊和感知器重采樣器仍需要訓練。為此，整個 Flamingo 模型用于計算下一個標記預測任務中的標記，但輸入現在包含與文本交錯的圖像。此外，視覺編碼器和語言模型的權重被凍結。換句話說，只有感知器重采樣器和交叉注意力模塊實際上得到更新和訓練。

經過訓練，Flamingo 能夠執行各種視覺語言任務，包括以對話形式回答有關圖像的問題。

什么是多模態AI 如何融合和對齊？-AI.x社區