大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法? 原創
多模態大模型中模態對齊數據構建的難點及解決方案。
多模態大模型相對于LLM的訓練難度更高一些,其中很關鍵的部分在于模態的對齊。
多模態對齊需要把各種模態映射或對齊到token空間中,讓圖像、語音等多模態信息抽象為token表征,從而利用現有的LLM的技術實現多模態領域的思維鏈和涌現。
那么本系列開始總結MLLM中多模態對齊的難點以及現有的解決方法,下面是本系列想要包含的內容。
1. 模態對齊的難點總結
- 模態對齊數據構建
- 跨模態差異影響融合效果
- 模態對齊評估效率比較低
2. 現有難點的解決方案
本篇主要來講述模態對齊的部分。
多模態模型架構與訓練方法
在開始前先簡單回顧一下多模態模型架構與訓練方法~
目前MLLM常見的輸入模態包括圖像、視頻、音頻,另外IMU(慣性測量單元,Inertial Measurement Unit)傳感器數據以及腦波等生理信號數據也有在嘗試接入。
下圖是一個可以參考的多模態大模型基本架構。
典型的多模態大模型基本架構(來源:騰訊AI Lab)
目前多模態大模型的訓練方法和架構上比較趨同,多采用兩段式訓練方法,按照一定次序分別訓練視覺編碼器和語言模型,但最后階段都會訓練到跨模態映射(Q-former或者MLP)的參數。
兩段式訓練方法(來源:阿里巴巴達摩院)
具體來說:
第一階段,通過模態對齊預訓練,將映射層和模態編碼器(Modality 的輸出優化映射到聯合LLM嵌入空間,進行各模態的對齊。
第二階段,通過多模態指令調整,模型將系統指令/文本查詢與輸入多模態上下文相關聯。CLIP ViT-L等就是比較典型的特定模態編碼器。
可以看到模態對齊確實是非常重要的部分。
數據模態對齊的難點和解決方案
1. 安全性難點
多模態數據對齊需要文本指令、上下文響應,以及非文本模態(如圖像/音頻)的強關聯標注。此外目前新興的生物信號、傳感器信號等數據在建模時也需要考慮,以及標注過程中還需要考慮COT的部分。
目前數據收集過程中需要著重考慮內容相關性和安全性,需要人工介入的環節非常多,因此成本極高且難以規模化。
2. 解決方案簡述
可以通過標注或合成的方式構建一部分引導樣本,引導生成內容與生成風格,并以目標嵌入的方式替代真實的多模態數據,在MLLM的前向傳播過程中引導生成相關引導目標嵌入來進行優化。
3. 具體示例說明
上面的話可能有些抽象,這里推薦一篇ACL2025北航彭浩團隊提出的合成嵌入技術SEA(Synthetic Embedding augmented safety Alignment)框架輔助大家理解。
SEA在模態編碼器表示空間中優化合成嵌入,替代真實多模態數據;通過梯度更新生成目標嵌入,比如對訓練結果有害的相關向量,與文本指令結合構建訓練數據集。
主要分為3個階段,下面簡單的進行表述。
1)數據準備
構建一個文本安全對齊數據集
其中x表示有害指令,y是道德響應,對于每個pair構建一個輔助數據集,用于內容控制和風格控制。
內容控制的樣本示例
指令:請簡要描述圖像中的活動(產品)
目標真值:響應前綴 + 答案
風格控制的樣本示例
指令:圖像的風格是什么?
目標真值:響應前綴 + 風格描述(風格描述要從預定義的風格集合中隨機采樣)
2)嵌入優化
對于每個pair,準備一個空白圖像(或空白視頻、靜音音頻)的嵌入 E0,并將其作為可訓練的嵌入進行優化。
優化目標是給定E0,以及內容控制和風格控制的指令,最大化MLLM生成內容控制和風格控制目標樣本的概率。優化過程如下:
3)安全性對齊
將優化后的嵌入 Ei與文本數據集 DT結合,構建多模態數據集
對于每個x,添加一個前綴,如“圖像顯示一個活動(產品)。請理解它并回答以下問題。”生成 。保留 DT 中的響應。
在安全性對齊訓練中,忽略模態編碼器 M(?),修改MLLM的前向傳播過程為
使其適應現有的安全性對齊訓練策略。
個人認為這種方法在實踐中還是比較實用,目前在圖像這個模態中應用的會更多一些;未來積累的這里具備引導性質的Embedding庫本身就具備很大的價值。
大佬們有更多見解的話,可以加微信一起多多討論。
參考文獻:
[1] GPT-4o 實現真正的多模態大一統了嗎?技術難度多高? - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)
[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings (https://arxiv.org/pdf/2502.12562)
本文轉載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷
