大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？原創

shizhi02

發布于 2025-6-10 10:42

瀏覽

0收藏

多模態大模型中模態對齊數據構建的難點及解決方案。

多模態大模型相對于LLM的訓練難度更高一些，其中很關鍵的部分在于模態的對齊。

多模態對齊需要把各種模態映射或對齊到token空間中，讓圖像、語音等多模態信息抽象為token表征，從而利用現有的LLM的技術實現多模態領域的思維鏈和涌現。

那么本系列開始總結MLLM中多模態對齊的難點以及現有的解決方法，下面是本系列想要包含的內容。

1. 模態對齊的難點總結

模態對齊數據構建
跨模態差異影響融合效果
模態對齊評估效率比較低

2. 現有難點的解決方案

本篇主要來講述模態對齊的部分。

多模態模型架構與訓練方法

在開始前先簡單回顧一下多模態模型架構與訓練方法~

目前MLLM常見的輸入模態包括圖像、視頻、音頻，另外IMU（慣性測量單元，Inertial Measurement Unit）傳感器數據以及腦波等生理信號數據也有在嘗試接入。

下圖是一個可以參考的多模態大模型基本架構。

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

典型的多模態大模型基本架構（來源：騰訊AI Lab）

目前多模態大模型的訓練方法和架構上比較趨同，多采用兩段式訓練方法，按照一定次序分別訓練視覺編碼器和語言模型，但最后階段都會訓練到跨模態映射（Q-former或者MLP）的參數。

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

兩段式訓練方法（來源：阿里巴巴達摩院）

具體來說：

第一階段，通過模態對齊預訓練，將映射層和模態編碼器（Modality 的輸出優化映射到聯合LLM嵌入空間，進行各模態的對齊。

第二階段，通過多模態指令調整，模型將系統指令/文本查詢與輸入多模態上下文相關聯。CLIP ViT-L等就是比較典型的特定模態編碼器。

可以看到模態對齊確實是非常重要的部分。

數據模態對齊的難點和解決方案

1. 安全性難點

多模態數據對齊需要文本指令、上下文響應，以及非文本模態（如圖像/音頻）的強關聯標注。此外目前新興的生物信號、傳感器信號等數據在建模時也需要考慮，以及標注過程中還需要考慮COT的部分。

目前數據收集過程中需要著重考慮內容相關性和安全性，需要人工介入的環節非常多，因此成本極高且難以規模化。

2. 解決方案簡述

可以通過標注或合成的方式構建一部分引導樣本，引導生成內容與生成風格，并以目標嵌入的方式替代真實的多模態數據，在MLLM的前向傳播過程中引導生成相關引導目標嵌入來進行優化。

3. 具體示例說明

上面的話可能有些抽象，這里推薦一篇ACL2025北航彭浩團隊提出的合成嵌入技術SEA（Synthetic Embedding augmented safety Alignment）框架輔助大家理解。

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

SEA在模態編碼器表示空間中優化合成嵌入，替代真實多模態數據；通過梯度更新生成目標嵌入，比如對訓練結果有害的相關向量，與文本指令結合構建訓練數據集。

主要分為3個階段，下面簡單的進行表述。

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

1）數據準備

構建一個文本安全對齊數據集

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

其中x表示有害指令，y是道德響應，對于每個pair構建一個輔助數據集，用于內容控制和風格控制。

內容控制的樣本示例

指令：請簡要描述圖像中的活動（產品）

目標真值：響應前綴 + 答案

風格控制的樣本示例

指令：圖像的風格是什么？

目標真值：響應前綴 + 風格描述（風格描述要從預定義的風格集合中隨機采樣）

2）嵌入優化

對于每個pair，準備一個空白圖像（或空白視頻、靜音音頻）的嵌入 E0，并將其作為可訓練的嵌入進行優化。

優化目標是給定E0，以及內容控制和風格控制的指令，最大化MLLM生成內容控制和風格控制目標樣本的概率。優化過程如下：

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

3）安全性對齊

將優化后的嵌入 Ei與文本數據集 DT結合，構建多模態數據集

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

對于每個x，添加一個前綴，如“圖像顯示一個活動（產品）。請理解它并回答以下問題。”生成。保留 DT 中的響應。

在安全性對齊訓練中，忽略模態編碼器 M(?)，修改MLLM的前向傳播過程為

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？-AI.x社區

使其適應現有的安全性對齊訓練策略。

個人認為這種方法在實踐中還是比較實用，目前在圖像這個模態中應用的會更多一些；未來積累的這里具備引導性質的Embedding庫本身就具備很大的價值。

大佬們有更多見解的話，可以加微信一起多多討論。

參考文獻：

[1] GPT-4o 實現真正的多模態大一統了嗎？技術難度多高？ - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)

[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings (https://arxiv.org/pdf/2502.12562)

本文轉載自??瓦力算法學研所??，作者：喜歡瓦力的卷卷

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大模型

MLLM

多模態模型

已于2025-6-10 10:42:03修改

贊

回復

舉報

社區頭條

回復

相關推薦

什么是生成式AI？有哪些特征類型

數字化助推器 ? 3996瀏覽 ? 0回復
EMNLP 2023｜利用LLM合成數據訓練模型有哪些坑？

arnoldzhw ? 3647瀏覽 ? 0回復
數據合成方法-讓模型自己說出用了哪些指令對齊數據

NLP工作站 ? 3946瀏覽 ? 0回復
什么是端到端(end to end)大模型，它和傳統的大模型有什么區別？其優勢與劣勢是什么？

AI探索時代 ? 4425瀏覽 ? 0回復
OpenAI出走了哪些大佬，哪些繼任者接手，有什么來頭？

Syrupup ? 2560瀏覽 ? 0回復
什么是具身智能模型，它和普通大模型有什么區別？

AI探索時代 ? 3431瀏覽 ? 0回復
大模型面經——以醫療領域為例，整理RAG基礎與實際應用中的痛點

shizhi02 ? 3121瀏覽 ? 0回復
大模型面經——LoRA最全總結

shizhi02 ? 2959瀏覽 ? 0回復
大模型面經——Langchain總結

shizhi02 ? 2654瀏覽 ? 0回復
大模型面經——MoE混合專家模型總結

shizhi02 ? 3032瀏覽 ? 0回復
大模型面經—RAG工程實踐經驗總結

shizhi02 ? 2747瀏覽 ? 0回復
大模型面經—分布式訓練指南

shizhi02 ? 2553瀏覽 ? 0回復
大模型面經—如何評估顯卡利用率及顯卡運用優化方法

shizhi02 ? 3031瀏覽 ? 0回復
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 2275瀏覽 ? 0回復
你知道自然語言處理(NLP)能解決哪些問題嗎？即自然語言處理任務分類有哪些？

AI探索時代 ? 2159瀏覽 ? 0回復
大模型面經：目前不同階段的scaling law之間的區別和聯系是什么？

shizhi02 ? 2900瀏覽 ? 0回復
大模型面經：RAG與Long context“相愛相殺”背景下，如何設計最優解決方案？

shizhi02 ? 1616瀏覽 ? 0回復
AI多模態場景對數據管理帶來的挑戰有哪些？

DataForAI ? 1285瀏覽 ? 0回復
LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？

shizhi02 ? 529瀏覽 ? 0回復

shizhi02

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？原創

多模態模型架構與訓練方法

數據模態對齊的難點和解決方案

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 原創

多模態模型架構與訓練方法

數據模態對齊的難點和解決方案

目錄

大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？原創