成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法? 原創

發布于 2025-6-10 10:42
瀏覽
0收藏

多模態大模型中模態對齊數據構建的難點及解決方案。

多模態大模型相對于LLM的訓練難度更高一些,其中很關鍵的部分在于模態的對齊。

多模態對齊需要把各種模態映射或對齊到token空間中,讓圖像、語音等多模態信息抽象為token表征,從而利用現有的LLM的技術實現多模態領域的思維鏈和涌現。

那么本系列開始總結MLLM中多模態對齊的難點以及現有的解決方法,下面是本系列想要包含的內容。

1. 模態對齊的難點總結

  • 模態對齊數據構建
  • 跨模態差異影響融合效果
  • 模態對齊評估效率比較低

2. 現有難點的解決方案

本篇主要來講述模態對齊的部分。

多模態模型架構與訓練方法

在開始前先簡單回顧一下多模態模型架構與訓練方法~

目前MLLM常見的輸入模態包括圖像、視頻、音頻,另外IMU(慣性測量單元,Inertial Measurement Unit)傳感器數據以及腦波等生理信號數據也有在嘗試接入。

下圖是一個可以參考的多模態大模型基本架構。

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

典型的多模態大模型基本架構(來源:騰訊AI Lab)

目前多模態大模型的訓練方法和架構上比較趨同,多采用兩段式訓練方法,按照一定次序分別訓練視覺編碼器和語言模型,但最后階段都會訓練到跨模態映射(Q-former或者MLP)的參數。

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

兩段式訓練方法(來源:阿里巴巴達摩院)


具體來說:

第一階段,通過模態對齊預訓練,將映射層和模態編碼器(Modality 的輸出優化映射到聯合LLM嵌入空間,進行各模態的對齊。

第二階段,通過多模態指令調整,模型將系統指令/文本查詢與輸入多模態上下文相關聯。CLIP ViT-L等就是比較典型的特定模態編碼器。

可以看到模態對齊確實是非常重要的部分。

數據模態對齊的難點和解決方案

1. 安全性難點

多模態數據對齊需要文本指令、上下文響應,以及非文本模態(如圖像/音頻)的強關聯標注。此外目前新興的生物信號、傳感器信號等數據在建模時也需要考慮,以及標注過程中還需要考慮COT的部分。

目前數據收集過程中需要著重考慮內容相關性和安全性,需要人工介入的環節非常多,因此成本極高且難以規模化。

2. 解決方案簡述

可以通過標注或合成的方式構建一部分引導樣本,引導生成內容與生成風格,并以目標嵌入的方式替代真實的多模態數據,在MLLM的前向傳播過程中引導生成相關引導目標嵌入來進行優化。

3. 具體示例說明

上面的話可能有些抽象,這里推薦一篇ACL2025北航彭浩團隊提出的合成嵌入技術SEA(Synthetic Embedding augmented safety Alignment)框架輔助大家理解。

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

SEA在模態編碼器表示空間中優化合成嵌入,替代真實多模態數據;通過梯度更新生成目標嵌入,比如對訓練結果有害的相關向量,與文本指令結合構建訓練數據集。

主要分為3個階段,下面簡單的進行表述。

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

1)數據準備

構建一個文本安全對齊數據集

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

其中x表示有害指令,y是道德響應,對于每個pair構建一個輔助數據集,用于內容控制和風格控制。

內容控制的樣本示例

指令:請簡要描述圖像中的活動(產品)

目標真值:響應前綴 + 答案

風格控制的樣本示例

指令:圖像的風格是什么?

目標真值:響應前綴 + 風格描述(風格描述要從預定義的風格集合中隨機采樣)

2)嵌入優化

對于每個pair,準備一個空白圖像(或空白視頻、靜音音頻)的嵌入 E0,并將其作為可訓練的嵌入進行優化。

優化目標是給定E0,以及內容控制和風格控制的指令,最大化MLLM生成內容控制和風格控制目標樣本的概率。優化過程如下:

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區


3)安全性對齊

將優化后的嵌入 Ei與文本數據集 DT結合,構建多模態數據集 

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區


對于每個x,添加一個前綴,如“圖像顯示一個活動(產品)。請理解它并回答以下問題。”生成 。保留 DT 中的響應。

在安全性對齊訓練中,忽略模態編碼器 M(?),修改MLLM的前向傳播過程為

大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法?-AI.x社區

使其適應現有的安全性對齊訓練策略。

個人認為這種方法在實踐中還是比較實用,目前在圖像這個模態中應用的會更多一些;未來積累的這里具備引導性質的Embedding庫本身就具備很大的價值。

大佬們有更多見解的話,可以加微信一起多多討論。

參考文獻:

[1]  GPT-4o 實現真正的多模態大一統了嗎?技術難度多高? - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)

[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings  (https://arxiv.org/pdf/2502.12562)


本文轉載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-6-10 10:42:03修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一区二区在线免费播放 | 99综合| 欧美三级视频 | 欧美国产日韩在线 | 成人久久18免费网站图片 | 免费xxxx大片国产在线 | 日韩欧美中文 | 久草电影网 | 黄色免费在线观看网站 | 色欧美片视频在线观看 | 免费九九视频 | 亚洲视频网 | 亚洲一区二区综合 | 中文字幕一区在线观看视频 | 久久99精品久久久久久青青日本 | 亚洲精品一区久久久久久 | 黄色免费看 | 福利视频网站 | 国产精品美女 | 亚洲第一色av | 免费av观看 | 日韩精品一区二区三区在线观看 | 日韩成人 | 中文字幕在线观看成人 | 国产精品国产成人国产三级 | 久久久久久高潮国产精品视 | 91视频进入| 午夜精品久久久久久久 | 日本二区在线观看 | 国产欧美日韩一区二区三区在线观看 | 亚洲三级av | 99re66在线观看精品热 | 免费a在线 | 九九综合九九 | 国产一区二区视频在线观看 | 国产精品色综合 | 五月婷婷视频 | 日本午夜精品一区二区三区 | 一区二区三区韩国 | 亚洲一区二区电影网 | 国产精品人人做人人爽 |