成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決?

發布于 2025-6-24 06:03
瀏覽
0收藏

MLLM中”模態懶惰“和”模態偏差“問題常見解決方案總結。

本篇繼續說明MLLM中多模態對齊的難點以及現有的解決方法,本系列要說明的主要難點有:

  • 多模態數據構建
  • 跨模態差異影響融合效果
  • 模態對齊評估效率比較低

上一篇中講到了多模態數據構建的難點和解決方法,???大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法???

本篇開始總結跨模態差異影響融合效果部分。具體來說就是不同模態特征分布差異顯著(如圖像與文本的嵌入空間不匹配),會阻礙深度融合從而影響MLLM的效果。

這塊部分在多模態學習中也叫“模態懶惰”問題。在多模態學習中,不同的數據模態(如文本、圖像、音頻等)可能在信息貢獻上存在不平衡,導致一些模態在學習過程中顯得更為主導,而其他模態則被忽視,這種現象就被稱為模態懶惰。這會導致多模態學習系統的性能不佳。

另外除了“模態懶惰”外,“模態偏差”也常常跟著被一起提到,MLLMs在處理多模態數據時,往往會過度依賴于某一模態(如語言或視覺),而忽視其他模態中的關鍵信息,從而導致模型生成不準確或不相關的回答。目前這種模態偏差主要表現為語言偏差(language bias)和視覺偏差(vision bias)。

  • 語言偏差:比如在回答“熊的顏色是什么?”時,模型可能基于大多數熊是棕色的常識,忽略了輸入圖像中顯示的北極熊是白色的。
  • 視覺偏差:指模型過度關注圖像細節,而忽略了文本問題的真正意圖。例如,在回答“房子在左邊嗎?”時,模型可能提供了過多的圖像細節,而沒有準確理解文本問題。體現出來可能覺得模型回答過于冗余但并沒有回答到點上。

下面是具體的解決方法,主要分為訓練方式、算法設計和訓練數據分布優化。

訓練方式這里就不做贅述了,比較常見的是漸進式解凍訓練:先fix住某一模態編碼器權重,再訓練另一模態權重,最后全網絡整體訓練。

本篇主要講述算法細節設計和訓練數據分布優化的詳細內容,下面是一個快捷目錄。

一、算法細節設計

1. 最小化模態間投影誤差

2. 模態間交叉引導融合不同模態特征差異

二、訓練數據分布優化

1. 在不同模態的不同語義層級設計對齊約束

2. 主動學習實現更平衡的數據選擇

3.  引導偏好優化(BPO),懲罰某一模態的依賴行為

注意這里的訓練數據優化相對于于上一篇中的數據構建有所區別,主要強調基于已有數據進行分布優化以及不同模態鏈接,更便于緩解跨模態差異實現深度融合。

算法細節設計

1. 最小化模態間投影誤差(如文本→圖像映射的均方誤差)

結合最優傳輸理論(Optimal Transport)建模分布對齊,解決語義密度差異問題。

這里舉一個ICLR 2024的論文《Multimodal Representation Learning with Alternating Unimodal Adaptation》的例子。這篇論文提出了一種名為MLA(Multimodal Learning with Alternating Unimodal Adaptation)的方法:

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決?-AI.x社區

主要包括下面四個核心步驟,筆者覺得實際中都很實用。

1) 交替單模態學習:把傳統的多模態聯合優化過程轉變為交替的單模態學習過程。在每個訓練步驟中,只優化一個模態的編碼器,從而減少模態之間的干擾,使每個模態都能獨立地被優化。

2)共享頭部:每個模態獨立優化,但用一個跨所有模態的共享頭部來捕獲跨模態的交互信息。共享頭部在不同模態之間持續優化,有助于整合多模態信息。

3)梯度修改機制:為了防止共享頭部在遇到新模態時丟失之前學習到的信息(即模態遺忘問題),通過正交化梯度方向來減少不同模態之間的干擾。

4)推理階段動態模態融合:在inference階段,基于不確定性的模型融合機制來整合多模態信息;評估每個模態在預測中的重要性,并根據這個評估來分配權重,然后結合所有模態的預測結果。

2. 模態間交叉引導融合不同模態特征差異

比較常見的是跨模態交叉注意力(Cross-modal Cross-Attention)顯式建模不同模態特征的融合,Query來自一模態,Key/Value來自另一模態;或者基于輸入內容自適應調整各模態貢獻權重,抑制低質量模態噪聲。

另外時間與空間交叉引導對齊也開始有一些論文在提到:

CVPR 2025中的論文《Magma: A Foundation Model for Multimodal AI Agents》中的預訓練學習任務SoM和ToM。

Set-of-Mark (SoM) for Action Grounding,在圖像中標注可操作區域(如 GUI 中的可點擊按鈕),幫助模型學習如何定位和識別這些區域;在每個圖像中,提取一組候選區域或點,并在這些位置上標注數字標簽,形成一個新的標記圖像。模型需要從這些標記中選擇正確的標記,從而顯著簡化了行動定位任務。

Trace-of-Mark (ToM) for Action Planning,在視頻中標注動作軌跡,幫助模型學習如何預測未來的動作。在視頻序列中,提取每個幀中的標記位置,并預測這些標記在未來幀中的軌跡。這不僅使模型能夠理解視頻中的時間動態,還能“提前規劃”未來的動作。

訓練數據分布優化 

1. 在不同模態的不同語義層級設計對齊約束

論文《DenseFusion-1M: Fusing Multi-visual Experts for Fine-grained Understanding》提出了一種名為“Perceptual Fusion”的方法,使用低成本但高效的字幕引擎生成詳盡準確的圖像描述,便于生成不同語義粒度的更高質量的圖像-文本數據集。

有一個非常關鍵的視覺專家集成(Mixture of Visual Experts),可以利用多種視覺專家模型來提供圖像理解的中間信息。視覺專家一共包括下面四類:

  • 圖像標注模型(Image Tagging Model):提供場景級別的理解。
  • 目標檢測模型(Object Detection Model):精確檢測圖像中的物體。
  • 文本識別模型(Text Recognition Model):識別圖像中的所有文本元素。
  • 世界知識(World Knowledge):提供背景信息和細節,增強模型的知識密度。

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決?-AI.x社區

那么在做對齊的時候從局部和全局入手,局部可以對齊圖像區域與文本單詞(如目標檢測框與名詞短語);從全局對齊整體圖像與句子語義,避免細節丟失。

2. 主動學習實現更平衡的數據選擇

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決?-AI.x社區

這里之前的文章也有提過,使用Shapley值來估計每個模態對最終多模態預測的貢獻,不需要真實標簽。

通過計算模型輸出(即預測概率)在包含和不包含某個模態特征時的變化,來估計該模態特征的邊際貢獻,然后對所有可能的子集選擇取平均值,從而得到該模態的Shapley值。

論文《Towards Balanced Active Learning for Multimodal Classification》  把模態貢獻定義為該模態的Shapley值的絕對值與所有模態的Shapley值絕對值之和的比值。并且提出了三個原則:

1)優先選擇貢獻更平衡的樣本:如果兩個多模態數據樣本的傳統主動學習(CAL)策略的獲取分數相等,那么具有更平衡單模態貢獻的樣本應具有更高的平衡多模態主動學習(BMMAL)策略的獲取分數。

2)減少強模態和弱模態數據樣本平均獲取分數的差距:為了避免偏向強模態的數據選擇,應減少強模態主導的數據樣本和弱模態主導的數據樣本之間的平均獲取分數的差距。

3)保持模態貢獻與獲取分數的正比關系:為了防止偏向弱模態的數據選擇,需要確保每個模態對獲取分數函數的貢獻與其對模型輸出在樣本級別的貢獻成正比。

因此在訓練時結合此原則可以調整訓練方法進行選擇:

1)調整梯度嵌入:首先計算多模態分類器的梯度嵌入,然后根據每個模態的貢獻比例,分別對每個單模態的梯度嵌入進行縮放。具體來說,對于兩個模態的情況,如果一個模態的貢獻大于另一個模態,那么其對應的梯度嵌入會被乘以一個權重,該權重小于1且與模態貢獻的差異成正比。這樣,不平衡的樣本的梯度嵌入的幅度會被抑制,從而降低它們被K-Means++算法選擇的可能性。

2)樣本選擇:最后,使用K-Means++算法對調整后的梯度嵌入進行聚類,選擇具有顯著影響的多樣化多模態數據樣本用于模型訓練。

3.  引導偏好優化(BPO),懲罰某一模態的依賴行為

可以通過引入擾動來減少某些模態的信息內容,迫使模型在生成負面響應時依賴特定模態。比如前面提到的兩個”模態偏差“的例子,棕色的北極熊和對于”房子在左邊嗎?“問題的不精準回答,把這些生成的偏差響應都作為負面樣本,形成了一個新的偏好優化數據集。

論文 《 Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization》提出了噪聲感知偏好優化算法(NaPO)動態識別噪聲數據并減少對這些樣本的優化權重。具體實現如下:

1)結合MAE和BCE:NaPO通過負Box-Cox變換將DPO中的二元交叉熵(BCE)與噪聲魯棒的平均絕對誤差(MAE)結合起來。BCE收斂速度快但容易過擬合噪聲數據,而MAE具有更好的噪聲魯棒性但收斂速度慢。通過調整噪聲魯棒性系數q,可以在兩者之間取得平衡。

2)動態調整噪聲魯棒性系數:基于數據噪聲水平動態調整q,通過分析數據的獎勵邊際(reward margin),可以評估數據的質量,并據此調整q的值。具體公式為:

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決?-AI.x社區

其中,ψ(x,yw,yl)是獎勵邊際公式,α是歸一化因子,σ是sigmoid函數。通過這種方式,NaPO能夠根據數據的噪聲水平自適應地調整其噪聲魯棒性。

需要注意的是,不同模態的數據融合的處理方法存在較大差異,比如文本與圖像、圖像與點云、視頻與軌跡等,細分領域的專業性較強;本篇只總結了一些比較常見的方法。


本文轉載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷

已于2025-6-24 06:03:37修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美精品久久久久久久久老牛影院 | 精精国产xxxx视频在线播放 | 亚洲精品一区二区在线观看 | 亚洲另类春色偷拍在线观看 | 狠狠爱免费视频 | 久久一视频 | 欧美日韩国产一区二区三区不卡 | 伊人国产精品 | 国产婷婷综合 | 99亚洲精品 | 亚洲国产高清免费 | 久久一级| 日韩精品一区二区三区免费观看 | 免费成人国产 | 欧美影院 | 欧美亚洲国语精品一区二区 | 国产乱码精品1区2区3区 | 91精品国产91久久久久青草 | 精品国产第一区二区三区 | 国产精品日韩一区 | 99re视频这里只有精品 | 亚洲精品成人 | 精品视频999| 天天射网站 | 国产一区中文字幕 | 中文字幕亚洲区 | 亚洲精品中文字幕在线 | 亚洲国产一区二区三区在线观看 | 老司机久久 | 久久久久资源 | 99久久国产精 | 欧美国产日韩一区二区三区 | 亚洲欧美日韩系列 | 福利一区二区在线 | 九九综合 | 国产你懂的在线观看 | 久久国产一区二区 | 中文字幕 国产精品 | 高清亚洲 | 国产精品视频网站 | 国产高清在线精品一区二区三区 |