南大&阿里發布多模態大模型WINGS,解決基于LLM的多模態訓練災難遺忘問題
今天給大家介紹一篇南京大學、阿里巴巴聯合發表的多模態模型建模方法WINGS,解決基于LLM的多模態模型在進行跨模態建模時的災難遺忘問題。
論文標題:WINGS: Learning Multimodal LLMs without Text-only Forgetting
下載地址:??https://arxiv.org/pdf/2406.03496??
1.研究背景
隨著人工智能技術的進步,多模態大型語言模型(MLLMs)作為大型語言模型(LLMs)的擴展,已經在視覺相關的描述生成、理解、推理等方面展現出驚人的性能。這些模型通過整合視覺輸入(如圖像)和文本輸入,能夠處理更復雜的任務。
盡管MLLMs在多模態任務中表現出色,但研究發現它們在訓練過程中會遺忘初始LLM所掌握的純文本指令。這種現象被稱為“災難性遺忘”,嚴重影響了模型在僅涉及文本的任務上的性能。
為了解決災難性遺忘問題,現有的方法通常需要額外的文本數據進行訓練,這不僅增加了計算開銷,還面臨數據收集的挑戰。此外,一些方法通過在LLM和MLLM之間切換來處理圖像是否包含的情況,這增加了部署內存的需求,并且在長期的視覺和語言交替對話中不太高效。
為了使MLLMs在實際應用中更加有效,需要它們既能處理純文本任務,也能處理多模態任務。用戶經常以純文本查詢開始,如果不滿足,則可能會補充圖像內容。因此,MLLMs需要在保持對文本信息關注的同時,也能處理視覺信息。
論文通過分析MLLM的注意力權重,發現文本遺忘現象與注意力從圖像前文本轉移到圖像后文本有關。這種注意力的轉移表明模型過度關注視覺元素,而忽視了文本元素。
為了解決上述問題,論文提出了WINGS模型,它通過引入額外的模塊來補償注意力轉移,這些模塊作為增強學習者,與主注意力并行工作,以平衡對視覺和文本元素的關注。
WINGS模型采用了低秩殘差注意力(LoRRA)設計,以保證高效率,同時在文本和視覺問答任務中實現卓越的性能。
綜上所述,這篇論文的背景和動機是解決MLLMs在多模態學習中遇到的災難性遺忘問題,并提高模型在處理純文本和多模態任務時的效率和性能,以實現更廣泛的應用和更好的用戶體驗。
2.建模方法
WINGS模型和核心點包含以下幾個方面。
視覺和文本學習者的并行結構:WINGS通過在每個注意力層級中引入視覺學習者(LearnerV)和文本學習者(LearnerT),這兩個學習者并行工作,分別增強模型對視覺和文本特征的關注,這種結構設計提高了模型處理多模態數據的能力。
基于注意力權重的動態路由:WINGS利用基于注意力權重的路由機制來動態調整視覺和文本學習者的輸出,這種機制可以根據當前的注意力分布來優化模型的響應,提高了模型的適應性和靈活性。
低秩殘差注意力(LoRRA):WINGS采用了低秩殘差注意力(Low-Rank Residual Attention, LoRRA)架構,這種架構通過使用低秩矩陣來減少參數數量和計算需求,同時保持了模型的效率和性能。
分階段訓練策略:WINGS采用了分階段訓練策略,首先對視覺學習者進行訓練,然后逐步引入文本學習者和路由機制,這種策略有助于逐步調整和優化模型,使其更好地適應多模態數據。
新構建的交錯圖像-文本(IIT)基準測試:WINGS的研究人員構建了一個新的基準測試,即交錯圖像-文本(Interleaved Image-Text, IIT)基準測試,這個基準測試包含了從純文本到強烈圖像相關的多輪對話,用于更全面地評估模型在多模態任務上的性能。
多模態混合輸入的處理能力:WINGS能夠處理混合了視覺和文本特征的輸入,這種能力使得模型可以更靈活地應用于各種實際場景,如視覺問答、圖像描述生成等。
模型的可擴展性和適應性:WINGS展示了在不同規模的模型中的可擴展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,這些版本適應不同的應用場景和設備要求,顯示了模型的廣泛適用性。
對注意力機制的深入分析和應用:WINGS通過深入分析MLLM的注意力機制,揭示了注意力權重與模型性能之間的關系,并據此設計了模型結構和訓練策略,這種對注意力機制的深入理解和應用是WINGS的一個顯著特點。
這些創新點共同使得WINGS模型在多模態任務中表現出色,不僅解決了災難性遺忘問題,還提高了模型的效率、適應性和泛化能力。
3.實驗分析
在解決多模態訓練過程中對文本指令的災難性遺忘問題。實驗結論主要包括以下幾點:
文本指令遺忘現象:論文驗證了多模態大型語言模型(MLLM)在訓練過程中對初始大型語言模型(LLM)已掌握的純文本指令的遺忘現象,并將此現象與跨層MLLM-LAWS(Layer-level Attention Weights)前后圖像的注意力轉移相關聯。
WINGS架構的有效性:WINGS通過引入視覺和文本學習者以及基于轉移注意力權重的路由機制,有效地補償了注意力轉移。實驗結果表明,WINGS在同等規模的MLLM中,在文本指令和視覺問答任務上均表現優異。
性能比較:WINGS在多個基準測試中超越了其他同等規模的MLLM,包括文本指令遺忘測試、通用多模態基準測試,以及新構建的交錯圖像-文本(IIT)基準測試。WINGS在從純文本到多模態豐富的問答任務中展現了卓越的性能。
效率與性能:WINGS采用了低秩殘差注意力(LoRRA)設計,確保了學習者的高效率。實驗結果表明,WINGS在保持文本指令性能的同時,也能在多模態任務中提高性能,尤其是在資源受限的情況下。
可擴展性:WINGS證明了其在不同規模的模型中的可擴展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,適應不同的應用場景和設備要求。
訓練策略:論文還探討了不同的訓練策略,包括學習率設置和訓練階段,發現較低的學習率有助于保持文本任務的性能,而較高的學習率則有助于提升多模態任務的性能。
組件有效性:通過消融研究,論文分析了WINGS各個組件的有效性,發現僅包含視覺學習者可以輕微保持文本任務的性能,但會降低多模態任務的性能。
綜上所述,WINGS通過其創新的架構和訓練策略,在處理純文本和多模態任務時均展現出了卓越的性能和泛化能力。
