成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<menu id="swkig"><optgroup id="swkig"></optgroup></menu>

<center id="swkig"><acronym id="swkig"></acronym></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題

發布于 2024-11-6 14:21

瀏覽

0收藏

今天給大家介紹一篇南京大學、阿里巴巴聯合發表的多模態模型建模方法WINGS，解決基于LLM的多模態模型在進行跨模態建模時的災難遺忘問題。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

論文標題：WINGS: Learning Multimodal LLMs without Text-only Forgetting

下載地址：??https://arxiv.org/pdf/2406.03496??

1.研究背景

隨著人工智能技術的進步，多模態大型語言模型（MLLMs）作為大型語言模型（LLMs）的擴展，已經在視覺相關的描述生成、理解、推理等方面展現出驚人的性能。這些模型通過整合視覺輸入（如圖像）和文本輸入，能夠處理更復雜的任務。

盡管MLLMs在多模態任務中表現出色，但研究發現它們在訓練過程中會遺忘初始LLM所掌握的純文本指令。這種現象被稱為“災難性遺忘”，嚴重影響了模型在僅涉及文本的任務上的性能。

為了解決災難性遺忘問題，現有的方法通常需要額外的文本數據進行訓練，這不僅增加了計算開銷，還面臨數據收集的挑戰。此外，一些方法通過在LLM和MLLM之間切換來處理圖像是否包含的情況，這增加了部署內存的需求，并且在長期的視覺和語言交替對話中不太高效。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

為了使MLLMs在實際應用中更加有效，需要它們既能處理純文本任務，也能處理多模態任務。用戶經常以純文本查詢開始，如果不滿足，則可能會補充圖像內容。因此，MLLMs需要在保持對文本信息關注的同時，也能處理視覺信息。

論文通過分析MLLM的注意力權重，發現文本遺忘現象與注意力從圖像前文本轉移到圖像后文本有關。這種注意力的轉移表明模型過度關注視覺元素，而忽視了文本元素。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

為了解決上述問題，論文提出了WINGS模型，它通過引入額外的模塊來補償注意力轉移，這些模塊作為增強學習者，與主注意力并行工作，以平衡對視覺和文本元素的關注。

WINGS模型采用了低秩殘差注意力（LoRRA）設計，以保證高效率，同時在文本和視覺問答任務中實現卓越的性能。

綜上所述，這篇論文的背景和動機是解決MLLMs在多模態學習中遇到的災難性遺忘問題，并提高模型在處理純文本和多模態任務時的效率和性能，以實現更廣泛的應用和更好的用戶體驗。

2.建模方法

WINGS模型和核心點包含以下幾個方面。

視覺和文本學習者的并行結構：WINGS通過在每個注意力層級中引入視覺學習者（LearnerV）和文本學習者（LearnerT），這兩個學習者并行工作，分別增強模型對視覺和文本特征的關注，這種結構設計提高了模型處理多模態數據的能力。

基于注意力權重的動態路由：WINGS利用基于注意力權重的路由機制來動態調整視覺和文本學習者的輸出，這種機制可以根據當前的注意力分布來優化模型的響應，提高了模型的適應性和靈活性。

低秩殘差注意力（LoRRA）：WINGS采用了低秩殘差注意力（Low-Rank Residual Attention, LoRRA）架構，這種架構通過使用低秩矩陣來減少參數數量和計算需求，同時保持了模型的效率和性能。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

分階段訓練策略：WINGS采用了分階段訓練策略，首先對視覺學習者進行訓練，然后逐步引入文本學習者和路由機制，這種策略有助于逐步調整和優化模型，使其更好地適應多模態數據。

新構建的交錯圖像-文本（IIT）基準測試：WINGS的研究人員構建了一個新的基準測試，即交錯圖像-文本（Interleaved Image-Text, IIT）基準測試，這個基準測試包含了從純文本到強烈圖像相關的多輪對話，用于更全面地評估模型在多模態任務上的性能。

多模態混合輸入的處理能力：WINGS能夠處理混合了視覺和文本特征的輸入，這種能力使得模型可以更靈活地應用于各種實際場景，如視覺問答、圖像描述生成等。

模型的可擴展性和適應性：WINGS展示了在不同規模的模型中的可擴展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，這些版本適應不同的應用場景和設備要求，顯示了模型的廣泛適用性。

對注意力機制的深入分析和應用：WINGS通過深入分析MLLM的注意力機制，揭示了注意力權重與模型性能之間的關系，并據此設計了模型結構和訓練策略，這種對注意力機制的深入理解和應用是WINGS的一個顯著特點。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

這些創新點共同使得WINGS模型在多模態任務中表現出色，不僅解決了災難性遺忘問題，還提高了模型的效率、適應性和泛化能力。

3.實驗分析

在解決多模態訓練過程中對文本指令的災難性遺忘問題。實驗結論主要包括以下幾點：

文本指令遺忘現象：論文驗證了多模態大型語言模型（MLLM）在訓練過程中對初始大型語言模型（LLM）已掌握的純文本指令的遺忘現象，并將此現象與跨層MLLM-LAWS（Layer-level Attention Weights）前后圖像的注意力轉移相關聯。

WINGS架構的有效性：WINGS通過引入視覺和文本學習者以及基于轉移注意力權重的路由機制，有效地補償了注意力轉移。實驗結果表明，WINGS在同等規模的MLLM中，在文本指令和視覺問答任務上均表現優異。

性能比較：WINGS在多個基準測試中超越了其他同等規模的MLLM，包括文本指令遺忘測試、通用多模態基準測試，以及新構建的交錯圖像-文本（IIT）基準測試。WINGS在從純文本到多模態豐富的問答任務中展現了卓越的性能。

效率與性能：WINGS采用了低秩殘差注意力（LoRRA）設計，確保了學習者的高效率。實驗結果表明，WINGS在保持文本指令性能的同時，也能在多模態任務中提高性能，尤其是在資源受限的情況下。

可擴展性：WINGS證明了其在不同規模的模型中的可擴展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，適應不同的應用場景和設備要求。

訓練策略：論文還探討了不同的訓練策略，包括學習率設置和訓練階段，發現較低的學習率有助于保持文本任務的性能，而較高的學習率則有助于提升多模態任務的性能。

組件有效性：通過消融研究，論文分析了WINGS各個組件的有效性，發現僅包含視覺學習者可以輕微保持文本任務的性能，但會降低多模態任務的性能。

綜上所述，WINGS通過其創新的架構和訓練策略，在處理純文本和多模態任務時均展現出了卓越的性能和泛化能力。

南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題-AI.x社區

本文轉載自??圓圓的算法筆記??，作者：Brown ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

多模態視覺-語言大模型的架構演進

angel ? 5050瀏覽 ? 0回復
如何解決模型的災難性遺忘問題？清華大學提出新方法！

AI論文解讀 ? 5289瀏覽 ? 0回復
什么是多模態大模型？為什么需要多模態大模型？

AI探索時代 ? 5231瀏覽 ? 0回復
多模態大模型之模態融合的注意點及難點

AI探索時代 ? 6279瀏覽 ? 0回復
字節跳動發布統一多模態大模型 Show-o!

AI論文解讀 ? 4496瀏覽 ? 0回復
解決大型多模態模型的幻覺問題，新方法AITuning助力AI更可靠

AI論文解讀 ? 2960瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 2602瀏覽 ? 0回復
大模型的記憶困境：平衡持續學習與災難性遺忘

芝士AI吃魚 ? 6266瀏覽 ? 0回復
多模態大模型最全綜述導讀

shizhi02 ? 3090瀏覽 ? 0回復
多模態大模型：基礎架構

魯班模錘1 ? 2765瀏覽 ? 0回復
什么是多模態大模型

AI探索時代 ? 3710瀏覽 ? 0回復
多模態大模型Qwen2的深入了解

一起AI技術 ? 3861瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3145瀏覽 ? 0回復
南大聯合中移動發布高效多模態大模型新范式—— p-MoD

angel ? 2340瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 2529瀏覽 ? 0回復
多模態大模型Ovis核心技術點、訓練方法、數據細節

大模型自然語言處理 ? 2066瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 2124瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 1699瀏覽 ? 0回復
LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？

shizhi02 ? 519瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

ICML'25 | 兼容不同數據源周期性差異的時間序列基礎模型 2天前發布
中科大&騰訊：通過提升各個專家網絡差異性提升基于MoE的CTR預估效果 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：清華大學NeurIPS'24：時序大模型AutoTimes，結合In-context Learning提升預測效果

下一篇： NeurIPS'24：針對時序預測中時間戳特征的研究

社區精華內容

目錄

主站蜘蛛池模板：国产99久久精品 | 国产国产精品久久久久 | 麻豆久久久久 | 九九久久国产 | 手机看片169 | 中文字幕在线第一页 | 91看片网| 91视频进入 | 国产在线a | 精品欧美乱码久久久久久1区2区 | 成人久久18免费网站图片 | 国产日韩欧美一区二区 | 亚洲日本国产 | 免费看国产精品视频 | 一本色道精品久久一区二区三区 | 久久久精品一区二区 | 欧美日韩亚洲国产 | 欧美色综合一区二区三区 | 精品国产高清一区二区三区 | 在线免费观看视频你懂的 | 粉嫩一区二区三区国产精品 | 一区二区在线 | 秋霞性生活 | 国产欧美日韩一区二区三区在线观看 | 污视频免费在线观看 | 极品粉嫩国产48尤物在线播放 | 久久av一区二区三区 | 久久精品国产99国产精品 | 亚洲一区二区免费 | 久久网一区二区 | 日韩精品亚洲专区在线观看 | 亚洲精品在线视频 | 欧美亚洲国产日韩 | 一区二区三区在线免费观看 | 日韩一区不卡 | 日韩欧美在线播放 | 亚洲精品一区中文字幕 | av香港经典三级级在线 | 一级中国毛片 | 亚洲欧美另类综合偷拍 | 中文字幕欧美一区 |

<s id="2sec2"><tbody id="2sec2"></tbody></s>

<small id="2sec2"><thead id="2sec2"></thead></small>

<sup id="2sec2"><wbr id="2sec2"></wbr></sup>