成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述

發布于 2024-3-27 20:58
瀏覽
0收藏

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

論文標題:

MM-LLMs: Recent Advances in MultiModal Large Language Models

論文鏈接:

??https://arxiv.org/abs/2401.13601??

實時網站:

??https://mm-llms.github.io??

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

引言

多模態(MM)預訓練研究在最近幾年取得了顯著進展,持續推動了各種下游任務的性能邊界。然而,隨著模型規模和數據集的不斷擴大,傳統的多模態模型在從頭開始訓練時會產生大量的計算成本。

考慮到多模態研究處于各種模態的交集,一個合理的方法是利用現成的預訓練單模態基礎模型,特別強調強大的大型語言模型(LLMs)。這一策略旨在減輕訓練開銷并增強多模態預訓練的效力,從而催生了一個新穎的領域:MM-LLMs。

MM-LLMs 利用 LLMs 作為認知核心,賦予各種多模態任務能力。LLMs 提供了穩健的語言生成、zero-shot 遷移能力和上下文學習(ICL)等可取特性。與此同時,其他模態的基礎模型提供了高質量的表示。

考慮到不同模態的基礎模型是單獨預訓練的,MM-LLMs 面臨的核心挑戰是如何有效地連接 LLMs 和其他模態的模型,以實現協同推理。在這一領域中,主要關注點是通過多模態預訓練(MM PT)+ 多模態指令調整(MM IT)pipeline 來優化模態之間的對齊,以及與人類意圖的對齊。

隨著 GPT-4(Vision)和 Gemini 的問世,展示了令人印象深刻的多模態理解和生成能力,MM-LLMs 的研究熱情被點燃。

最初的研究主要集中在多模態內容理解和文本生成方面,涵蓋了諸如圖像-文本理解(例如 BLIP-2,LLaVA,MiniGPT-4 和 OpenFlamingo 等工作);視頻-文本理解(例如 VideoChat,Video-ChatGPT 和 LLaMA-VID 等工作);以及音頻-文本理解(例如 Qwen-Audio)等任務。

隨后,MM-LLMs 的能力擴展到支持特定模態生成。這包括具有圖像-文本輸出的任務,例如 GILL,Kosmos-2,Emu 和 MiniGPT-5 等;以及具有語音/音頻-文本輸出的任務,例如 SpeechGPT 和 AudioPaLM 等工作。

最近的研究努力集中在模仿類人任意-任意模態轉換,為人工通用智能之路照明。一些工作旨在將 LLMs 與外部工具結合起來,實現接近任意-任意的多模態理解和生成,例如 Visual-ChatGPT,HuggingGPT 和 AudioGPT 等。

為了減少級聯系統中的傳播錯誤,一些工作(例如 NExT-GPT,CoDi-2 和 ModaVerse)已經開發出任意模態的端到端 MM-LLMs。MM-LLMs 的時間軸如圖 1 所示。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

在本文中,我們提出了一個全面的綜述,旨在促進對 MM-LLMs 的進一步研究。為了為讀者提供對 MM-LLMs 的整體理解,我們首先從模型架構(第 2 節)和訓練流程(第 3 節)中勾勒出一般的設計方案。

我們將一般模型架構分解為五個組件:模態編碼器、輸入映射器、LLM 骨干、輸出映射器和模態生成器。訓練流程闡明了如何增強預訓練的純文本 LLM 以支持 MM 輸入或輸出,主要包括兩個階段:MM PT(第 3.1 節)和 MM IT(第 3.2 節)。

在該部分,我們還總結了用于 MM PT 和 MM IT 的主流數據集。接下來,我們建立了一個分類體系,包括 122 個最新技術(SOTA)MM-LLMs,每個都具有特定的公式,并在第 4 節總結了它們的發展趨勢。在第 5 節,我們全面審查了主流基準測試中主要 MM-LLMs 的性能,并提煉了增強 MM-LLMs 效力的關鍵訓練配方。在第 6 節,我們提供了 MM-LLMs 研究的有前途的方向。

此外,我們建立了一個網站 https://mm-llms.github.io,以追蹤 MM-LLMs 的最新進展,并促進眾包更新。最后,我們在第 7 節總結了整篇文章,并在附錄 A 中討論了有關 MM-LLMs 的相關綜述。我們希望我們的調查能幫助研究人員深入了解這一領域,并激發設計更有效的 MM-LLMs 的靈感。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

模型架構

在本節中,我們提供了一份詳細的概述,涵蓋了構成一般模型架構的五個組件,以及每個組件的實現選擇,如圖 2 所示。包括模態編碼器,負責對來自各種模態的輸入進行編碼;輸入映射器,將其他模態的編碼特征與文本特征空間對齊;LLM 骨干,執行語義理解和推理;輸出映射器,將生成模型與 LLM 的輸出指令對齊;以及模態生成器,負責在特定模態生成輸出。

強調多模態理解的 MM-LLMs 僅包括前三個組件。

在訓練過程中,模態編碼器、LLM 骨干和模態生成器通常保持凍結狀態。主要的優化重點在于輸入和輸出映射器。鑒于映射器是輕量級組件,與總參數數量相比, MM-LLMs 中可訓練參數的比例明顯較小(通常約為 $2$\%)??倕禂盗咳Q于在 MM-LLMs 中使用的核心 LLM 的規模。因此,MM-LLMs 可以被高效地訓練,以賦予各種多模態任務能力。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

訓練Pipeline

MM-LLMs 的訓練流程可以劃分為兩個主要階段:MM PT 和 MM IT。

3.1 MM PT

在 PT 階段,通常利用 X-Text 數據集,通過優化預定義的目標來訓練輸入和輸出映射器,以實現各種模態之間的對齊。X-Text 數據集包括圖像-文本、視頻-文本和音頻-文本。X-Text 數據集的詳細信息見表 3。

3.2 MM IT

MM IT 是一種通過使用指令格式的數據集對預訓練的 MM-LLMs 進行微調的方法。通過這個過程,MM-LLMs 可以通過遵循新的指令來泛化到未見過的任務,從而提高 zero-shot 性能。

MM IT 包括監督微調(SFT)和根據人類反饋進行強化學習(RLHF),旨在與人類意圖保持一致,并增強 MM-LLMs 的交互能力。SFT 將部分 PT 階段的數據轉換為一個受指令影響的格式。然后,使用相同的優化目標對預訓練的 MM-LLMs 進行微調。SFT 數據集可以構造為單輪 QA 或多輪對話。

在 SFT 之后,RLHF 涉及對模型進行進一步微調,依賴于有關 MM-LLMs 響應的反饋(例如,手動或自動標記的自然語言反饋(NLF)。該過程使用強化學習算法有效地集成了不可微分的 NLF。模型被訓練以在 NLF 的條件下生成相應的響應。SFT 和 RLHF 數據集的統計數據見表 4。

現有 MM-LLMs 在 MM PT 和 MM IT 階段使用的數據集比較多樣,但它們都是表 3 和 4 中數據集的子集。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

SOTA MM-LLMs

如圖 3 所示,我們從功能和設計角度對 122 個 SOTA 的 MM-LLMs 進行分類。

在設計劃分中,“使用工具”表示將 LLM 視為黑匣子,并通過推理提供對某些 MM 專家系統的訪問,以執行特定的 MM 任務,而“端到端”表示整個模型以端到端的方式進行聯合訓練。基于先前定義的設計方案,我們還對其中 43 個 SOTA 的 MM-LLMs 的架構和訓練數據集規模進行了全面比較,如表 1 所示。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

現有 MM-LLMs 的發展趨勢:

1. 從專注于多模態理解到生成特定模態,進一步發展成為任意-任意模態轉換(例如,MiniGPT-4 -> MiniGPT-5 -> NExT-GPT);

2. 從 MM PT 進展到 SFT,再到 RLHF,訓練流程不斷完善,努力更好地與人類意圖保持一致,并增強模型的對話交互能力(例如,BLIP-2 -> InstructBLIP -> DRESS);

3. 接納多樣化的模態擴展(例如,BLIP-2 -> X-LLM 和 InstructBLIP -> X-InstructBLIP);

4. 加入更高質量的訓練數據集(例如,LLaVA -> LLaVA-1.5);(5)采用更高效的模型架構,從 BLIP-2 和 DLP 中復雜的 Q- 和 P-Former 輸入映射模塊過渡到 VILA 中更簡單但同樣有效的線性映射器。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

基準和性能

為了提供全面的性能比較,我們編制了一張表格,列出了從各種論文中收集到的 18 個主要 Vision-Language (VL) benchmark 上的主要 MM-LLMs,如表 2 所示。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

接下來,我們將提取關鍵的訓練配方,以提升 MM-LLMs 的效果,從 SOTA 模型中獲取見解。

訓練配方:首先,更高的圖像分辨率可以為模型提供更多的視覺細節,有利于需要細粒度細節的任務。例如,LLaVA-1.5 和 VILA 使用了 336*336 的分辨率,而 Qwen-VL 和 MiniGPT-v2 則采用了 448*448 的分辨率。然而,更高的分辨率會導致更長的令牌序列,增加額外的訓練和推理成本。MiniGPT-v2 通過在嵌入空間中連接 4 個相鄰的視覺令牌來減少長度。

最近,Monkey 提出了一種解決方案,可以增強輸入圖像的分辨率,而無需重新訓練高分辨率的視覺編碼器,僅利用低分辨率的視覺編碼器,支持分辨率高達 1300*800。為了增強對豐富文本圖像、表格和文檔內容的理解,DocPedia 引入了一種方法,將視覺編碼器的分辨率增加到 2560*2560,克服了開源 ViT 中低分辨率性能差的局限性。

其次,高質量的 SFT 數據的融合可以顯著提高特定任務的性能,正如表 2 所示,LLaVA-1.5 和 VILA-13B 添加了 ShareGPT4V 數據。

此外,VILA 揭示了幾個關鍵發現:1)對 LLM 骨干執行 PEFT 促進了深度嵌入對齊,對 ICL 至關重要;2)交錯的圖像-文本數據證明是有益的,而僅使用圖像-文本對是次優的;3)在 SFT 期間,重新混合純文本指令數據(如 unnatural instruction)與圖像-文本數據不僅可以解決純文本任務的退化問題,還可以提高 VL 任務的準確性。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

未來方向

更強大的模型:我們可以從以下四個關鍵方面增強 MM-LLMs 的實力:

1. 擴展模態:當前的 MM-LLMs 主要支持以下模態:圖像、視頻、音頻、3D 和文本。然而,現實世界涉及到更廣泛的模態。擴展 MM-LLMs 以適應額外的模態(例如,網頁、熱圖和圖表)將增加模型的通用性,使其更具普適性;

2. 多樣化 LLMs:整合各種類型和大小的 LLMs 為從業者提供了根據其具體需求選擇最合適的 LLM 的靈活性;

3. 提高 MM IT 數據集質量:當前的 MM IT 數據集有很大的改進和擴展空間。多樣化指令的范圍可以增強 MM-LLMs 在理解和執行用戶命令方面的效果。

4. 加強 MM 生成能力:目前大多數的 MM-LLMs 主要是面向多模態理解的。雖然一些模型已經整合了 MM 生成能力,但生成的響應質量可能受到 LLDMs 能力的限制。探索檢索式方法與生成過程的整合具有重要的潛力,有可能提高模型的整體性能。

更具挑戰性的基準測試:現有的基準測試可能無法充分挑戰 MM-LLMs 的能力,因為許多數據集在 PT 或 IT 集中已經以不同程度出現過。這意味著模型在訓練過程中可能已經學習了這些任務。此外,當前的基準測試主要集中在 VL 子領域。因此,對于 MM-LLMs 的發展來說,建立一個更具挑戰性、規模更大的基準測試,包括更多的模態,并使用統一的評估標準至關重要。

例如,GOAT-Bench 用于評估各種 MM-LLMs 在識別和回應表現在表情中的社會虐待微妙方面的能力。MathVista 在視覺環境中評估 MM-LLMs 的數學推理能力。

此外,MMMUS 和 CMMMU 分別推出了面向專家人工通用智能的英文和中文版本的大規模多學科 MM 理解和推理基準測試。而 fan et al. 還通過多面板 VQA 挑戰了 MM-LLMs。BenchLMM 對 MM-LLMs 的跨樣式視覺能力進行了基準測試。此外,liu et al. 還對 MM-LLMs 的光學字符識別能力進行了深入研究。

移動/輕量級部署:在資源受限的平臺上部署 MM-LLMs 并同時實現最佳性能,比如低功耗移動設備和物聯網設備,輕量級實現至關重要。在這方面的一個顯著進展是 MobileVLM。這種方法戰略性地對 LLaMA 進行了降級處理,使其能夠輕松地進行現成的部署。MobileVLM 進一步引入了一個輕量級的降采樣投影器,由不到 2000 萬個參數組成,有助于提高計算速度。

最近,有許多類似的研究致力于輕量化 MM-LLMs,在性能相當或幾乎沒有損失的情況下,實現了高效的計算和推理,包括 TinyGPT-4、Vary-toy、Mobile-Agent、MoE-LLaVA 和 MobileVLM V2。然而,這一途徑需要進一步探索以實現進一步的發展。

具身智能:具身智能旨在通過有效理解環境、識別相關對象、評估它們的空間關系和制定全面的任務計劃,復制類似于人類感知和與周圍環境互動的過程。具身智能任務,如具身規劃、具身視覺問答和具身控制,使機器人能夠通過利用實時觀察自主地執行擴展計劃。

這個領域的一些典型工作包括 PaLM-E 和 EmbodiedGPT。PaLM-E 通過訓練一個 MM-LLM 引入了一個多具身智能體。除了作為一個具身決策者的功能之外,PaLM-E 還展示了處理通用 VL 任務的能力。EmbodiedGPT 引入了一種經濟高效的方法,其特點是采用了一種 CoT 方法,增強了具身智能體與現實世界的互動能力,并建立了一個將高層規劃與低層控制相連接的閉環。

雖然基于 MM-LLM 的具身智能在與機器人集成方面取得了進展,但仍需要進一步探索以增強機器人的自主性。

連續學習:由于龐大規模的訓練成本,MM-LLMs 不易頻繁進行重新訓練。然而,為了賦予 MM-LLMs 新技能并使其與快速發展的人類知識保持同步,更新是必要的。因此,需要進行連續學習,使模型足夠靈活,能夠有效地并連續地利用新出現的數據,同時避免重新訓練 MM-LLMs 所帶來的巨大成本。

MM-LLMs 的連續學習可以分為兩個階段:連續 PT 和連續 IT。最近,提出了一個連續MM IT 基準測試,用于連續對 MM-LLMs 進行微調以適應新的 MM 任務,同時在原始 MM IT 階段學習的任務上保持優異性能。這引入了兩個主要挑戰:1)災難性遺忘,即當學習新任務時,模型會遺忘先前的知識,以及 2)負向前向遷移,表示當學習新任務時,未見任務的性能會下降。

減輕幻覺:幻覺是指在沒有視覺線索的情況下生成不存在物體的文本描述,表現在各種類別中,比如描述中的錯誤和不準確性。這些幻覺的起源是多方面的,包括訓練數據中的偏見和注釋錯誤。

此外,Skip\n 強調了與段落分隔符相關的語義漂移偏見,當故意插入時可能導致幻覺。目前減輕這些幻覺的方法包括利用自我反饋作為視覺線索。然而,挑戰仍然存在,需要在準確和幻覺輸出之間進行微妙的辨別,以及在訓練方法方面的進展來增強輸出的可靠性。

調研120+模型!騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述-AI.x社區

結論

本文首先對 MM-LLMs 進行了全面的調研,重點關注了最近的進展。我們首先將模型架構分為五個組件,并提供了對一般設計方案和訓練流程的詳細概述。隨后,我們介紹了各種 SOTA MM-LLMs,每個都因其特定的設計方案而獨具特色。

我們的調查還揭示了它們在各種 MM 基準測試中的能力,并展望了這一快速發展領域的未來發展。我們希望本調查能為研究人員提供洞見,為 MM-LLMs 領域的不斷進步做出貢獻。

本文轉載自 ??PaperWeekly??,作者:  讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/ESUVe1aTYFLVJ10S9c1dBg??????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 午夜精品久久久久久久久久久久 | 欧美午夜精品久久久久久浪潮 | www视频在线观看 | 亚洲人成人一区二区在线观看 | 日韩av一区二区在线观看 | 爱爱视频在线观看 | 视频一区在线观看 | 精品久久久一区 | 久久成人午夜 | 九九热久久免费视频 | 久久久国产一区二区三区 | 精品av | www.成人.com | 国产色婷婷久久99精品91 | 女生羞羞视频 | 97色免费视频 | 九九久久免费视频 | 精品视频一二区 | 成人精品视频在线 | 羞羞的视频免费在线观看 | 国产日韩一区二区 | 免费看91| 99re超碰| 日韩在线xx | 亚洲视频免费在线看 | www.av7788.com| 色综合久久88色综合天天 | 影音av | 久久精品小视频 | 精品亚洲一区二区三区四区五区高 | 欧美精品久久 | 欧美一级免费看 | 国产美女精品视频 | 日韩免费网站 | 国产丝袜一区二区三区免费视频 | 久久精品亚洲精品 | 成人午夜视频在线观看 | 一级黄片一级毛片 | 久久免费精品 | 精品免费国产一区二区三区四区介绍 | 国产精品久久久久久久久久久久久久 |