成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗

人工智能
基于視覺編碼器的MLLM的基本構成:MLLM通常由預訓練的模態編碼器、預訓練的LLM和一個連接它們的模態接口三個模塊組成。模態編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。

基于視覺編碼器的MLLM的基本構成:MLLM通常由預訓練的模態編碼器、預訓練的LLM和一個連接它們的模態接口三個模塊組成。模態編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。預訓練的LLM則負責理解和推理處理過的信號。模態接口用于對齊不同的模態,實現異構模態表征空間的語義對齊。下面這張圖概括的比較好。

基于視覺編碼器的MLLM的基本構成基于視覺編碼器的MLLM的基本構成

上述工作都是基于視覺編碼器的多模態大模型,下面來看一個Encoder-free VLMs(無視覺編碼器的多模態大模型)的思路,供參考。

模型架構

圖片圖片

視覺和文本編碼

多模態編碼:為了在視覺和文本之間建立有效的交互,提出了一個分而治之的設計,通過引入模態感知組件來顯式解耦關鍵模塊。包括獨立的注意力矩陣(查詢、鍵和值)、歸一化層和前饋模塊,每個都有不同的參數,以適應不同模態的需求。

分而治設計

通過分而治之的架構設計,EVEv2.0能夠有效地減少模態間的干擾,提高模型的訓練效率和性能。

使用多頭自注意力(Multi-Head Self-Attention, ATTN)來跨所有模態進行建模,以在統一特征空間中模擬跨模態關系。公式如下:

圖片

通過完全解耦架構,最小化表示空間中的干擾。每個Transformer塊的總體操作定義如下:

圖片

這種設計允許在保持預訓練知識的同時,獨立地進行單模態編碼和跨模態對應,從而實現靈活的建模模式,以理解和推理多模態信息。

視覺特征與語言輸入的融合方式

從代碼上看,融合時,會遍歷輸入序列中的每個樣本,根據 IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語言輸入的嵌入和圖像特征按順序拼接在一起,形成新的輸入嵌入 new_input_embeds,同時更新標簽 new_labels 和視覺標記掩碼 visual_token_mask。

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.pyhttps://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

訓練方式

訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層,以在不同模態間建立初始對齊。之后,我們僅更新大型語言模型(LLM)內的視覺層,逐步增強視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數據對整個模型進行訓練,以加強跨模態對應和復雜理解能力。訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層,以在不同模態間建立初始對齊。之后,我們僅更新大型語言模型(LLM)內的視覺層,逐步增強視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數據對整個模型進行訓練,以加強跨模態對應和復雜理解能力。

訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層,以在不同模態間建立初始對齊。之后,我們僅更新大型語言模型(LLM)內的視覺層,逐步增強視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數據對整個模型進行訓練,以加強跨模態對應和復雜理解能力。

訓練過程分為四個連續階段。訓練數據包括公開可用的圖像數據集,以及表 1 中的各種問答(QA)數據集和多模態對話數據。

圖片圖片

第2.2階段和第3階段的訓練數據集詳細信息,用于微調E
VEv2.0,FL表示過濾后的訓練數據集第2.2階段和第3階段的訓練數據集詳細信息,用于微調E VEv2.0,FL表示過濾后的訓練數據集

階段1:DenseFusion++

DenseFusion++:通過大規模的合成數據來增強模型的視覺感知能力。使用LLaVA-1.6(7B)為基礎,結合多個視覺專家(如標簽、檢測、OCR等)來學習GPT-4V的融合策略。通過這種方式,可以在不依賴高質量標注的情況下,擴展合成數據的規模,從而提高訓練效率。

階段2:LLM引導的對齊

凍結大型語言模型(LLM)的權重,僅訓練patch嵌入層。使用公開的網頁數據進行訓練,以防止模型崩潰并加速后續階段的收斂。通過這種方式,確保模型在初始階段能夠快速對齊視覺和語言信息。

階段3:視覺感知學習和視覺-文本完全對齊

  • 視覺感知學習(Vision Perception Learning):加載LLM的權重并初始化LLM內部的視覺層。僅訓練patch嵌入層和視覺層,而凍結Qwen2.5模型,以便在大規模合成數據上進行視覺表示的學習。通過逐步增加數據量和圖像分辨率,促進視覺感知能力的提升。
  • 視覺-文本完全對齊(Vision-Text Fully-aligning):更新整個模型架構以進一步改善圖像-文本的關聯。使用多樣化的指令數據集進行訓練,以增強模型的視覺感知能力和視覺-語言對齊。通過這種方式,確保模型在處理復雜的多模態任務時能夠表現出色。

階段4:監督微調

進一步優化模型以理解復雜的指令和對話模式。使用高質量的指令數據集進行訓練,以提高模型在實際應用中的表現。通過這種方式,確保模型能夠處理各種真實世界的應用場景。

實驗效果

圖片圖片

參考文獻:EVEv2: Improved Baselines for Encoder-Free Vision-Language Models,https://arxiv.org/pdf/2502.06788

責任編輯:武曉燕 來源: 大模型自然語言處理
相關推薦

2025-02-28 10:15:00

3D模型編碼器

2025-02-27 13:00:00

2024-07-16 13:18:36

2025-03-10 02:00:00

2025-04-10 06:30:00

2025-04-08 04:20:00

2024-12-12 00:25:09

2023-09-02 12:49:01

2025-01-08 08:21:16

2025-04-08 03:00:00

2025-04-07 00:00:00

多模態大模型

2025-04-11 02:00:00

模態編碼器ALIGN視覺語言模型

2025-04-11 00:16:00

模態編碼器MAECLIP

2022-07-28 12:18:40

視覺語言模型

2023-11-23 18:19:15

騰訊騰訊混元Angel

2025-04-07 03:30:00

2024-12-18 14:50:00

AI訓練數據

2024-12-30 00:01:00

多模態大模型Python

2010-05-07 16:15:46

Windows Med
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级全黄 | 中文字幕视频在线看5 | 国产精品大片 | 日韩在线精品 | 99视频免费 | 日韩免费在线观看视频 | 午夜精品一区 | 久草.com| 在线免费黄色小视频 | 国产精品美女久久久久aⅴ国产馆 | 国产在线资源 | 亚洲日本免费 | 欧美日韩大片 | 欧美色欧美亚洲另类七区 | 午夜视频导航 | 日本成人毛片 | 男女视频在线看 | 亚洲成人精品在线观看 | 91一区二区三区在线观看 | 日韩视频区 | 国产精品亚洲一区二区三区在线 | 欧美一级久久 | 三级视频网站 | 国产一区视频在线 | 久久天堂 | 九九天堂网 | 超碰在线免费公开 | 日本人爽p大片免费看 | 成人午夜精品一区二区三区 | 欧美黄色大片在线观看 | 羞羞视频在线观看 | 国产精品久久久久久久久婷婷 | 国产资源在线播放 | 免费视频一区二区 | 日本激情视频网 | 国产精品成人在线 | 国产精品一区二区视频 | 免费在线观看黄视频 | 亚洲国产精品一区二区久久 | 亚洲视频免费一区 | 国产视频久久久 |