成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路 精華

發布于 2024-8-29 10:16
瀏覽
0收藏

作者:Dreamweaver(已授權轉載) 編輯:AI生成未來

鏈接:https://zhuanlan.zhihu.com/p/706145455


本文是《多模態視覺-語言大模型的架構演進》的續篇,聚焦2024年以來學術界和產業界的SOTA多模態大模型 (Multimodal Large Language Models, MLLM),分享架構設計中的深刻見解與最佳實踐。我們會發現,最新流行的MLLM架構大多采用類LLaVA的ViT+MLP+LLM范式。得益于LLaVA的精簡設計、數據和訓練高效性、更強的baseline性能,LLaVA架構建立起了良好的應用生態。國內也涌現出了高質量的MLLM,InternVL拉近了開源模型與GPT-4V的差距,具備4K高分辨率處理能力,而MiniCPM-V實現了高效端側部署,讓小模型也能抗衡頂尖的閉源模型。最新的Cambrian-1則是鼓勵研究者跳出當前MLLM的思維定式,不斷探索視覺表征更多的可能性。通往AGI有多條路徑,而原生的多模態大模型則是必經之路。


本文重點介紹LLaVA-NeXT、InternVL、MiniCPM-V系列,以及以視覺為中心的Cambrian-1,簡單介紹VILA1.5和CogVLM2。截止2024.06,持續更新ing... 干貨很多,歡迎大家多多點贊、收藏、討論!相對較早的MLLM詳見我的上篇文章:

??多模態視覺-語言大模型的架構演進???(???https://zhuanlan.zhihu.com/p/693885420???)

LLaVA-NeXT系列

LLaVA-1.5

23年10月,LLaVA-1.5發布,通過在視覺和語言模態間添加簡單的MLP層實現了訓練樣本高效性,為多模態大模型在低數據業務場景的落地提供了可能。

[2310.03744] Improved Baselines with Visual Instruction Tuning[1]

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

LLaVA-NeXT

24年1月,LLaVA-NeXT(1.6)發布,在1.5的基礎上保持了精簡的設計和數據高效性,支持更高的分辨率、更強的視覺推理和OCR能力、更廣泛場景的視覺對話。模型分為兩階段訓練:階段1預訓練只訓練連接層,階段2指令微調訓練整個模型。

LLaVA-NeXT: Improved reasoning, OCR, and world knowledge[2]

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

  • 動態高分辨率AnyRes:如上圖,為了讓模型能感知高分辨率圖像的復雜細節,對圖像進行網格劃分。比如,對于672x672的圖像,一方面按2x2的網格切分為4張336px的輸入圖像送給ViT編碼成特征,另一方面將圖像直接resize到336px進行編碼,最后將兩部分特征合并輸入到LLM中,這樣模型具備了全局和局部的視覺推理能力。
  • 指令數據混合:一方面保證指令數據具有高質量、多樣性,反映真實場景的廣泛用戶意圖;另一方面,補充文檔和表格數據,提升模型的OCR和圖表理解能力。
  • 擴大LLM尺寸:考慮了7B、13B、34B的LLM。

24年5月,團隊發布基于更強LLM的LLaVA-NeXT版本,支持LLaMA3(8B)和Qwen1.5(72B/110B)。更大的LLM提供更好的視覺世界知識和邏輯推理能力,最大的模型接近GPT-4V的性能,同時保證了訓練高效性。

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild[3]

LLaVA-NeXT-Video

24年4月,LLaVA-NeXT-Video發布,展現出強大的zero-shot視頻理解能力。LLaVA-NeXT中的高分辨率圖像動態劃分可以很自然地遷移到視頻模態用來表示視頻的多幀,使得只在圖文模態上訓練的LLaVA-NeXT能在視頻任務上泛化。此外,推理時的長度泛化用于有效處理超出LLM最大長度的長視頻輸入?;贚LaVA-NeXT-Image模型,作者發布了在視頻數據上監督微調的LLaVA-NeXT-Video,以及在AI反饋的監督下使用DPO偏好對齊的LLaVA-NeXT-Video-DPO。使用SGLang部署和推理,支持可擴展的大規模視頻推理。可以想到,這有助于海量視頻的高效文本標注,催生了未來更強大視頻生成模型。

LLaVA-NeXT: A Strong Zero-shot Video Understanding Model[4]

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

  • AnyRes:可以將N幀視頻看作{1xN}的網格,而LLM的最大長度限制了可以處理的幀數,很自然地會考慮對圖像進行下采樣減少每幀token數,但作者發現為保證效果仍只能處理16幀。
  • 長度泛化:基于LLM的長度外推技術(RoPE的線性擴展),推理時擴展2倍,從之前的16幀擴展到56幀,大大提升了模型分析長視頻序列的能力。
  • 基于LLM反饋的DPO偏好優化:偏好數據由LLM生成,視頻表示為詳細的說明文字,帶來了很大的性能增益。
  • 對于視頻數據的微調,作者進行了ablation study:(1) 在LLaVA-NeXT圖像級指令微調后,繼續在視頻級指令上增量微調;(2) 在LLaVA-NeXT圖像級預訓練后,在圖像級和視頻級數據聯合微調,每個batch數據包含一種類型或者混合兩種類型,實驗表明混合圖像和視頻模態數據效果最佳。

指令微調Ablation Study

團隊還分享了視覺指令微調過程中除數據之外的因素的ablation study,從模型架構、視覺表征、訓練策略角度進行分析。

LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?[5]

  • 模型架構:擴展LLM比擴展視覺編碼器更有效,視覺輸入配置(分辨率、token數)比視覺編碼器大小更關鍵。
  • 學習率:為了訓練更穩定,視覺編碼器的學習率通常應該比LLM學習率小10倍~5倍,更大的LLM需要更小的學習率,盡量避免loss跑飛。
  • 視覺編碼器:相較于模型大小,基于分辨率、token數的視覺特征支持編碼更多的視覺細節,預訓練數據支持編碼更多的視覺知識,作用更重要。
  • 視覺表征:分辨率、特征空間視覺token數都重要,相對來說擴展分辨率更有效,建議使用AnyRes時下采樣。
  • 對于更高分辨率圖像或者更長的視頻,AnyRes需要更多的格子。比如,對于超過768x768的圖像,以前的方案首先resize到768x768會導致細節丟失。這里考慮劃分成更多的格子,然后對編碼的特征進行雙線性插值(下采樣)到更小的特征,以防止視覺token數過多。
  • 訓練策略:在互聯網級低質數據上大規模預訓練后,指令微調前,增加一個階段,使用一些高質量合成數據增強知識。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

LLaVA-NeXT-Interleave

24年6月,LLaVA-NeXT-Interleave發布,提出圖文交錯格式可以作為通用模版統一不同的視覺模態,比如單圖像(multi-patch)、多圖像(multi-image)、視頻(multi-frame)、3D(multi-view)。在保證LLaVA-NeXT單圖像輸入的性能下,可以提高其它模態任務的性能,而且在不同模態任務上具有初步的遷移能力。這種大一統的模型支持更廣泛真實場景的應用,比如多頁PPT的總結和問答、生成圖像編輯的提示詞、多文檔的匯總和比較。


LLaVA-NeXT: Tackling Multi-image, Video, and 3D in Large Multimodal Models[6]

作者在訓練策略上進行了ablation study:

  • 從LLaVA-NeXT單圖像模型繼續訓練,從stage2單圖像指令微調后的模型開始訓練效果更好,可以繼承單圖像任務的指令遵循能力。
  • 兩種組織格式:將所有圖像token放在最前面,在文本中使用特殊token指代圖像 (in-the-front),將圖像token放在其原來的位置,與文本交錯 (interleaved)。實驗表明,在訓練階段混合兩種格式有助于在推理階段這兩種格式都取得更好的性能。

InternVL系列

InternVL-1.0

23年12月,上海AI Lab @OpenGVLab發布InternVL。該工作在模態對齊中視覺編碼器和LLM之間在參數規模和特征表征能力上存在較大的差距,自然地提出擴大視覺端的參數量到6B (InternViT-6B),然后使用不同質量的圖文數據逐漸與LLM對齊。此外,連接層的參數量也擴大了,類似Q-Former,這里設計了一個8B的語言中間件QLLaMA,使用Chinese-LLaMA的參數初始化增強其跨語言理解能力,新增96個可學習query token和cross-attention層 (1B),實現視覺和語言模態進一步對齊。


[2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks[7]


下圖是InternVL的三階段漸進式訓練策略,訓練數據質量逐漸提高,最開始使用大規模有噪的圖文對進行對比預訓練 (類似CLIP),接著加入凍結參數的QLLaMA連接件,只學習cross-attention,使用圖文匹配/對比/生成loss (類似BLIP),最后引入LLM進行監督微調,賦予多模態對話和問答能力。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

InternVL訓練的多階段性賦予其內在的多功能性,通過靈活組合不同模塊,可以支持各種視覺-語言任務,如下圖。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

這里值得討論的一個點在于,InternVL為了讓視覺端和語言端參數量平衡,對視覺端和連接層都進行了scale up。一個很自然的問題是,視覺端真的需要這么heavy的參數量嗎?因為當前最新的LLaVA-NeXT仍然使用約300M的ViT和輕量的MLP連接層,僅通過擴展LLM提升多模態任務性能。我的個人拙見是,視覺理解包括感知和推理,感知部分可能并不需要那么大的參數量,而推理部分作用于high-level的視覺特征,通過微調LLM賦予其理解推理視覺模態的能力,所以為了性能、效率和穩定性的平衡,似乎這里scale up必要性不是很強,當然這里值得深入實驗的驗證和討論??吹竭@篇論文中的圖,讓我想到了22年Google的Coca論文,作者把文本解碼器按層對半劃開,淺層一半用于文本單模態,深層一半用于圖文多模態,可以看到下圖視覺端參數量占比也相當高。


[2205.01917] CoCa: Contrastive Captioners are Image-Text Foundation Models(https://arxiv.org/abs/2205.01917)

InternVL-1.5

24年4月,InternVL-1.5發布,綜合性能更強,且支持推理時高達4K的分辨率。

[2404.16821] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites[8]

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

上圖為模型整體架構,采用了類LLaVA的ViT+MLP+LLM范式,結合了增強的InternViT-6B-448px-V1.5和中英雙語InternLM2-Chat-20B,總體參數約26B。相比于InternVL-1.0,在輸入端支持了動態高分辨率,連接層改為輕量的MLP,使用pixel shuffle操作將輸出的視覺token數減為1/4。訓練分為兩階段,預訓練階段訓練InternViT和MLP映射,隨后微調整個模型。

  • 這里不再使用Q-Former作為連接層的原因,可以參考作者 @Weiyun 大佬的回答:多模態大語言模型(MLLM)為什么最近的工作中用BLIP2中Q-Former結構的變少了?- Weiyun的回答[9],大致意思是說相比于MLP,Q-Former參數量大收斂更慢,數據量小的場景無法達到LLaVA-1.5這樣的性能,而且提高數據量和計算量,Q-Former也沒有明顯的性能優勢。
  • 這里的pixel shuffle操作來源于16年的一篇論文[10],本質是對特征元素進行重排列,將的特征變換為,對特征進行了空間維度的上采樣,但通道維度縮小為原來的。這里輸出的視覺token數可以理解為通道數,主要目的是通過提升特征維度換取更少的token數,從而可以支持更高的圖像分辨率。這樣,448x448的輸入圖像,patch size=14,總共有32x32=1024個token,設置上采樣系數r=2,則該圖像可以表示為256個token。

接著我們來看InternVL-1.5的三個重要改進:

  • InternViT增強:V1.2版本去掉了模型的最后3層,將分辨率擴展為固定448x448,而V1.5進一步擴展為動態448x448,即每張訓練圖像可分塊,每塊大小為448x448,支持1~12個塊。此外,還增強了數據規模、質量和多樣性,提高了OCR和高分辨率處理能力。
  • 動態高分辨率:基于圖像的分辨率和縱橫比,將圖像切分為448x448的分塊,訓練階段最多12塊,測試階段可以外推到40塊,即4K分辨率,這樣模型訓練和推理能適應多種分辨率和縱橫比,避免了強行resize帶來的失真和細節丟失。如下圖,具體來說,對于一張800x1300的圖像,從預定義的縱橫比中匹配一個最接近的縱橫比2:3,然后將圖像resize到896x1344,并切分為多個448x448的圖像塊,再添加一個縮略視圖 (直接resize到448x448) 用于圖像全局理解。
  • 高質量中英雙語數據集:包含自然場景、圖表、文檔、對話等多樣化的數據,借助LLM實現數據集英文到中文的轉換。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

此外,翻譯的prompt值得我們學習:

System:
You are a translator proficient in English and {language}. Your task is to translate the following English text into {language}, focusing on a natural and fluent result that avoids “translationese.” Please consider these points:
1. Keep proper nouns, brands, and geographical names in English.
2. Retain technical terms or jargon in English, but feel free to explain in {language} if necessary.
3. Use {language} idiomatic expressions for English idioms or proverbs to ensure cultural relevance.
4. Ensure quotes or direct speech sound natural in {language}, maintaining the original’s tone.
5. For acronyms, provide the full form in {language} with the English acronym in parentheses.
User:
Text for translation: {text}
Assistant:
{translation results}

作者在ablation study部分研究了更大的LLM是否需要更大的視覺編碼器,實際上是針對我們上面對InternVL-1.0視覺端參數量的問題的實驗。實驗對比了LLaVA-NeXT和InternVL-1.2,兩者都使用34B的LLM,在盡量保證對比公平的條件下,實驗證明更大的視覺模型能提供模型解決多模態任務的整體性能(不過原論文好像沒有給具體數據?)。團隊后續也發布了蒸餾版的視覺模型InternViT-300M-448px[11],與LLaVA-NeXT的視覺端保持了同等規模。

MiniCPM-V系列

MiniCPM-V[12]是 @面壁智能 發布的一系列支持高效端側部署的多模態LLM。

MiniCPM-V 2.0

24年4月,MiniCPM-V 2.0發布,僅有2.8B參數,整體性能超過了Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B等更大的開源模型,OCR能力突出,支持中英雙語對話,部分指標接近Gemini Pro。


視覺編碼器使用SigLIP SO400M/14-384px[13],LLM使用MiniCPM-2.4B[14],連接層使用Flamingo[15]中的Perceiver Resampler (類似Q-Former使用可學習query提取顯著視覺信息,但不以輸入文本為條件)?;谧匝械腞LHF-V[16]實現可信行為對齊,在緩解多模態幻覺問題上接近GPT-4V。基于自研的LLaVA-UHD支持高達1344x1344的分辨率和任意縱橫比輸入。基于自研的VisCPM[17]實現跨語言的多模態能力泛化,進而有良好的中英雙語能力。此外,該模型在端側部署內存開銷較小、速度較快,即便是處理高分辨率的圖像。官方還提供了安卓端部署的mlc-MiniCPM[18]示例。

MiniCPM-Llama3-V 2.5

24年5月,MiniCPM-Llama3-V 2.5發布,總共8B參數,整體性能超過了GPT-4V-1106、Gemini Pro、Qwen-VL-Max、Claude 3等閉源模型,OCR和指令遵循能力進一步增強 (增強了全文本OCR提取、表格到Markdown轉換等功能),支持超過30種語言對話,在量化、編譯優化、高效推理等加持下,同樣可以在端側高效部署。


在MiniCPM-V 2.0基礎上,LLM替換為Llama3-8B-Instruct,基于更新的RLAIF-V進一步降低幻覺率。當前,官方支持了llama.cpp和ollama的高效CPU推理、GGUF 16-bit量化、LoRA微調等實用功能。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

VILA1.5

24年5月,NVIDIA發布VILA1.5[19],提供視頻理解能力,開源了3B/8B/13B/40B的模型,位于當前開源榜單MMMU和Video-MME前列。VILA詳見我的上篇文章,這里簡單回顧一下:VILA在大規模交錯圖文數據上預訓練,從而具有多圖理解能力,作者通過實驗發現:(1) 圖文交錯排布比較關鍵;(2) 交錯圖文預訓練過程中微調LLM能賦予其上下文學習的能力;(3) 混合只有文本的指令數據有助于提升性能;(4) 壓縮視覺token可以擴展視頻幀數。

CogVLM2

24年5月,智譜 @GLM大模型 發布CogVLM2[20],隨后發布了GLM-4V。CogVLM2基于Llama3-8B-Instruct,支持8K上下文、1344x1344分辨率、中英雙語對話。GLM-4V-9B替換為GLM-4-9B語言模型,采取同樣的數據和訓練策略,去除CogVLM原有的視覺專家,將模型大小減為13B。CogVLM和CogAgent詳見我的上篇文章。

Cambrian-1

24年6月,LeCun&謝賽寧團隊發布Cambrian-1,關注以視覺為中心的多模態LLM,開源了8B/13B/34B的模型。當前多模態LLM仍存在較大的視覺缺陷,需要增強視覺表征以更好地和語言模態交互,賦予模型在真實場景更強的感知定位能力。這項研究的一大意義在于影響多模態LLM的工作開始重視視覺表征質量的提升,而非一直scale up LLM。

[2406.16860] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs[21]

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

如上圖,該工作圍繞多模態LLM的5個核心設計要素展開研究,分別是:視覺表征、連接器設計、指令微調數據、指令微調策略、評估基準。

1.視覺表征

作者評估了多種視覺編碼器及其組合,下圖表明以語言監督的CLIP模型優勢較強,但自監督方法在提供充足數據和適當微調的情況下性能也能接近。而且,結合多種類型的視覺編碼器有助于提升多模態LLM的性能,尤其是以視覺為中心的任務。注意到,高分辨率的編碼器大大增強了圖表和以視覺為中心任務的性能,而基于ConvNet的架構適合處理這類任務。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

  1. 連接器設計

提出Spatial Vision Aggregator (SVA),一個動態的、具備空間感知的連接器,以將 (來自多個視覺編碼器的) 視覺特征與LLM深度融合。如下圖,該方法設置一些可學習的latent query tokens,通過cross-attention與多個視覺特征交互 (視覺特征作為key/value)。SVA的設計有兩點要素:(1) 通過顯式定義每個query token對應的視覺特征圖子區域,引入空間inductive bias,便于模型在處理視覺信息時保留對空間結構的理解,更準確地定位和整合局部特征;(2) 在LLM的多層聚合視覺特征,讓模型在不同層級特征上反復利用視覺信息,增強模型對視覺內容的深入推理能力。該方法可以有效減少需要的視覺token數,例如相比于Mini-Gemini和LLaVA-NeXT,Cambrian-1的視覺token數是其20%。

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

  1. 指令微調數據

作者發布了指令微調數據集Cambrian-10M,綜合了OCR、通用VQA、純語言等指令數據,還篩選了質量更高的7M版本。不同類型的視覺指令數據能賦予模型不同的能力,因此數據配比的平衡性也很關鍵,實驗結果表明,平衡OCR、通用數據和語言數據的比例很重要。此外,在實驗中作者發現,訓練好的多模態LLM可能在基準測試上指標表現好,但實際對話能力弱,回復簡短。因此,作者在訓練期間引入了額外的系統提示,鼓勵模型輸出更長的回答和思維鏈推理,增強數學推理等任務的表現。

  1. 指令微調策略

作者遵循LLaVA的兩階段訓練策略,先使用適配數據只微調中間的MLP連接層,再打開LLM和連接器微調。結果表明,第一階段對連接器的預訓練可以提高性能,而使用更多的適配數據可以進一步增強。此外,作者對比了是否微調視覺編碼器帶來的性能影響,表明微調視覺編碼器能增強性能,尤其對自監督預訓練的視覺編碼器 (如DINO v2、MoCo v3、MAE等),在以視覺為中心的測試上提升明顯。

  1. 以視覺為中心的基準CV-Bench

現有多數benchmark無法正確評估模型的視覺感知定位能力,而且相應的樣本數量有限。CV-Bench重新利用現有視覺benchmark中的樣本,包含2638個以視覺為中心的VQA問題,涉及2D的空間位置關系和物體計數、3D的深度次序和相對距離。

最后,讓我們共同期待我國的AGI基礎模型不斷取得新的突破,引領世界潮流!

2024年以來,學術和產業界的那些SOTA多模態大模型的架構演進之路-AI.x社區

本文轉自 AI生成未來 ,作者:Dreamweaver


原文鏈接:??https://mp.weixin.qq.com/s/IxAddxumz-aHutPfxrDTeg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久美女网 | 91免费高清| 精品国产视频在线观看 | 久久久看 | 久久久久国产一区二区三区四区 | 欧美久久国产精品 | 日本色高清 | 成人妇女免费播放久久久 | 中文字幕亚洲一区 | 三区在线| 国产在线精品一区二区三区 | 手机三级电影 | 日韩毛片网 | 国产激情小视频 | 狠狠干网| 欧美操操操 | 国产精品99免费视频 | 国产日产精品一区二区三区四区 | 96国产精品久久久久aⅴ四区 | 久久久久免费观看 | 日韩视频三区 | 九九热视频这里只有精品 | 亚洲综合二区 | 欧美三级电影在线播放 | 污视频免费在线观看 | 日本一区二区三区在线观看 | 成人福利网站 | 欧美成视频| 国产成人精品一区二区三区在线 | 亚洲精品久久久久久久不卡四虎 | 久久天堂| a黄视频 | 久久精品二区 | 日韩电影中文字幕 | 亚洲精品一区中文字幕乱码 | 午夜影院操 | 国产亚洲一区二区三区 | 色综合久| 免费视频久久 | 欧美一区二区三区日韩 | 久久亚洲国产精品 |