成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節團隊提出猞猁Lynx模型:多模態LLMs理解認知生成類榜單SoTA

人工智能 新聞
作者提出了 Lynx,與現有的開源 GPT4-style 模型相比,它在表現出最準確的多模態理解能力的同時,保持了最佳的多模態生成能力。

當前大語言模型 (Large Language Models, LLMs) 如 GPT4 在遵循給定圖像的開放式指令方面表現出了出色的多模態能力。然而,這些模型的性能嚴重依賴于對網絡結構、訓練數據和訓練策略等方案的選擇,但這些選擇并沒有在先前的文獻中被廣泛討論。此外,目前也缺乏合適的基準 (benchmarks) 來評估和比較這些模型,限制了多模態 LLMs 的 發展。

圖片圖片

  • 論文:https://arxiv.org/abs/2307.02469
  • 網站:https://lynx-llm.github.io/
  • 代碼:https://github.com/bytedance/lynx-llm

在這篇文章中,作者從定量和定性兩個方面對此類模型的訓練進行了系統和全面的研究。設置了 20 多種變體,對于網絡結構,比較了不同的 LLMs 主干和模型設計;對于訓練數據,研究了數據和采樣策略的影響;在指令方面,探討了多樣化提示對模型指令跟隨能力的影響。對于 benchmarks ,文章首次提出包括圖像和視頻任務的開放式視覺問答評估集 Open-VQA。

基于實驗結論,作者提出了 Lynx,與現有的開源 GPT4-style 模型相比,它在表現出最準確的多模態理解能力的同時,保持了最佳的多模態生成能力。

評估方案

不同于典型的視覺語言任務,評估 GPT4-style 模型的主要挑戰在于平衡文本生成能力多模態理解準確性兩個方面的性能。為了解決這個問題,作者提出了一種包含視頻和圖像數據的新 benchmark Open-VQA,并對當前的開源模型進行了全面的評價。

具體來說,采用了兩種量化評價方案:

  • 收集開放式視覺問答 (Open-VQA) 測試集,其包含關于物體、OCR、計數、推理、動作識別、時間順序等不同類別的問題。不同于有標準答案的 VQA 數據集,Open-VQA 的答案是開放式的。為了評估 Open-VQA 上的性能,使用 GPT4 作為判別器,其結果與人類評估有 95% 的一致性。
  • 此外,作者采用了由 mPLUG-owl [1] 提供的 OwlEval 數據集來評估模型的文本生成能力,雖然只包含 50 張圖片 82 個問題,但涵蓋故事生成、廣告生成、代碼生成等多樣問題,并招募人工標注員對不同模型的表現進行打分。

結論

為了深入研究多模態 LLMs 的訓練策略,作者主要從網絡結構(前綴微調 / 交叉注意力)、訓練數據(數據選擇及組合比例)、指示(單一指示 / 多樣化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、圖像像素(420/224)等多個方面設置了二十多種變體,通過實驗得出了以下主要結論:

  • 多模態 LLMs 的指示遵循能力不如 LLMs。例如,InstructBLIP [2] 傾向于不管輸入指令如何都生成簡短的回復,而其他模型傾向于生成長句子而不考慮指令,作者認為這是由于缺乏高質量和多樣化的多模態指令數據所導致的。
  • 訓練數據的質量對模型的性能至關重要。基于在不同的數據上進行實驗的結果,發現使用少量的高質量數據比使用大規模的噪聲數據表現得更好。作者認為這是生成式訓練和對比式訓練的區別,因為生成式訓練是直接學習詞的條件分布而不是文本和圖像的相似度。因此,為了更好的模型性能,在數據方面需要滿足兩點:1)包含高質量的流暢文本;2)文本和圖像內容對齊得較好。
  • 任務和提示對零樣本 (zero-shot) 能力至關重要。使用多樣化任務和指令可以提升模型在未知任務上的零樣本生成能力,這與純文本模型中的觀察結果一致。
  • 平衡正確性和語言生成能力是很重要的。如果模型在下游任務 (如 VQA) 上訓練不足,更可能生成與視覺輸入不符的編造的內容;而如果模型在下游任務中訓練過多,它則傾向于生成短答案,將無法按照用戶的指示生成較長的答案。
  • 前綴微調 (prefix-finetuning, PT) 是目前對 LLMs 進行多模態適配的最佳方案。在實驗中,prefix-finetuning 結構的模型能更快地提升對多樣化指示的遵循能力,比交叉注意力 (cross-attention, CA) 的模型結構更易訓練。(prefix-tuning 和 cross-attention 為兩種模型結構,具體見 Lynx 模型介紹部分)

Lynx 模型

作者提出了 Lynx(猞猁)—— 進行了兩階段訓練的 prefix-finetuning 的 GPT4-style 模型。在第一階段,使用大約 120M 圖像 - 文本對來對齊視覺和語言嵌入 (embeddings) ;在第二階段,使用 20 個圖像或視頻的多模態任務以及自然語言處理 (NLP) 數據來調整模型的指令遵循能力。

圖片圖片

Lynx 模型的整體結構如上圖 Figure 1 所示。

視覺輸入經過視覺編碼器處理后得到視覺令牌 (tokens) $$W_v$$,經過映射后與指令 tokens $$W_l$$ 拼接作為 LLMs 的輸入,在本文中將這種結構稱為「prefix-finetuning」以區別于如 Flamingo [3] 所使用的 cross-attention 結構。

此外,作者發現,通過在凍結 (frozen) 的 LLMs 某些層后添加適配器 (Adapter) 可以進一步降低訓練成本。

模型效果

作者測評了現有的開源多模態 LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工測評上的表現(結果見后文圖表,評估細節見論文)。可以看到 Lynx 模型在 Open-VQA 圖像和視頻理解任務、OwlEval 人工測評及 Mme Perception 類任務中都取得了最好的表現。其中,InstructBLIP 在多數任務中也實現了高性能,但其回復過于簡短,相較而言,在大多數情況下 Lynx 模型在給出正確的答案的基礎上提供了簡明的理由來支撐回復,這使得它對用戶更友好(部分 cases 見后文 Cases 展示部分)。

1. 在 Open-VQA 圖像測試集上的指標結果如下圖 Table 1 所示:

圖片圖片

2. 在 Open-VQA 視頻測試集上的指標結果如下圖 Table 2 所示。

圖片圖片

3. 選取 Open-VQA 中得分排名靠前的模型進行 OwlEval 測評集上的人工效果評估,其結果如上圖 Figure 4 所示。從人工評價結果可以看出 Lynx 模型具有最佳的語言生成性能。

圖片圖片

4. 在 Mme benchmark 測試中,Perception 類任務獲得最好的表現,其中 14 類子任務中有 7 個表現最優。(詳細結果見論文附錄)

Cases 展示

Open-VQA 圖片 cases

圖片

OwlEval cases

圖片

Open-VQA 視頻 case

圖片

總結

在本文中,作者通過對二十多種多模態 LLMs 變種的實驗,確定了以 prefix-finetuning 為主要結構的 Lynx 模型并給出開放式答案的 Open-VQA 測評方案。實驗結果顯示 Lynx 模型表現最準確的多模態理解準確度的同時,保持了最佳的多模態生成能力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-16 17:17:30

模型訓練

2024-03-25 12:40:19

訓練模型

2025-03-04 09:50:00

2023-05-15 12:32:29

GPT-4開源

2025-01-06 10:00:00

模型視覺生成

2025-04-07 07:55:00

視頻訓練生成

2024-04-02 09:17:50

AI數據開源

2021-08-13 15:07:02

模型人工智能深度學習

2025-05-27 15:35:02

大模型技術AI

2023-07-27 13:58:19

2024-05-27 12:05:23

2023-11-09 15:10:00

訓練數據

2024-06-17 00:00:00

MiCo模態人腦

2023-12-04 13:23:00

數據訓練

2024-12-24 10:30:00

2025-01-08 08:21:16

2024-12-31 14:00:00

模型訓練數據

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-05-20 13:02:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊色综合久久之综合久久 | 日本成人一区二区 | 美女国内精品自产拍在线播放 | 久久在线看 | 欧美 日韩 中文 | 蜜桃精品视频在线 | 国产日韩久久 | 三级av免费 | 狠狠色综合久久婷婷 | 成人免费久久 | 爱草视频 | 一区二区三区成人 | 天天操天天干天天曰 | 久国产 | 天天操综合网 | 日韩一区二区在线观看视频 | 亚洲电影一区二区三区 | 日韩中文av在线 | 欧美激情在线一区二区三区 | 国产一区二区在线视频 | 国产a级毛毛片 | 在线国产视频 | 国产91亚洲精品一区二区三区 | 夜夜爽99久久国产综合精品女不卡 | 久久久久久久久国产精品 | 五月激情综合 | 中文字幕亚洲一区二区三区 | 久久99精品国产麻豆婷婷 | 福利视频网站 | 精品一区二区三区在线观看 | 欧美日韩一区二区在线观看 | 全免费a级毛片免费看视频免 | 亚洲天天干 | 免费观看一级视频 | 男女又爽又黄视频 | 91免费看片神器 | 成av人电影在线 | 羞羞视频免费观看入口 | 一区二区三区在线免费观看 | 午夜影院网站 | 亚洲成av人片在线观看 |