成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了

人工智能 新聞
現在,研究團隊宣布推出 LLaVA-1.6,主要改進了模型在推理、OCR 和世界知識方面的性能。LLaVA-1.6 甚至在多項基準測試中超越了 Gemini Pro。

去年 4 月,威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個小的多模態指令數據集訓練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結果。10 月,LLaVA-1.5 重磅發布,通過對原始 LLaVA 的簡單修改,在 11 個基準上刷新了 SOTA。

現在,研究團隊宣布推出 LLaVA-1.6,主要改進了模型在推理、OCR 和世界知識方面的性能。LLaVA-1.6 甚至在多項基準測試中超越了 Gemini Pro。


  • demo 地址:https://llava.hliu.cc/
  • 項目地址:https://github.com/haotian-liu/LLaVA

與 LLaVA-1.5 相比,LLaVA-1.6 有如下幾個改進:

  • 將輸入圖像分辨率提升 4 倍,支持三種寬高比,最高可達 672x672、336x1344、1344x336 分辨率。這使得 LLaVA-1.6 能夠掌握更多的視覺細節。
  • 通過改進的視覺指令調整數據混合,LLaVA-1.6 獲得了更好的視覺推理和 OCR 能力。
  • 更好的視覺對話,更多場景,覆蓋不同應用。LLaVA-1.6 掌握了更多世界知識,具備更好的邏輯推理能力。
  • 使用 SGLang 進行高效部署和推理。

圖片

圖源:https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 保持了 LLaVA-1.5 的極簡設計和數據效率,它復用了 LLaVA-1.5 的預訓練連接器,并且仍然使用不到 1M 的視覺指令調優樣本。最大的 34B 模型使用 32 個 A100 在大約 1 天內完成了訓練。LLaVA-1.6 使用 130 萬個數據樣本,計算 / 訓練數據成本約為其他方法的 100-1000 分之一。

圖片

與 CogVLM 或 Yi-VL 等開源 LMM 相比,LLaVA-1.6 實現了 SOTA 性能。與商用產品相比,LLaVA-1.6 在選定的基準測試中可以媲美 Gemini Pro,并且優于 Qwen-VL-Plus。

圖片

值得一提的是,LLaVA-1.6 展現出強大的零樣本(zero-shot)中文能力,它在多模態基準 MMBench-CN 上取得了 SOTA 性能。

方法改進

動態高分辨率

研究團隊以高分辨率設計 LLaVA-1.6 模型,旨在保持其數據效率。當提供高分辨率圖像和保留細節的表征時,模型感知圖像中復雜細節的能力會顯著提高。它減少了面對低分辨率圖像時的模型幻覺,即猜測想象的視覺內容。

圖片

數據混合

高質量的用戶指令數據。該研究對高質量視覺指令遵循數據的定義取決于兩個主要標準:首先,任務指令的多樣性,確保充分代表現實場景中可能遇到的廣泛用戶意圖,特別是在模型部署階段。其次,響應的優先級至關重要,旨在征求有利的用戶反饋。

因此,該研究考慮了兩個數據源:

現有的 GPT-V 數據 (LAION-GPT-V 和 ShareGPT-4V);

為了進一步促進更多場景下更好的視覺對話,研究團隊收集了一個涵蓋不同應用的小型 15K 視覺指令調優數據集,仔細過濾了可能存在隱私問題或可能有害的樣本,并使用 GPT-4V 生成響應。

多模態文檔 / 圖表數據。(1) 從訓練數據中刪除 TextCap,因為研究團隊意識到 TextCap 使用與 TextVQA 相同的訓練圖像集。這使得研究團隊能夠在評估 TextVQA 時更好地了解模型的零樣本 OCR 能力。為了保持并進一步提高模型的 OCR 能力,該研究用 DocVQA 和 SynDog-EN 替換了 TextCap。(2) 借助 Qwen-VL-7B-Chat,該研究進一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解圖和圖表。

研究團隊還表示除了 Vicuna-1.5(7B 和 13B),還考慮采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能夠支持更廣泛的用戶和更多的場景。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-22 14:02:35

2022-05-30 16:31:08

CSS

2025-02-08 08:00:00

JavaDeepSeekIDEA

2023-08-18 14:34:00

研究模型

2025-01-13 13:47:13

2021-03-04 09:31:42

開源技術 項目

2025-06-09 01:22:00

2023-11-15 14:17:23

微軟語言模型AI 模型

2023-12-10 20:33:50

Redis搜索全文

2024-01-30 09:21:29

CSS文字效果文字裝飾

2022-06-08 08:01:28

模板字面量類型

2021-08-05 16:25:37

Windows 11Windows微軟

2025-06-03 08:22:00

模型評估視頻

2024-12-31 15:18:42

2025-02-14 08:00:00

人工智能Gemini 2.0LLM

2024-08-27 09:35:47

2021-02-03 20:19:08

Istio流量網格

2020-12-31 11:28:09

GitLabCICD

2024-02-27 11:46:40

2025-06-11 08:56:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲免费视频一区 | 国产情侣啪啪 | 婷婷国产一区二区三区 | 欧美一区在线视频 | 亚洲一区二区高清 | 中文字幕一区在线观看视频 | 成av人电影在线 | 久久伊人影院 | 国产精品视频在 | 国产精品久久一区二区三区 | 国产精品免费在线 | 一区精品视频 | 亚洲精品一区二区在线观看 | 亚洲精选一区二区 | 美女天天操| 国产精品欧美精品 | 精久久| 久久午夜精品福利一区二区 | 黄色网址av | 在线色网 | 日韩精品一区二区在线观看 | 国产精品亚洲精品 | 久久久久久九九九九 | 丝袜美腿一区二区三区动态图 | 国产在线色 | 国产精品久久久久无码av | 一级黄色影片在线观看 | 国产91久久久久蜜臀青青天草二 | 午夜久久 | 午夜视频在线观看网站 | 日韩欧美视频在线 | 超碰在线观看97 | 欧美久久久网站 | 成人亚洲精品久久久久软件 | 亚洲最大成人综合 | 香蕉久久av | 国产精品久久久久aaaa | 国产91网站在线观看 | 亚洲最大的成人网 | 91视频国产一区 | 国产精品一区二区三区久久久 |