成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲? 原創(chuàng)

發(fā)布于 2025-2-12 08:22
瀏覽
0收藏

01、概述

近年來,視覺-語言模型(VLMs)在人工智能領(lǐng)域的迅猛發(fā)展,極大拓展了機器處理多模態(tài)信息的能力。然而,在這項技術(shù)的進步背后,依然存在著一些亟待解決的挑戰(zhàn)。像 GPT-4V 和 Gemini-1.5-Pro 這樣的專有模型雖然表現(xiàn)出色,但它們的透明度較低,這限制了它們的適應(yīng)性和開放性。而開放源代碼的替代模型常常因數(shù)據(jù)多樣性、訓(xùn)練方法和計算資源的限制,難以與這些專有模型抗衡。此外,關(guān)于后期訓(xùn)練數(shù)據(jù)策略的文獻資料相對匱乏,使得這些模型的復(fù)制和改進變得困難。

為了解決這些問題,NVIDIA AI 推出了 Eagle 2,一款采用結(jié)構(gòu)化、透明的數(shù)據(jù)策劃和模型訓(xùn)練方法的視覺-語言模型(VLM)。Eagle 2 提供了一個全新的視角,讓開放源代碼社區(qū)能夠在不依賴專有數(shù)據(jù)集的情況下,構(gòu)建具有競爭力的 VLM。

02、Eagle 2:以透明為核心的數(shù)據(jù)策略

Eagle 2 的最大亮點在于它的開放數(shù)據(jù)策略。與大多數(shù)僅提供訓(xùn)練權(quán)重的模型不同,Eagle 2 詳細介紹了數(shù)據(jù)收集、過濾、增強和選擇的整個過程。這一做法的目標(biāo)是為開放源代碼社區(qū)提供一套完整的工具,使得社區(qū)成員可以在透明的框架下開展自己的 VLM 開發(fā)工作,而不再依賴于封閉的專有數(shù)據(jù)集。

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲?-AI.x社區(qū)

Eagle2-9B 是 Eagle 2 系列中最先進的模型,其性能已經(jīng)能夠與一些擁有 70B 參數(shù)的模型媲美,證明了在優(yōu)化后期訓(xùn)練數(shù)據(jù)策略的同時,不必消耗過多的計算資源。

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲?-AI.x社區(qū)

03、Eagle 2 的三大創(chuàng)新亮點

Eagle 2 的成功,離不開以下三大創(chuàng)新:

1) 數(shù)據(jù)策略:多樣性優(yōu)先,質(zhì)量為先

Eagle 2 的數(shù)據(jù)策劃遵循 “多樣性優(yōu)先,質(zhì)量為先” 的原則。首先,從超過 180 個數(shù)據(jù)源中采集數(shù)據(jù),隨后通過篩選和選擇進行精煉。在這個過程中,Eagle 2 引入了詳細的數(shù)據(jù)處理流程,包括錯誤分析、鏈?zhǔn)剿季S(CoT)推理、基于規(guī)則的問答生成以及數(shù)據(jù)格式化,旨在提高訓(xùn)練效率。

2) 三階段訓(xùn)練框架:逐步提升模型能力

Eagle 2 的訓(xùn)練方法分為三個階段,每個階段都在強化模型的不同能力:

  • 階段 1:通過訓(xùn)練多層感知器(MLP)連接器,調(diào)整視覺和語言的跨模態(tài)對接。
  • 階段 1.5:引入更大規(guī)模的數(shù)據(jù),進一步夯實模型的基礎(chǔ)。
  • 階段 2:使用高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù)集對模型進行微調(diào),提升其在實際應(yīng)用中的表現(xiàn)。

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲?-AI.x社區(qū)

3) Tiled Mixture of Vision Encoders(MoVE)架構(gòu)

Eagle 2 采用了兩種視覺編碼器——SigLIP 和 ConvNeXt,結(jié)合高分辨率的切片方法確保在處理圖像時,能夠高效地保留細粒度的圖像細節(jié)。此外,Eagle 2 還通過一種平衡意識的貪心背包方法優(yōu)化了數(shù)據(jù)打包,提高了樣本效率,同時減少了訓(xùn)練成本。

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲?-AI.x社區(qū)

04、Eagle 2 的性能與基準(zhǔn)測試

Eagle 2 經(jīng)歷了嚴格的性能測試,展現(xiàn)了出色的多項基準(zhǔn)測試表現(xiàn):

  • DocVQA:Eagle2-9B 在該任務(wù)中達到了 92.6% 的準(zhǔn)確率,超越了 InternVL2-8B(91.6%)和 GPT-4V(88.4%)。
  • OCRBench:在該任務(wù)中,Eagle 2 取得了 868 分,超越了 Qwen2-VL-7B(845)和 MiniCPM-V-2.6(852),展示了其在文本識別方面的強大能力。
  • MathVista:Eagle 2 的表現(xiàn)較基準(zhǔn)提升了超過 10 個點,進一步驗證了三階段訓(xùn)練方法的有效性。
  • 多模態(tài)推理任務(wù)(如 ChartQA 和 OCR QA):Eagle 2 在這些任務(wù)中也表現(xiàn)出色,超越了 GPT-4V。

此外,Eagle 2 的訓(xùn)練過程經(jīng)過優(yōu)化,采用了先進的子集選擇技術(shù),將數(shù)據(jù)集的規(guī)模從 1270 萬樣本減少至 460 萬樣本,同時保持了準(zhǔn)確性,并提高了數(shù)據(jù)利用效率。

9B參數(shù)吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲?-AI.x社區(qū)

05、總結(jié):Eagle 2 —— 更具透明度和開放性的 VLM 解決方案

Eagle 2 的發(fā)布,標(biāo)志著在使高性能視覺-語言模型更加可訪問和可復(fù)制方面邁出了重要一步。通過強調(diào)透明的數(shù)據(jù)驅(qū)動方法,Eagle 2 在開放源代碼社區(qū)與專有模型性能之間架起了橋梁。它在數(shù)據(jù)策略、訓(xùn)練方法和視覺架構(gòu)上的創(chuàng)新,使其成為研究人員和開發(fā)者的理想選擇。

通過公開分享其方法論,NVIDIA AI 不僅促進了一個協(xié)作的人工智能研究環(huán)境,還使得社區(qū)成員可以在此基礎(chǔ)上進一步創(chuàng)新,而不必依賴封閉的源代碼模型。隨著人工智能技術(shù)的不斷演進,Eagle 2 將成為思考數(shù)據(jù)策劃和訓(xùn)練策略如何推動 VLM 發(fā)展的典范。



本文轉(zhuǎn)載自公眾號Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/OI0ykpgOR9v6h2RawYW-6Q??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-2-12 08:22:03修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲精品电影网在线观看 | 日本一二三区在线观看 | 国产精品九九九 | 日韩综合色 | 国产精品无码久久久久 | 中文字幕四虎 | 欧美中文字幕在线观看 | 99久久国产免费 | 亚洲美女视频 | 久久男人 | 色综合欧美| 国产午夜精品福利 | 中文在线a在线 | 精品国产乱码久久久久久影片 | 久久精品av麻豆的观看方式 | 久久毛片 | 日韩在线精品 | 完全免费在线视频 | 亚洲美女一区 | 亚洲性在线 | 亚洲欧美综合精品久久成人 | 久久国内精品 | 亚洲精品一区二区三区在线 | 亚洲精品在线免费观看视频 | 九九激情视频 | 色视频www在线播放国产人成 | 欧美日韩在线免费 | 久久久久国产精品午夜一区 | 在线免费黄色小视频 | 欧美aaaaaaaaaa | 久久久久久国产精品 | 久久久久久久夜 | 精品国产乱码久久久久久88av | 三级av在线| 亚洲欧美视频在线观看 | 欧美一区在线视频 | 日韩一及片 | 欧美成人h版在线观看 | 一区二区三区日韩 | 国产精品区二区三区日本 | 国产成人免费观看 |