9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？原創(chuàng)

發(fā)布于 2025-2-12 08:22

瀏覽

0收藏

01、概述

近年來，視覺-語言模型（VLMs）在人工智能領(lǐng)域的迅猛發(fā)展，極大拓展了機器處理多模態(tài)信息的能力。然而，在這項技術(shù)的進步背后，依然存在著一些亟待解決的挑戰(zhàn)。像 GPT-4V 和 Gemini-1.5-Pro 這樣的專有模型雖然表現(xiàn)出色，但它們的透明度較低，這限制了它們的適應(yīng)性和開放性。而開放源代碼的替代模型常常因數(shù)據(jù)多樣性、訓(xùn)練方法和計算資源的限制，難以與這些專有模型抗衡。此外，關(guān)于后期訓(xùn)練數(shù)據(jù)策略的文獻資料相對匱乏，使得這些模型的復(fù)制和改進變得困難。

為了解決這些問題，NVIDIA AI 推出了 Eagle 2，一款采用結(jié)構(gòu)化、透明的數(shù)據(jù)策劃和模型訓(xùn)練方法的視覺-語言模型（VLM）。Eagle 2 提供了一個全新的視角，讓開放源代碼社區(qū)能夠在不依賴專有數(shù)據(jù)集的情況下，構(gòu)建具有競爭力的 VLM。

02、Eagle 2：以透明為核心的數(shù)據(jù)策略

Eagle 2 的最大亮點在于它的開放數(shù)據(jù)策略。與大多數(shù)僅提供訓(xùn)練權(quán)重的模型不同，Eagle 2 詳細介紹了數(shù)據(jù)收集、過濾、增強和選擇的整個過程。這一做法的目標(biāo)是為開放源代碼社區(qū)提供一套完整的工具，使得社區(qū)成員可以在透明的框架下開展自己的 VLM 開發(fā)工作，而不再依賴于封閉的專有數(shù)據(jù)集。

9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？-AI.x社區(qū)

Eagle2-9B 是 Eagle 2 系列中最先進的模型，其性能已經(jīng)能夠與一些擁有 70B 參數(shù)的模型媲美，證明了在優(yōu)化后期訓(xùn)練數(shù)據(jù)策略的同時，不必消耗過多的計算資源。

9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？-AI.x社區(qū)

03、Eagle 2 的三大創(chuàng)新亮點

Eagle 2 的成功，離不開以下三大創(chuàng)新：

1）數(shù)據(jù)策略：多樣性優(yōu)先，質(zhì)量為先

Eagle 2 的數(shù)據(jù)策劃遵循 “多樣性優(yōu)先，質(zhì)量為先” 的原則。首先，從超過 180 個數(shù)據(jù)源中采集數(shù)據(jù)，隨后通過篩選和選擇進行精煉。在這個過程中，Eagle 2 引入了詳細的數(shù)據(jù)處理流程，包括錯誤分析、鏈?zhǔn)剿季S（CoT）推理、基于規(guī)則的問答生成以及數(shù)據(jù)格式化，旨在提高訓(xùn)練效率。

2）三階段訓(xùn)練框架：逐步提升模型能力

Eagle 2 的訓(xùn)練方法分為三個階段，每個階段都在強化模型的不同能力：

階段 1：通過訓(xùn)練多層感知器（MLP）連接器，調(diào)整視覺和語言的跨模態(tài)對接。
階段 1.5：引入更大規(guī)模的數(shù)據(jù)，進一步夯實模型的基礎(chǔ)。
階段 2：使用高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù)集對模型進行微調(diào)，提升其在實際應(yīng)用中的表現(xiàn)。

9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？-AI.x社區(qū)

3） Tiled Mixture of Vision Encoders（MoVE）架構(gòu)

Eagle 2 采用了兩種視覺編碼器——SigLIP 和 ConvNeXt，結(jié)合高分辨率的切片方法確保在處理圖像時，能夠高效地保留細粒度的圖像細節(jié)。此外，Eagle 2 還通過一種平衡意識的貪心背包方法優(yōu)化了數(shù)據(jù)打包，提高了樣本效率，同時減少了訓(xùn)練成本。

9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？-AI.x社區(qū)

04、Eagle 2 的性能與基準(zhǔn)測試

Eagle 2 經(jīng)歷了嚴格的性能測試，展現(xiàn)了出色的多項基準(zhǔn)測試表現(xiàn)：

DocVQA：Eagle2-9B 在該任務(wù)中達到了 92.6% 的準(zhǔn)確率，超越了 InternVL2-8B（91.6%）和 GPT-4V（88.4%）。
OCRBench：在該任務(wù)中，Eagle 2 取得了 868 分，超越了 Qwen2-VL-7B（845）和 MiniCPM-V-2.6（852），展示了其在文本識別方面的強大能力。
MathVista：Eagle 2 的表現(xiàn)較基準(zhǔn)提升了超過 10 個點，進一步驗證了三階段訓(xùn)練方法的有效性。
多模態(tài)推理任務(wù)（如 ChartQA 和 OCR QA）：Eagle 2 在這些任務(wù)中也表現(xiàn)出色，超越了 GPT-4V。

此外，Eagle 2 的訓(xùn)練過程經(jīng)過優(yōu)化，采用了先進的子集選擇技術(shù)，將數(shù)據(jù)集的規(guī)模從 1270 萬樣本減少至 460 萬樣本，同時保持了準(zhǔn)確性，并提高了數(shù)據(jù)利用效率。

9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？-AI.x社區(qū)

05、總結(jié)：Eagle 2 —— 更具透明度和開放性的 VLM 解決方案

Eagle 2 的發(fā)布，標(biāo)志著在使高性能視覺-語言模型更加可訪問和可復(fù)制方面邁出了重要一步。通過強調(diào)透明的數(shù)據(jù)驅(qū)動方法，Eagle 2 在開放源代碼社區(qū)與專有模型性能之間架起了橋梁。它在數(shù)據(jù)策略、訓(xùn)練方法和視覺架構(gòu)上的創(chuàng)新，使其成為研究人員和開發(fā)者的理想選擇。

通過公開分享其方法論，NVIDIA AI 不僅促進了一個協(xié)作的人工智能研究環(huán)境，還使得社區(qū)成員可以在此基礎(chǔ)上進一步創(chuàng)新，而不必依賴封閉的源代碼模型。隨著人工智能技術(shù)的不斷演進，Eagle 2 將成為思考數(shù)據(jù)策劃和訓(xùn)練策略如何推動 VLM 發(fā)展的典范。

本文轉(zhuǎn)載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/OI0ykpgOR9v6h2RawYW-6Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

大模型

多模態(tài)

已于2025-2-12 08:22:03修改

贊

回復(fù)