NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？原創

發布于 2025-4-28 09:23

瀏覽

0收藏

在多模態學習領域，視覺-語言模型（VLMs）的飛速發展讓我們看到了不同模態之間融合的巨大潛力。然而，盡管取得了顯著的進步，這些模型大多集中在短文本任務上，對于長文本的理解能力卻始終是它們的“軟肋”。尤其是在處理長視頻理解和高分辨率圖像/視頻理解時，如何有效處理擴展的視覺上下文，依然是一個亟待解決的難題。

長文本理解的困境與挑戰

長文本理解的不足，很大程度上是因為現有的視覺-語言模型在數據集構建、架構設計、訓練策略以及計算/內存瓶頸等方面都面臨著諸多挑戰。雖然之前的研究嘗試過擴展上下文長度，但效果并不理想：與專有模型相比，性能提升有限；隨著視覺輸入的增加，改進效果也不一致；而且，最優的訓練策略也尚未明確。

Eagle 2.5：長文本訓練的“破局者”

在這樣的背景下，NVIDIA推出的Eagle 2.5模型，就像一顆璀璨的新星，為長文本視覺-語言模型的發展帶來了新的希望。與那些僅僅為了處理更長多模態序列而犧牲性能的模型不同，Eagle 2.5在增加輸入長度的同時，能夠實現一致的性能提升，而不僅僅是容納更長的輸入。它在上下文覆蓋方面表現出色，并且隨著幀數的增加，性能呈一致的上升趨勢。與GPT-4o和Qwen2.5-VL-72B等參數量更大的模型相比，Eagle 2.5在性能上毫不遜色，同時卻保持著更小的參數規模。

圖像和視頻理解的卓越表現

Eagle 2.5在圖像和視頻理解的多個基準測試中都展現出了非凡的性能，無論是與開源模型還是專有模型相比，都取得了極具競爭力的結果。在視頻理解方面，Eagle2.5-8B在多個視頻基準測試中都取得了令人矚目的成績：在MVBench上達到了74.8，在Perception_test上達到了82.0，在EgoSchema上達到了72.2，輕松超越了類似規模的InternVL2.5-8B（72.0）和Qwen2.5-VL-8B（69.6、70.5、65.0）。在長視頻理解方面，Eagle 2.5更是表現出色，在MLVU上達到了77.6，在LongVideobench上達到了66.4，甚至超過了InternVL2.5-78B（75.7、63.6）。在VideoMME（無字幕）上，Eagle 2.5達到了72.4，與擁有72B參數的模型極為接近，但使用的參數卻少得多。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

在圖像理解方面，Eagle2.5-8B同樣表現出色，涵蓋了文檔理解（DocVQA上達到94.1，ChartQA上達到87.5）、信息提取（InfoVQA上達到80.4，TextVQA上達到83.7）以及光學字符識別（OCRBench上達到869）等多個領域。此外，該模型在通用感知和推理任務（MMstar上達到66.2，RWQA上達到76.7，MMB?.?上達到81.7）、特定領域的知識（MMMU上達到55.8，AI2D上達到84.5）、視覺幻覺評估（HallB上達到54.7）以及數學推理（MathVista上達到67.8）等方面也展現出了均衡的能力。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

獨特的訓練策略：信息優先采樣與漸進式訓練

Eagle 2.5之所以能夠取得如此優異的性能，其訓練策略功不可沒。該策略包含兩個關鍵組成部分：信息優先采樣和漸進式訓練。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

信息優先采樣

在多模態訓練中，視覺內容的采樣至關重要。多圖像文檔通常包含數十頁超高分辨率的圖像，而視頻內容的長度則可以從幾秒到幾小時不等。為了有效管理這種多樣性，Eagle 2.5提出了信息優先采樣策略，從視覺和語義兩個維度促進信息的保留。

圖像區域保護（IAP）：傳統的平鋪方法將大小為W×H的圖像劃分為一個固定的網格。雖然這種方法在處理高分辨率輸入時效果不錯，但往往會因為不恰當的寬高比處理而扭曲原始圖像的幾何形狀。為了解決這個問題，Eagle 2.5提出了一種以面積優先的平鋪策略，優化了兩個關鍵目標：面積保護和寬高比保真度。
自動降級采樣（ADS）：視覺-語言模型需要在視覺和文本輸入之間仔細分配序列長度預算。Eagle 2.5提出了自動降級采樣（ADS），這是一種以全上下文為中心的策略，動態優化這種平衡。ADS采用雙階段降級過程：時間降級首先優化幀或頁面的采樣，然后是平鋪降級，以最大化利用可用上下文。

漸進式訓練

Eagle 2.5還引入了一個全面的后訓練框架，包含兩種互補的策略：

混合后訓練：ADS方法根據最大序列長度自適應調整每個訓練樣本，提供了一種與幀無關的訓練范式。通過實施混合訓練策略和長度平衡打包，Eagle 2.5能夠在整個上下文長度范圍內均勻優化性能。
漸進式混合后訓練：對于最大序列長度值較大的場景，Eagle 2.5提出了一種漸進式混合訓練方法，逐漸讓模型接觸到越來越長的序列長度，系統地增強其處理擴展上下文的能力。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

Eagle-Video-110K：為長文本理解量身定制的多樣化視頻數據集

現有的視頻數據集往往包含的視頻過短，無法滿足全面長文本理解的需求。Eagle-Video-110K通過從多個來源（如Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M）精心策劃一系列較長的視頻，解決了這一局限性。通過采用基于CLIP嵌入和相似性閾值的多樣性驅動策略，Eagle-Video-110K能夠識別并選擇顯著延長訓練和評估可用平均時長的全新視頻。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

Eagle-Video-110K的另一個亮點是其獨特的雙注釋管道，結合了自上而下和自下而上的方法，以實現全面的視頻理解。在自上而下的方法中，利用人類注釋的章節作為語義上有意義的視頻片段，通過GPT-4o生成章節級密集字幕和長形式問答對。與此同時，自下而上的方法則專注于局部時空細節，通過GPT-4o生成帶有時間間隔參考和文本上下文錨點的剪輯級問答對。這種分層方法使得模型能夠同時實現細粒度的時空理解和高級語義理解，為長文本視頻推理提供了有力支持。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

Eagle-Video-110K對視頻理解性能產生了顯著影響。它不僅在主流的長視頻和短視頻基準測試中提升了模型性能，還通過提供之前開源訓練集中缺失的更長視頻訓練數據，大幅提高了模型處理高幀數（≥128幀）的能力。這一改進在Video-MME基準測試中尤為明顯，Eagle 2.5在使用Eagle-Video-110K訓練時，隨著幀數的增加，性能呈一致的上升趨勢，而其他模型則會趨于平穩甚至退化。

性能與基準測試

Eagle 2.5-8B在多個視頻和圖像理解任務中展現出了強大的性能。在視頻基準測試中，它在MVBench上達到了74.8，在MLVU上達到了77.6，在LongVideoBench上達到了66.4。在圖像基準測試中，該模型在DocVQA上達到了94.1，在ChartQA上達到了87.5，在InfoVQA上達到了80.4等。

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？-AI.x社區

消融研究表明了Eagle采樣策略的重要性。移除IAP會導致在高分辨率基準測試中性能下降，而省略ADS則會降低在需要密集監督的任務中的有效性。模型還從漸進式訓練中受益：逐步增加上下文長度相比一次性長文本訓練能夠帶來更穩定的性能提升。此外，加入Eagle-Video-110K顯著提高了在高幀數（≥128幀）下的性能，進一步凸顯了專門的長文本數據集的價值。

結論

Eagle 2.5為長文本視覺-語言建模提供了一種技術上合理的方法。它強調保持上下文完整性、逐步訓練適應以及數據集多樣性，使其能夠在保持架構通用性的同時實現強大的性能。Eagle 2.5證明了，通過精心設計的訓練策略和數據設計，而非僅僅依賴模型擴展，可以打造出高效、有競爭力的復雜多模態理解系統。這使得Eagle 2.5成為構建更適合現實世界多媒體應用的更具上下文感知能力的AI系統的重要一步。

本文轉載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/pJECaBj-yRxL9xlDx2fY-A??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

NVIDIA

Eagle 2.5

視頻模型

已于2025-4-28 09:23:26修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？原創

長文本理解的困境與挑戰

Eagle 2.5：長文本訓練的“破局者”

圖像和視頻理解的卓越表現

獨特的訓練策略：信息優先采樣與漸進式訓練

信息優先采樣

漸進式訓練

Eagle-Video-110K：為長文本理解量身定制的多樣化視頻數據集

性能與基準測試

結論

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？ 原創

長文本理解的困境與挑戰

Eagle 2.5：長文本訓練的“破局者”

圖像和視頻理解的卓越表現

獨特的訓練策略：信息優先采樣與漸進式訓練

信息優先采樣

漸進式訓練

Eagle-Video-110K：為長文本理解量身定制的多樣化視頻數據集

性能與基準測試

結論

目錄

NVIDIA發布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？原創